この真新しい認識ソリューションは、2021 年 8 月の Tesla AI DAY で Andrej Karpathy によってデモンストレーションされます。このため、テスラはためらうことなく自動操縦アルゴリズムを書き直し、ディープ ニューラル ネットワークをトレーニングするためのインフラストラクチャを再構築しました。
大型モデルの技術が自動運転業界に適用されるのはこれが初めてだ。
今振り返ってみると、現在 GPT は主に自然言語処理の分野で使われていますが、GPT に車を運転させることはできませんが、その背後にある AI ラージモデル技術、特に Transformer アーキテクチャは実際に自動運転を行っています。フィールドが適用されました。
Hegao Capital の創設パートナーである He Yuhua 氏は、Shentu 氏にそのような例を挙げました。広州は夏に雨の日が多く、薄暗い照明のあるシーンでは、大量の昆虫が空中を飛んでいます。車が通り過ぎるとライトが当たり、何千もの飛んでいる昆虫が車の前に当たるかもしれません。この場合、車の自動運転認識システムが壁と誤認する可能性があります。
Lenovo Venture Capital の社長 He Zhiqiang 氏は、自動運転の中核はデータを持つことであり、データはモデルをトレーニングするために非常に重要であると Shentu に語った。 BYDのようなOEMはデータを持っているが、そのアルゴリズムはまだ改良する必要があり、「魏小利」のような新興自動車メーカーはアルゴリズムには優れているが、自動車の販売は十分ではない。データとアルゴリズムの両方を備えている企業は、大規模なモデルを最大限に活用できます。
2 つ目は、システムのコンピューティング導入方法が制限されていることです。
Yu Kai 氏は、OpenAI と ChatGPT は十分なエネルギー供給、電力供給、そして非常に優れたシステムを備えたクラウドでコンピューティングしていると考えていますが、車がバッテリーと車の放熱に依存している場合、これは大きな課題です。これは、自動運転ではそのような大規模なモデルや大規模な計算を使用できないことを意味します。
大規模なモデルによるコンピューティング能力の消費により、クラウド コンピューティング メーカーは、この AI ブームの波で配当を享受する最初のグループとなっています。大企業によるクラウド コンピューティングの開発により、大規模モデルへの道も開かれます。しかし、自動車側では、これは矛盾することになります。
神話上の GPT では夢の車を作ることはできません
ChatGPT の爆発以降、AI モデルは多くのテクノロジー企業が追求するホットスポットになりました。チャットでの会話から画像生成、デスクトップオフィスに至るまで、AIには一夜にしてすべてを破壊する超自然的な力があるようです。
この熱狂は自動車業界にも広がり、実務家たちは「GPT に自動車の製造を任せることは可能だろうか?」と考え始めました。
大型モデルの技術を適用すると発表した自動車会社もあれば、サードパーティ製の大型モデルにアクセスすると発表した自動車会社もあり、GPTという言葉を冠して自動運転システムのリリースを急ぐ自動車会社もあった。
一部の実務家は、スマートコックピットと自動運転が大型モデルの最初の応用シナリオになる可能性があるとShentuに語った。その中でも最も期待されているのが自動運転です。
自動運転は非常に難しい道です。 GoogleやBaiduなどのテクノロジー巨人に加えて、多くの才能ある起業家がそれに専念し、数十億ドルを費やしてきましたが、これまでのところ満足のいく成果は得られていません。
AI大型モデルが自動運転に参入、今回は違う?
GPT と車の関係はどのくらいですか?
GPTは表面的には車と直接の関係はありませんが、実は深い関係があります。物語は6年前に遡る必要があります。
2017年6月、テスラの社長マスク氏はスロバキア人研究者をOpenAIから引き抜いた。その男は後にテスラのAI担当ディレクターとなるアンドレイ・カルパシー氏だった。
当時、マスク氏は人工知能に大きな関心を示し、OpenAIの創設者の一人でもあった。アンドレイ・カルパシー氏を採用した直後、マスク氏はテスラとOpenAIの両方がAIを研究しており、将来的に利益相反が生じる可能性があると考え、OpenAI取締役会を辞任した。
その後、アンドレイ・カルパシーはテスラの自動操縦アルゴリズムを書き直し、BEV の純粋な視覚認識技術を開発しました。これにより、テスラの自動操縦は新たな段階に入りました。そして彼の元所有者であるOpenAIは、一般的な人工知能にすべてのチップを賭け、最終的にGPTを開発しました。
製品の観点から見ると、OpenAI の GPT と Tesla の BEV はまったく別の種類です。しかし、基盤となるテクノロジーの観点から見ると、それらはすべて人工知能テクノロジー、特に Google Transformer モデルのアプリケーションに依存しています。
Transformer は、2017 年に 8 人の Google AI 科学者によって提案されたディープラーニング ニューラル ネットワーク アーキテクチャです。これは人工知能業界において非常に重要な発明であり、今日よく使われている ChatGPT の「T」は Transformer モデルを指します。
従来のニューラル ネットワーク RNN や CNN とは異なり、Transformer はセルフアテンション メカニズムを使用してシーケンス内のさまざまな要素の接続と相関をマイニングし、優れた時系列データ処理機能を備えています。これにより、機械翻訳、テキスト要約、質問応答システムなどのタスクで優れたパフォーマンスを発揮します。
したがって、Transformer は、人間のテキストと言語を理解するために、NLP (高度な自然言語処理) の分野で初めて使用されました。
Transformer モデルでの事前トレーニング、継続的な微調整と反復を経て、OpenAI は GPT-1、GPT-2、GPT-3、GPT-4 などの大規模な言語トレーニング モデルを次々と立ち上げてきました。 ChatGPT は、OpenAI が GPT-3 モデルを微調整して開発した対話ロボットです。会話形式でやりとりできるので一般の人でも使いやすく、これまでのチャットボットよりも「スマート」な点が光ります。
基本的に、ChatGPT の GPT モデル、Google の LaMDA モデル、Baidu の Wenxin モデルはすべて同じ起源を共有しています。
自然言語に Transformer モデルを使用すると、ChatGPT などのチャット アプリケーションが誕生し、コンピュータ ビジョンでの使用でも驚くべき成果が得られました。この点での先駆者は Tesla です。
Andrej Karpathy 氏は、Tesla の AI ディレクターとして在任中、自動運転用のコンピューター ビジョン チームを率い、Transformer モデルを組み合わせることで、Tesla は BEV テクノロジーの開発に成功しました。
BEVの正式名称はBird’s Eye View、鳥瞰図のことです。カメラで捉えた2D画像をつなぎ合わせて3D画像に変換し、一律に俯瞰角度に変換して加工することで「神の視点」を形成することができます。その理由は、運転は三次元空間で行われ、人間が見ているのは二次元の画像ではなく三次元の世界だからです。
この真新しい認識ソリューションは、2021 年 8 月の Tesla AI DAY で Andrej Karpathy によってデモンストレーションされます。このため、テスラはためらうことなく自動操縦アルゴリズムを書き直し、ディープ ニューラル ネットワークをトレーニングするためのインフラストラクチャを再構築しました。
大型モデルの技術が自動運転業界に適用されるのはこれが初めてだ。
今振り返ってみると、現在 GPT は主に自然言語処理の分野で使われていますが、GPT に車を運転させることはできませんが、その背後にある AI ラージモデル技術、特に Transformer アーキテクチャは実際に自動運転を行っています。フィールドが適用されました。
自然言語処理からコンピューター ビジョンまで、2 つの分野は Transformer アーキテクチャに基づいてモデリング構造を統合し、共同モデリングを容易にしました。
そしてAIへの理解が深まるにつれ、自動車会社はますます人工知能企業のようになっていきます。テスラに加えて、李汽車は今年初めに自社のビジョンを発表し、2030年までに人工知能企業になると主張した。今年は都市型NOAナビゲーション支援運転システムを発売する予定で、技術サポートはBEV知覚とトランスフォーマーモデルである。
AI に人と会話させることと、AI に車を運転させることには、両者の着陸シナリオが異なることを除けば、違いはないようです。基礎となるテクノロジーを特定の製品に適用することに関して、人間は常に想像力に満ちています。
GPT は自動運転について教えます
今年の初め以来、GPT が実証した強力な機能は外の世界に衝撃を与えています。一般的な人工知能はもはや空中の城ではありません。自動運転業界の人々は、言語モデル上の生成 AI のアプリケーションを自動運転に移行できるのではないかと考え始めました。
本質的に、言語モデルは人間の言語の数学的モデルです。コンピューターはまだ自然言語を理解していませんが、数学的モデリングを通じて言語の問題を数学的問題に変換します。自然言語は、特定のテキストの履歴を通じて次の単語が出現する確率を予測することによって間接的に理解されます。
運転シーンに切り替えると、現在の交通環境、ナビゲーション地図、ドライバーの運転行動履歴を考慮して、大型モデルは次の運転行動を予測できるでしょうか?
Horizon の創設者である Yu Kai 氏は、今年 4 月に開催された 100 台の電気自動車のフォーラムで、ChatGPT に多くのインスピレーションを受けたと述べ、「私たちは今後もビッグデータ、より大きなデータ、より大きなモデル、そして教師なし学習を使用し続けます。人間は、教師なし、ラベルなしの大量の自然テキストから学習するのと同じように。」彼は、各ドライバーの運転制御のシーケンスは私たちの自然言語のテキストに似ていると主張します。次に、自動運転に戻る大規模な言語モデルを構築したいと考えています。
理論的には、このアイデアは実現可能です。 AIはすでに学習する能力を持っています。適応言語モデルに従って、マシンはユーザーのフィードバックに従って最適化を繰り返し、ユーザーの習慣を学習し、モデルを改善します。現在の ChatGPT はこのテクノロジーを使用しています。そうすれば、機械がドライバーの運転習慣を学習することは難しくありません。
テスラのシャドウモードは、実際のドライバーの運転データを機械学習にフィードするというもの。アルゴリズムをトレーニングする目的は、人間のドライバーの行動を比較することで達成されます。
GPT が新たな AI ブームを引き起こした後、業界への認知的影響は、モデルのパラメータ スケールを増やすことによって、データ量が指数関数的に増加することです (いわゆる大規模モデル)。 , モデルは突然賢くなることがあります。
以前は、トレーニング段階でモデルに必要なデータは手動でラベル付けされていました。自動運転を例にとると、データラベラーは大量の写真を使用してラベルを付け、何が猫で、何が犬で、何種類の猫と犬がいるかを機械に伝えます。アノテーターは機械の先生のようなもので、世界を理解するように何度も機械に教えます。
問題は、教師が教えなかったことを、機械は依然としてできないということです。典型的な例は、テスラが自動操縦による事故を何度も起こしており、機械が認識できずに横転した大型トラックに衝突したというものである。
Hegao Capital の創設パートナーである He Yuhua 氏は、Shentu 氏にそのような例を挙げました。広州は夏に雨の日が多く、薄暗い照明のあるシーンでは、大量の昆虫が空中を飛んでいます。車が通り過ぎるとライトが当たり、何千もの飛んでいる昆虫が車の前に当たるかもしれません。この場合、車の自動運転認識システムが壁と誤認する可能性があります。
自動運転システムはすべてのコーナーケース(極端なシナリオ)を網羅することができず、これが開発上の大きな困難となっている。
ChatGPT が取得するのは、ネットワーク全体のマークされていないデータです。自己教師あり学習では、人間がラベルを付けたラベルに依存するのではなく、データ自体が監視信号として使用されます。ある日、人々は、これらのデータを消化する過程で、大規模なモデルが 1 つのインスタンスから他のケースを推測する機能を突然持つようになったことに気づきました。
それでは、自動運転の大型モデルが、「教師」に教える必要もなく、人間の運転行動を教師なしで学習できるとしたら、システムが突然「古いドライバー」に変わったことを意味するのでしょうか?
GPT の「運転」は信頼できません
夢は美しいですが、それを実現するまでの道のりは常に険しいものです。
ChatGPTのようなAIモデルが自動運転の分野で威力を発揮するには、現時点では少なくとも以下の課題を解決する必要がある。
1つ目はデータソースです。
ChatGPT のデータ ソースは、Wikipedia、書籍、ニュース記事、科学雑誌などを含む非常に豊富で、ネットワーク全体の公開データを栄養源としています。
自動運転は違います。ドライバーの走行データや車両の走行データは非公開であり、プライバシーに関わるものも多い。自動車メーカーや自動運転会社はそれぞれ独立して運営しており、データは閉鎖的で流通していないため、データの入手が困難です。データがなければ自動運転は水源のない水のようなものです。
Lenovo Venture Capital の社長 He Zhiqiang 氏は、自動運転の中核はデータを持つことであり、データはモデルをトレーニングするために非常に重要であると Shentu に語った。 BYDのようなOEMはデータを持っているが、そのアルゴリズムはまだ改良する必要があり、「魏小利」のような新興自動車メーカーはアルゴリズムには優れているが、自動車の販売は十分ではない。データとアルゴリズムの両方を備えている企業は、大規模なモデルを最大限に活用できます。
2 つ目は、システムのコンピューティング導入方法が制限されていることです。
Yu Kai 氏は、OpenAI と ChatGPT は十分なエネルギー供給、電力供給、そして非常に優れたシステムを備えたクラウドでコンピューティングしていると考えていますが、車がバッテリーと車の放熱に依存している場合、これは大きな課題です。これは、自動運転ではそのような大規模なモデルや大規模な計算を使用できないことを意味します。
大規模なモデルによるコンピューティング能力の消費により、クラウド コンピューティング メーカーは、この AI ブームの波で配当を享受する最初のグループとなっています。大企業によるクラウド コンピューティングの開発により、大規模モデルへの道も開かれます。しかし、自動車側では、これは矛盾することになります。
さらに大きな問題は、大型モデルの信頼性が検証されていないことだ。
ChatGPT を使用したことのある人は、ChatGPT がナンセンスなこともあれば、正しいことも間違っていることもあるということを知っています。これは、業界では幻覚の傾向、まったく出所のない非現実的なコンテンツを作成する傾向として知られています。大きなモデルは、その真実性や正確性を気にせずに物事を作り上げます。
おしゃべりはナンセンスかもしれませんが、自動運転はナンセンスです。間違った出力の結果は致命的になる可能性があります。
「ChatGPTは大きな進歩を遂げたが、自動運転はまだ実現していない。自動運転、特に無人運転は過失許容率がゼロになる可能性があり、これは死活問題だ」とYu Kai氏は述べた。
かつてシリコンバレーのAI新興企業の最高執行責任者(COO)を務めたLong Zhiyong氏は、制御不能、予測不能、信頼性の低さが大型モデルの商用化に対する最大の脅威であると考えている。典型的な症状は、大型モデルが幻覚を見る傾向があることです。
さて、自動運転システムが選択と区別を学習し、安定して最適解を出力することは現実的ではありません。
人工知能企業の内部関係者はShentuに次のように語った。「アルゴリズムレベルでは確かに視覚認識において多くの画期的な進歩が見られる。しかし、自動車のシーンはあまりにも要求が厳しい。個人的には短期的には大きな進歩はないと思う」 . スペシャルスラの動きに注目だ。
しかし、最近テクノロジー業界では、大小を問わず企業が GPT のホットスポットに注目したいという傾向があります。一部の自動車メーカーは GPT のようなテクノロジーを適用すると発表しており、クールなコンセプトの数々が人々を混乱させています。
たとえば、伝統的な自動車会社傘下の自動運転会社は、自動運転のための大規模な生成モデルをリリースしました。このモデルを自動運転のトレーニングに使用するのは「業界初」と言われています。
スマートカーの軌道に長い間注目してきた投資家が、業界のリーダーにこのモデルについてどう思うかと尋ねたところ、相手は「TM ナンセンス」という 4 つの単語で答えました。
「それは単なるPR行為だ」と投資家はシェントゥについてコメントした。
自動運転、打倒され再スタートか?
テスラの推進に加え、今年出現した AI の波と相まって、自動運転業界は徐々に大型モデル、大規模なコンピューティング能力、ビッグデータの方向に近づきつつあります。
自動運転に対する大型モデルの影響はまだ十分に劇的ではありませんが、鋭い嗅覚を持つ人々は両義性を示しています。
Tesla が Transformer を使用してマルチカメラ データを画像空間から BEV 空間に変換したときと同じように、元のアーキテクチャを覆してアルゴリズムを書き直すことを躊躇しませんでした。今回の大規模モデルの適用は、当初の自動運転アルゴリズムが覆され再スタートすることを意味する可能性もある。
He Zhiqiang 氏は、大型モデルが自動運転に多大な影響を与えると考えています。以前は自動運転には小型モデルが多かったですが、今は大型モデルになっており、やり直しが必要になるかもしれません。自動運転業界は再編されるだろう。
AIチップ会社の自動運転担当ディレクター、Zhao Dongxiang氏は、全体的なエンドツーエンドの変更は、最初からやり直すのと同じだとShentuに語った。
シャッフルは新規参入者にとってはチャンスですが、リーダーにとっては脅威です。カーブでの追い越しの話は、テクノロジーの急速な変化の時代によく起こります。急速なテクノロジーの時代においては、古いルートへの投資が多ければ多いほど、サンクコストが増大し、収益を回復することがより困難になる可能性があります。 OEM や自動運転会社が新しい技術を採用するには、効果だけでなくコストも考慮する必要があります。
趙東祥氏は、現段階に関する限り、自動運転の技術路線を変更するのは無意味だとし、「今、業界の技術力は悪くない。誰もが多額の費用を費やし、長い間取り組んできた。もしあれば」と語った。実質的な改善はなく、変化する動機もありません。」
昨年末のAI DAYでテスラはBEVを占有ネットワーク(占有ネットワーク)にアップグレードし、汎化能力がさらに向上した。テスラの自動操縦認識システムは、ネットワークを占有することで、見えている物体が何であるかを知らなくても、ネットワークを回避する必要があるかどうかを判断できるため、より多くのロングテール問題を解決できる。
どのような技術的なルートであっても、現在、急速な変化と反復が起こっています。過去の小型モデルは大型モデルに置き換えられる可能性があり、また、現在の大型モデルも将来的にはいくつかの新種に置き換えられる可能性があります。
しかし、いずれにせよ、ホットスポットをこすったり、ギミックを作ったりする行為は技術の進歩にはつながりません。 「暑さに従うのは悪い習慣で、現実的な方法で製品を作ることが有益です」と趙東祥氏は言う。
自動運転の本当の「王様爆弾」は、まだまだ遠いところにあります。私たちがしなければならないのは、あらゆるテクノロジーの変化に畏敬の念を抱き続けることです。神話上の GPT で夢の車を作ることはできませんが、少なくとも変化は起こりました。