Après l'explosion de ChatGPT, le modèle d'IA est devenu un point chaud poursuivi par de nombreuses entreprises technologiques. Des conversations de chat à la génération d'images, en passant par le bureau de bureau, il semble que l'IA ait le pouvoir surnaturel de tout subvertir du jour au lendemain.
L'engouement s'est propagé à l'industrie automobile et les praticiens ont commencé à se demander : est-il possible de laisser GPT construire des voitures ?
Certains constructeurs automobiles ont annoncé qu'ils appliqueraient la technologie des modèles à grande échelle, tandis que d'autres ont déclaré qu'ils accéderaient à de grands modèles tiers, et certains constructeurs automobiles se sont précipités pour lancer le système de conduite automatique avec le mot GPT.
Certains praticiens ont déclaré à Shentu que le cockpit intelligent et la conduite automatique pourraient être les premiers scénarios d'application des grands modèles. Parmi elles, la conduite autonome est la plus attendue.
La conduite autonome est une piste extrêmement difficile. En plus des géants de la technologie tels que Google et Baidu, un grand nombre d'entrepreneurs talentueux s'y sont consacrés et ont brûlé des milliards de dollars, mais jusqu'à présent, ils n'ont pas obtenu de résultats satisfaisants.
L'IA grand modèle passe à la conduite automatique, en sera-t-il différent cette fois-ci ?
Quelle est la relation entre GPT et les voitures ?
GPT n'a pas de relation directe avec les voitures en surface, mais en fait, il a une relation profonde. L'histoire doit commencer il y a six ans.
En juin 2017, Musk, le patron de Tesla, a débauche un chercheur slovaque d'OpenAI. L'homme était Andrej Karpathy, qui devint plus tard le directeur de l'IA de Tesla.
À cette époque, Musk montrait un grand intérêt pour l'intelligence artificielle et il était également l'un des fondateurs d'OpenAI. Peu de temps après avoir recruté Andrej Karpathy, Musk a quitté le conseil d'administration d'OpenAI, pensant que Tesla et OpenAI faisaient des recherches sur l'IA et qu'il pourrait y avoir des conflits d'intérêts à l'avenir.
Plus tard, Andrej Karpathy a réécrit l'algorithme du pilote automatique dans Tesla et a développé la technologie de perception visuelle pure BEV, qui a amené le pilote automatique Tesla dans une nouvelle étape. Et son ancien propriétaire, OpenAI, a misé tous les jetons sur l'intelligence artificielle générale, et a finalement développé GPT.
Du point de vue du produit, le GPT d'OpenAI et le BEV de Tesla sont des espèces complètement différentes. Mais du point de vue de la technologie sous-jacente, ils reposent tous sur la technologie de l'intelligence artificielle, en particulier l'application du modèle Google Transformer.
Transformer est une architecture de réseau de neurones d'apprentissage en profondeur proposée par 8 scientifiques de Google AI en 2017. Il s'agit d'une invention extrêmement importante dans l'industrie de l'intelligence artificielle. Le "T" dans le populaire ChatGPT d'aujourd'hui fait référence au modèle Transformer.
Différent des réseaux de neurones traditionnels RNN et CNN, Transformer utilise un mécanisme d'auto-attention pour exploiter la connexion et la corrélation des différents éléments de la séquence, et a une bonne capacité à traiter les données de séries chronologiques. Cela lui permet d'afficher des performances exceptionnelles dans des tâches telles que la traduction automatique, la synthèse de texte et les systèmes de réponse aux questions.
Par conséquent, Transformer a d'abord été utilisé dans le domaine du NLP (traitement avancé du langage naturel) pour comprendre le texte et le langage humains.
Pré-formation sur le modèle Transformer, après ajustement et itération continus, OpenAI a successivement lancé de grands modèles de formation linguistique tels que GPT-1, GPT-2, GPT-3 et GPT-4. ChatGPT est un robot de dialogue développé par OpenAI après avoir affiné le modèle GPT-3. Parce qu'il peut interagir de manière conversationnelle, les gens ordinaires sont faciles à utiliser, et il est plus "intelligent" que les chatbots du passé, donc ça brille.
Fondamentalement, le modèle GPT de ChatGPT, le modèle LaMDA de Google et le modèle Wenxin de Baidu partagent tous la même origine.
L'utilisation du modèle Transformer pour le langage naturel a donné naissance à des applications de chat telles que ChatGPT ; son utilisation dans la vision par ordinateur a également obtenu des résultats étonnants. Le pionnier en la matière est Tesla.
Andrej Karpathy était chargé de diriger l'équipe de vision par ordinateur pour la conduite autonome pendant son mandat de directeur de l'intelligence artificielle de Tesla En combinant le modèle Transformer, Tesla a réussi à développer la technologie BEV.
Le nom complet de BEV est Bird's Eye View, qui est une vue à vol d'oiseau. Il peut convertir les images 2D capturées par la caméra en images 3D par épissage, et les convertir uniformément à l'angle de surplomb pour le traitement, formant une "perspective de Dieu". La raison en est que la conduite s'effectue dans un espace en trois dimensions et que ce que les gens voient est un monde en trois dimensions et non une image en 2D.
Cette toute nouvelle solution de perception sera présentée par Andrej Karpathy lors du Tesla AI DAY en août 2021. Pour cette raison, Tesla n'a pas hésité à réécrire l'algorithme du pilote automatique et a reconstruit l'infrastructure d'entraînement des réseaux de neurones profonds.
C'est la première fois que la technologie des grands modèles est appliquée à l'industrie de la conduite autonome.
Avec le recul aujourd'hui, bien que GPT soit actuellement principalement utilisé dans le domaine du traitement du langage naturel, nous ne pouvons pas laisser GPT conduire une voiture, mais la technologie de grand modèle d'IA derrière, en particulier l'architecture Transformer, a en fait conduit de manière autonome. terrain appliqué.
Du traitement du langage naturel à la vision par ordinateur, les deux domaines ont unifié la structure de modélisation basée sur l'architecture Transformer, facilitant la modélisation conjointe.
Et à mesure que la compréhension de l'IA s'approfondit, les constructeurs automobiles ressemblent de plus en plus à des sociétés d'intelligence artificielle. En plus de Tesla, Li Auto a annoncé sa vision d'entreprise plus tôt cette année, prétendant devenir une société d'intelligence artificielle d'ici 2030. Elle lancera cette année le système de conduite assistée par navigation urbaine NOA, et le support technique est le modèle BEV perception et Transformer.
Il semble n'y avoir aucune différence entre laisser l'IA parler aux gens et laisser l'IA conduire une voiture, sauf que les scénarios d'atterrissage des deux sont différents. Les êtres humains sont toujours pleins d'imagination lorsqu'il s'agit d'appliquer la technologie sous-jacente à des produits spécifiques.
GPT enseigne ces choses sur la conduite automatique
Depuis le début de cette année, les puissantes capacités démontrées par GPT ont choqué le monde extérieur. L'intelligence artificielle générale n'est plus un château dans les airs. Les gens de l'industrie de la conduite autonome ont commencé à penser que l'application de l'IA générative sur les modèles linguistiques pouvait peut-être être migrée vers la conduite autonome.
Essentiellement, un modèle de langage est un modèle mathématique du langage humain. L'ordinateur ne comprend toujours pas le langage naturel, mais il transforme les problèmes de langage en problèmes mathématiques grâce à la modélisation mathématique. Le langage naturel est compris indirectement en prédisant la probabilité d'apparition du mot suivant dans l'histoire d'un texte donné.
En passant à la scène de conduite, compte tenu de l'environnement de circulation actuel, d'une carte de navigation et de l'historique du comportement de conduite d'un conducteur, le grand modèle peut-il prédire la prochaine action de conduite ?
Yu Kai, le fondateur d'Horizon, a déclaré lors du Forum des 100 véhicules électriques qui s'est tenu en avril de cette année que ChatGPT l'avait beaucoup inspiré : "Nous continuerons à utiliser les données volumineuses, les données volumineuses, les modèles plus volumineux et l'apprentissage non supervisé. Les humains essaient de lecteur, tout comme vous apprenez à partir d'une grande quantité de texte naturel non supervisé et sans étiquette." Il soutient que les séquences des commandes de conduite de chaque conducteur sont comme nos textes en langage naturel. Ensuite, il veut construire un grand modèle de langage qui revient à la conduite autonome.
En théorie, cette idée est réalisable. L'IA a déjà la capacité d'apprendre. Selon le modèle de langage adaptatif, la machine continuera à optimiser de manière itérative en fonction des commentaires de l'utilisateur, à apprendre les habitudes de l'utilisateur, puis à améliorer le modèle. Le ChatGPT actuel utilise cette technologie. Ensuite, il n'est pas difficile pour la machine d'apprendre les habitudes de conduite du conducteur.
Le mode fantôme de Tesla consiste à transmettre les données de conduite de vrais conducteurs à l'apprentissage automatique. L'objectif de la formation de l'algorithme est atteint en comparant le comportement des conducteurs humains.
Après que GPT ait déclenché un nouveau cycle de boom de l'IA, un impact cognitif sur l'industrie est qu'en augmentant l'échelle des paramètres du modèle, la quantité de données augmente de façon exponentielle, c'est ce qu'on appelle le grand modèle. , Les modèles peuvent soudainement être intelligents.
Auparavant, les données requises par le modèle pendant la phase d'apprentissage étaient étiquetées manuellement. Prenant l'exemple de la conduite autonome, l'étiqueteuse de données utilise un grand nombre d'images pour étiqueter et dire à la machine ce qu'est un chat, ce qu'est un chien et combien de types de chats et de chiens il y a. L'annotateur est comme le professeur de la machine, lui apprenant à comprendre le monde encore et encore.
Le problème est que ce que le professeur n'a pas enseigné, la machine ne le peut toujours pas. Un exemple typique est que Tesla a eu plusieurs fois des accidents de pilote automatique et que le véhicule a heurté un gros camion qui s'est renversé parce que la machine ne pouvait pas le reconnaître.
He Yuhua, le partenaire fondateur de Hegao Capital, a donné un tel exemple à Shentu : Guangzhou a de fréquents jours de pluie en été, et dans certaines scènes avec des lumières tamisées, il y aura un grand nombre d'insectes volants dans l'air. Lorsqu'une voiture passe, les lumières s'allument et il peut y avoir des milliers d'insectes volants qui frappent l'avant de la voiture. Dans ce cas, le système de perception de conduite autonome de la voiture peut le confondre avec un mur.
Le système de conduite automatique ne peut épuiser tous les cas extrêmes (scénarios extrêmes), ce qui constitue une difficulté majeure dans son développement.
Ce que ChatGPT récupère, ce sont les données non marquées de l'ensemble du réseau. Dans l'apprentissage auto-supervisé, les données elles-mêmes sont utilisées comme un signal de supervision, plutôt que de s'appuyer sur des étiquettes étiquetées par l'homme. Un jour, les gens ont découvert qu'au cours du processus de digestion de ces données, le grand modèle avait soudainement la capacité de déduire d'autres cas à partir d'une instance.
Alors, si le grand modèle de conduite autonome peut aussi apprendre le comportement de conduite humaine sans supervision, sans avoir besoin d'un « enseignant » pour l'enseigner, cela signifie-t-il que le système a soudainement changé et est devenu un « vieux conducteur » ?
GPT "conduite", n'est pas fiable
Les rêves sont beaux et la route pour les réaliser est toujours très mince.
Pour qu'un modèle d'IA similaire à ChatGPT exerce son pouvoir dans le domaine de la conduite autonome, au moins les problèmes suivants doivent être résolus à l'heure actuelle.
Le premier est la source de données.
Les sources de données de ChatGPT sont très riches, y compris Wikipédia, des livres, des articles de presse, des revues scientifiques, etc., ce qui équivaut aux données publiques de l'ensemble du réseau comme sa nourriture.
La conduite autonome est différente. Les données de conduite du conducteur et les données de conduite du véhicule ne sont pas divulguées, et nombre d'entre elles impliquent la confidentialité. Les constructeurs automobiles et les entreprises autonomes fonctionnent de manière indépendante, et les données sont fermées et non diffusées, ce qui rend difficile l'obtention de données. Sans données, la conduite autonome est de l'eau sans source.
He Zhiqiang, président de Lenovo Venture Capital, a déclaré à Shentu que le cœur de la conduite autonome est d'avoir des données, et les données sont très importantes pour les modèles de formation. Les équipementiers comme BYD ont des données, mais leurs algorithmes doivent encore être affinés.Les nouveaux constructeurs automobiles tels que "Wei Xiaoli" sont bons en algorithmes, mais leurs ventes de voitures ne suffisent pas. Les entreprises disposant à la fois de données et d'algorithmes peuvent tirer pleinement parti des grands modèles.
La seconde est que la méthode de déploiement informatique du système est limitée.
Yu Kai pense qu'OpenAI et ChatGPT calculent dans le cloud, qui dispose d'une alimentation en énergie suffisante, d'une alimentation électrique et d'un très bon système, mais si la voiture repose sur la batterie et la dissipation thermique de la voiture, alors cela Le défi est grand , ce qui signifie que la conduite automatique ne peut pas utiliser un si grand modèle et un si grand calcul.
La consommation de puissance de calcul par les grands modèles a amené les fabricants de cloud computing à devenir le premier groupe d'acteurs à profiter des dividendes de cette vague de boom de l'IA. Le développement du cloud computing par les grandes entreprises ouvre également la voie aux grands modèles. Mais du côté de la voiture, ce sera une contradiction.
Un problème plus important est que la fiabilité des grands modèles n'a pas été vérifiée.
Les personnes qui ont utilisé ChatGPT savent que ChatGPT dit parfois des bêtises, parfois raison et parfois tort. Ceci est connu dans l'industrie comme une tendance à l'hallucination, la tendance à produire un contenu irréel qui n'a aucune provenance. Les grands modèles inventent des choses sans se soucier de leur véracité et de leur exactitude.
Le chat peut être un non-sens, mais la conduite automatique ne le peut pas. Le résultat d'une mauvaise sortie peut être fatal.
"ChatGPT a fait de grands progrès, mais la conduite automatique n'est pas encore arrivée, car la conduite automatique, en particulier la conduite sans pilote, peut avoir un taux de tolérance zéro aux pannes, ce qui est une question de vie ou de mort", a déclaré Yu Kai.
Long Zhiyong, qui a déjà été directeur de l'exploitation d'une start-up d'intelligence artificielle dans la Silicon Valley, estime que l'incontrôlable, l'imprévisible et le manque de fiabilité sont les plus grandes menaces à la commercialisation des grands modèles. Une manifestation typique est que le grand modèle a tendance à halluciner.
Maintenant, il n'est pas réaliste que le système de conduite automatique apprenne à choisir et à distinguer, et à produire la solution optimale de manière stable.
Un initié d'une société d'intelligence artificielle a déclaré à Shentu : "Il y a en effet de nombreuses percées dans la perception visuelle au niveau de l'algorithme. Mais la scène de la voiture est trop exigeante. Personnellement, je ne pense pas qu'il y aura une grande percée à court terme. . Vous pouvez prêter attention aux mouvements spéciaux de Sla."
Cependant, récemment, il y a eu une tendance dans le cercle technologique selon laquelle les entreprises, grandes et petites, veulent jeter un coup d'œil aux points chauds de GPT. Certains constructeurs automobiles ont annoncé qu'ils étaient sur le point d'appliquer une technologie de type GPT, et un tas de concepts sympas rendent les gens confus.
Par exemple, une entreprise de conduite autonome relevant d'une entreprise automobile traditionnelle a publié un grand modèle génératif de conduite autonome, qui est appelé "le premier du secteur" à utiliser ce modèle pour former la conduite autonome.
Un investisseur qui s'intéresse depuis longtemps à la piste des voitures intelligentes a demandé à un chef de file de l'industrie ce qu'il pensait du modèle, et l'autre partie a répondu en quatre mots : "TM absurde".
"C'est juste un acte de relations publiques." L'investisseur a commenté Shentu.
La conduite autonome, va-t-elle être renversée et relancée ?
Poussée par Tesla, couplée à la vague d'IA émergeant cette année, l'industrie de la conduite autonome se rapproche progressivement de la direction des grands modèles, de la grande puissance de calcul et du big data.
L'impact des grands modèles sur la conduite autonome n'est pas encore assez drastique, mais les personnes ayant un odorat très développé ont montré une ambivalence.
Tout comme lorsque Tesla a utilisé Transformer pour convertir des données multi-caméras de l'espace image vers l'espace BEV, il n'a pas hésité à renverser l'architecture d'origine et à réécrire l'algorithme. L'application de grands modèles maintenant peut également signifier que l'algorithme de conduite automatique d'origine sera renversé et redémarré.
He Zhiqiang pense que les grands modèles auront un impact énorme sur la conduite autonome. Dans le passé, de nombreux petits modèles étaient utilisés pour la conduite autonome, mais maintenant c'est devenu un grand modèle, et il faudra peut-être tout recommencer. L'industrie de la conduite autonome sera remaniée.
Zhao Dongxiang, directeur de la conduite autonome dans une société de puces IA, a déclaré à Shentu que le changement global de bout en bout équivaut à tout recommencer.
Le shuffling est une opportunité pour les nouveaux entrants et une menace pour les leaders. L'histoire d'un dépassement dans une courbe se produit souvent dans une période de changement technologique rapide. À l'ère de la technologie rapide, plus les investissements dans l'ancien itinéraire sont importants, plus le coût irrécupérable peut être élevé et plus il est difficile de faire demi-tour. Pour les équipementiers ou les entreprises de conduite autonome, pour adopter une nouvelle technologie, non seulement l'effet mais aussi le coût doivent être pris en compte.
Zhao Dongxiang a déclaré qu'en ce qui concerne l'étape actuelle, il est inutile de changer la voie technique de la conduite automatique. "Maintenant, les capacités techniques de l'industrie ne sont pas mauvaises. Tout le monde a dépensé tellement d'argent et l'a fait pendant si longtemps. S'il y a n'y a pas d'amélioration substantielle, il n'y a pas de motivation pour changer."
Le AI DAY à la fin de l'année dernière, Tesla a mis à niveau le BEV vers un réseau d'occupation (réseau d'occupation), et la capacité de généralisation a encore été améliorée. En occupant le réseau, le système de perception du pilote automatique de Tesla peut juger s'il doit l'éviter sans savoir quel objet il voit, résolvant ainsi des problèmes plus longs.
Quel que soit le type d'itinéraire technique, il subit actuellement des changements et des itérations rapides. Les petits modèles du passé peuvent être remplacés par de grands modèles, et les grands modèles d'aujourd'hui peuvent également être remplacés par de nouvelles espèces à l'avenir.
Mais dans tous les cas, la pratique consistant à frotter les points chauds et à fabriquer des gadgets n'est pas propice au progrès technologique. "C'est une mauvaise habitude de suivre la chaleur, et il est utile de fabriquer des produits de manière terre-à-terre", a déclaré Zhao Dongxiang.
La véritable "bombe royale" de la conduite autonome est loin d'être arrivée. Ce que nous devons faire, c'est rester impressionnés par chaque cycle de changement technologique. Le mythique GPT ne peut pas construire la voiture de vos rêves, mais au moins, des changements ont eu lieu.
Voir l'original
Le contenu est fourni à titre de référence uniquement, il ne s'agit pas d'une sollicitation ou d'une offre. Aucun conseil en investissement, fiscalité ou juridique n'est fourni. Consultez l'Avertissement pour plus de détails sur les risques.
Le mythique GPT ne peut pas construire la voiture de vos rêves
Après l'explosion de ChatGPT, le modèle d'IA est devenu un point chaud poursuivi par de nombreuses entreprises technologiques. Des conversations de chat à la génération d'images, en passant par le bureau de bureau, il semble que l'IA ait le pouvoir surnaturel de tout subvertir du jour au lendemain.
L'engouement s'est propagé à l'industrie automobile et les praticiens ont commencé à se demander : est-il possible de laisser GPT construire des voitures ?
Certains constructeurs automobiles ont annoncé qu'ils appliqueraient la technologie des modèles à grande échelle, tandis que d'autres ont déclaré qu'ils accéderaient à de grands modèles tiers, et certains constructeurs automobiles se sont précipités pour lancer le système de conduite automatique avec le mot GPT.
Certains praticiens ont déclaré à Shentu que le cockpit intelligent et la conduite automatique pourraient être les premiers scénarios d'application des grands modèles. Parmi elles, la conduite autonome est la plus attendue.
La conduite autonome est une piste extrêmement difficile. En plus des géants de la technologie tels que Google et Baidu, un grand nombre d'entrepreneurs talentueux s'y sont consacrés et ont brûlé des milliards de dollars, mais jusqu'à présent, ils n'ont pas obtenu de résultats satisfaisants.
L'IA grand modèle passe à la conduite automatique, en sera-t-il différent cette fois-ci ?
Quelle est la relation entre GPT et les voitures ?
GPT n'a pas de relation directe avec les voitures en surface, mais en fait, il a une relation profonde. L'histoire doit commencer il y a six ans.
En juin 2017, Musk, le patron de Tesla, a débauche un chercheur slovaque d'OpenAI. L'homme était Andrej Karpathy, qui devint plus tard le directeur de l'IA de Tesla.
À cette époque, Musk montrait un grand intérêt pour l'intelligence artificielle et il était également l'un des fondateurs d'OpenAI. Peu de temps après avoir recruté Andrej Karpathy, Musk a quitté le conseil d'administration d'OpenAI, pensant que Tesla et OpenAI faisaient des recherches sur l'IA et qu'il pourrait y avoir des conflits d'intérêts à l'avenir.
Plus tard, Andrej Karpathy a réécrit l'algorithme du pilote automatique dans Tesla et a développé la technologie de perception visuelle pure BEV, qui a amené le pilote automatique Tesla dans une nouvelle étape. Et son ancien propriétaire, OpenAI, a misé tous les jetons sur l'intelligence artificielle générale, et a finalement développé GPT.
Du point de vue du produit, le GPT d'OpenAI et le BEV de Tesla sont des espèces complètement différentes. Mais du point de vue de la technologie sous-jacente, ils reposent tous sur la technologie de l'intelligence artificielle, en particulier l'application du modèle Google Transformer.
Transformer est une architecture de réseau de neurones d'apprentissage en profondeur proposée par 8 scientifiques de Google AI en 2017. Il s'agit d'une invention extrêmement importante dans l'industrie de l'intelligence artificielle. Le "T" dans le populaire ChatGPT d'aujourd'hui fait référence au modèle Transformer.
Différent des réseaux de neurones traditionnels RNN et CNN, Transformer utilise un mécanisme d'auto-attention pour exploiter la connexion et la corrélation des différents éléments de la séquence, et a une bonne capacité à traiter les données de séries chronologiques. Cela lui permet d'afficher des performances exceptionnelles dans des tâches telles que la traduction automatique, la synthèse de texte et les systèmes de réponse aux questions.
Par conséquent, Transformer a d'abord été utilisé dans le domaine du NLP (traitement avancé du langage naturel) pour comprendre le texte et le langage humains.
Pré-formation sur le modèle Transformer, après ajustement et itération continus, OpenAI a successivement lancé de grands modèles de formation linguistique tels que GPT-1, GPT-2, GPT-3 et GPT-4. ChatGPT est un robot de dialogue développé par OpenAI après avoir affiné le modèle GPT-3. Parce qu'il peut interagir de manière conversationnelle, les gens ordinaires sont faciles à utiliser, et il est plus "intelligent" que les chatbots du passé, donc ça brille.
Fondamentalement, le modèle GPT de ChatGPT, le modèle LaMDA de Google et le modèle Wenxin de Baidu partagent tous la même origine.
L'utilisation du modèle Transformer pour le langage naturel a donné naissance à des applications de chat telles que ChatGPT ; son utilisation dans la vision par ordinateur a également obtenu des résultats étonnants. Le pionnier en la matière est Tesla.
Andrej Karpathy était chargé de diriger l'équipe de vision par ordinateur pour la conduite autonome pendant son mandat de directeur de l'intelligence artificielle de Tesla En combinant le modèle Transformer, Tesla a réussi à développer la technologie BEV.
Le nom complet de BEV est Bird's Eye View, qui est une vue à vol d'oiseau. Il peut convertir les images 2D capturées par la caméra en images 3D par épissage, et les convertir uniformément à l'angle de surplomb pour le traitement, formant une "perspective de Dieu". La raison en est que la conduite s'effectue dans un espace en trois dimensions et que ce que les gens voient est un monde en trois dimensions et non une image en 2D.
Cette toute nouvelle solution de perception sera présentée par Andrej Karpathy lors du Tesla AI DAY en août 2021. Pour cette raison, Tesla n'a pas hésité à réécrire l'algorithme du pilote automatique et a reconstruit l'infrastructure d'entraînement des réseaux de neurones profonds.
C'est la première fois que la technologie des grands modèles est appliquée à l'industrie de la conduite autonome.
Avec le recul aujourd'hui, bien que GPT soit actuellement principalement utilisé dans le domaine du traitement du langage naturel, nous ne pouvons pas laisser GPT conduire une voiture, mais la technologie de grand modèle d'IA derrière, en particulier l'architecture Transformer, a en fait conduit de manière autonome. terrain appliqué.
Du traitement du langage naturel à la vision par ordinateur, les deux domaines ont unifié la structure de modélisation basée sur l'architecture Transformer, facilitant la modélisation conjointe.
Et à mesure que la compréhension de l'IA s'approfondit, les constructeurs automobiles ressemblent de plus en plus à des sociétés d'intelligence artificielle. En plus de Tesla, Li Auto a annoncé sa vision d'entreprise plus tôt cette année, prétendant devenir une société d'intelligence artificielle d'ici 2030. Elle lancera cette année le système de conduite assistée par navigation urbaine NOA, et le support technique est le modèle BEV perception et Transformer.
Il semble n'y avoir aucune différence entre laisser l'IA parler aux gens et laisser l'IA conduire une voiture, sauf que les scénarios d'atterrissage des deux sont différents. Les êtres humains sont toujours pleins d'imagination lorsqu'il s'agit d'appliquer la technologie sous-jacente à des produits spécifiques.
GPT enseigne ces choses sur la conduite automatique
Depuis le début de cette année, les puissantes capacités démontrées par GPT ont choqué le monde extérieur. L'intelligence artificielle générale n'est plus un château dans les airs. Les gens de l'industrie de la conduite autonome ont commencé à penser que l'application de l'IA générative sur les modèles linguistiques pouvait peut-être être migrée vers la conduite autonome.
Essentiellement, un modèle de langage est un modèle mathématique du langage humain. L'ordinateur ne comprend toujours pas le langage naturel, mais il transforme les problèmes de langage en problèmes mathématiques grâce à la modélisation mathématique. Le langage naturel est compris indirectement en prédisant la probabilité d'apparition du mot suivant dans l'histoire d'un texte donné.
En passant à la scène de conduite, compte tenu de l'environnement de circulation actuel, d'une carte de navigation et de l'historique du comportement de conduite d'un conducteur, le grand modèle peut-il prédire la prochaine action de conduite ?
Yu Kai, le fondateur d'Horizon, a déclaré lors du Forum des 100 véhicules électriques qui s'est tenu en avril de cette année que ChatGPT l'avait beaucoup inspiré : "Nous continuerons à utiliser les données volumineuses, les données volumineuses, les modèles plus volumineux et l'apprentissage non supervisé. Les humains essaient de lecteur, tout comme vous apprenez à partir d'une grande quantité de texte naturel non supervisé et sans étiquette." Il soutient que les séquences des commandes de conduite de chaque conducteur sont comme nos textes en langage naturel. Ensuite, il veut construire un grand modèle de langage qui revient à la conduite autonome.
En théorie, cette idée est réalisable. L'IA a déjà la capacité d'apprendre. Selon le modèle de langage adaptatif, la machine continuera à optimiser de manière itérative en fonction des commentaires de l'utilisateur, à apprendre les habitudes de l'utilisateur, puis à améliorer le modèle. Le ChatGPT actuel utilise cette technologie. Ensuite, il n'est pas difficile pour la machine d'apprendre les habitudes de conduite du conducteur.
Le mode fantôme de Tesla consiste à transmettre les données de conduite de vrais conducteurs à l'apprentissage automatique. L'objectif de la formation de l'algorithme est atteint en comparant le comportement des conducteurs humains.
Après que GPT ait déclenché un nouveau cycle de boom de l'IA, un impact cognitif sur l'industrie est qu'en augmentant l'échelle des paramètres du modèle, la quantité de données augmente de façon exponentielle, c'est ce qu'on appelle le grand modèle. , Les modèles peuvent soudainement être intelligents.
Auparavant, les données requises par le modèle pendant la phase d'apprentissage étaient étiquetées manuellement. Prenant l'exemple de la conduite autonome, l'étiqueteuse de données utilise un grand nombre d'images pour étiqueter et dire à la machine ce qu'est un chat, ce qu'est un chien et combien de types de chats et de chiens il y a. L'annotateur est comme le professeur de la machine, lui apprenant à comprendre le monde encore et encore.
Le problème est que ce que le professeur n'a pas enseigné, la machine ne le peut toujours pas. Un exemple typique est que Tesla a eu plusieurs fois des accidents de pilote automatique et que le véhicule a heurté un gros camion qui s'est renversé parce que la machine ne pouvait pas le reconnaître.
He Yuhua, le partenaire fondateur de Hegao Capital, a donné un tel exemple à Shentu : Guangzhou a de fréquents jours de pluie en été, et dans certaines scènes avec des lumières tamisées, il y aura un grand nombre d'insectes volants dans l'air. Lorsqu'une voiture passe, les lumières s'allument et il peut y avoir des milliers d'insectes volants qui frappent l'avant de la voiture. Dans ce cas, le système de perception de conduite autonome de la voiture peut le confondre avec un mur.
Le système de conduite automatique ne peut épuiser tous les cas extrêmes (scénarios extrêmes), ce qui constitue une difficulté majeure dans son développement.
Ce que ChatGPT récupère, ce sont les données non marquées de l'ensemble du réseau. Dans l'apprentissage auto-supervisé, les données elles-mêmes sont utilisées comme un signal de supervision, plutôt que de s'appuyer sur des étiquettes étiquetées par l'homme. Un jour, les gens ont découvert qu'au cours du processus de digestion de ces données, le grand modèle avait soudainement la capacité de déduire d'autres cas à partir d'une instance.
Alors, si le grand modèle de conduite autonome peut aussi apprendre le comportement de conduite humaine sans supervision, sans avoir besoin d'un « enseignant » pour l'enseigner, cela signifie-t-il que le système a soudainement changé et est devenu un « vieux conducteur » ?
GPT "conduite", n'est pas fiable
Les rêves sont beaux et la route pour les réaliser est toujours très mince.
Pour qu'un modèle d'IA similaire à ChatGPT exerce son pouvoir dans le domaine de la conduite autonome, au moins les problèmes suivants doivent être résolus à l'heure actuelle.
Le premier est la source de données.
Les sources de données de ChatGPT sont très riches, y compris Wikipédia, des livres, des articles de presse, des revues scientifiques, etc., ce qui équivaut aux données publiques de l'ensemble du réseau comme sa nourriture.
La conduite autonome est différente. Les données de conduite du conducteur et les données de conduite du véhicule ne sont pas divulguées, et nombre d'entre elles impliquent la confidentialité. Les constructeurs automobiles et les entreprises autonomes fonctionnent de manière indépendante, et les données sont fermées et non diffusées, ce qui rend difficile l'obtention de données. Sans données, la conduite autonome est de l'eau sans source.
He Zhiqiang, président de Lenovo Venture Capital, a déclaré à Shentu que le cœur de la conduite autonome est d'avoir des données, et les données sont très importantes pour les modèles de formation. Les équipementiers comme BYD ont des données, mais leurs algorithmes doivent encore être affinés.Les nouveaux constructeurs automobiles tels que "Wei Xiaoli" sont bons en algorithmes, mais leurs ventes de voitures ne suffisent pas. Les entreprises disposant à la fois de données et d'algorithmes peuvent tirer pleinement parti des grands modèles.
La seconde est que la méthode de déploiement informatique du système est limitée.
Yu Kai pense qu'OpenAI et ChatGPT calculent dans le cloud, qui dispose d'une alimentation en énergie suffisante, d'une alimentation électrique et d'un très bon système, mais si la voiture repose sur la batterie et la dissipation thermique de la voiture, alors cela Le défi est grand , ce qui signifie que la conduite automatique ne peut pas utiliser un si grand modèle et un si grand calcul.
La consommation de puissance de calcul par les grands modèles a amené les fabricants de cloud computing à devenir le premier groupe d'acteurs à profiter des dividendes de cette vague de boom de l'IA. Le développement du cloud computing par les grandes entreprises ouvre également la voie aux grands modèles. Mais du côté de la voiture, ce sera une contradiction.
Un problème plus important est que la fiabilité des grands modèles n'a pas été vérifiée.
Les personnes qui ont utilisé ChatGPT savent que ChatGPT dit parfois des bêtises, parfois raison et parfois tort. Ceci est connu dans l'industrie comme une tendance à l'hallucination, la tendance à produire un contenu irréel qui n'a aucune provenance. Les grands modèles inventent des choses sans se soucier de leur véracité et de leur exactitude.
Le chat peut être un non-sens, mais la conduite automatique ne le peut pas. Le résultat d'une mauvaise sortie peut être fatal.
"ChatGPT a fait de grands progrès, mais la conduite automatique n'est pas encore arrivée, car la conduite automatique, en particulier la conduite sans pilote, peut avoir un taux de tolérance zéro aux pannes, ce qui est une question de vie ou de mort", a déclaré Yu Kai.
Long Zhiyong, qui a déjà été directeur de l'exploitation d'une start-up d'intelligence artificielle dans la Silicon Valley, estime que l'incontrôlable, l'imprévisible et le manque de fiabilité sont les plus grandes menaces à la commercialisation des grands modèles. Une manifestation typique est que le grand modèle a tendance à halluciner.
Maintenant, il n'est pas réaliste que le système de conduite automatique apprenne à choisir et à distinguer, et à produire la solution optimale de manière stable.
Un initié d'une société d'intelligence artificielle a déclaré à Shentu : "Il y a en effet de nombreuses percées dans la perception visuelle au niveau de l'algorithme. Mais la scène de la voiture est trop exigeante. Personnellement, je ne pense pas qu'il y aura une grande percée à court terme. . Vous pouvez prêter attention aux mouvements spéciaux de Sla."
Cependant, récemment, il y a eu une tendance dans le cercle technologique selon laquelle les entreprises, grandes et petites, veulent jeter un coup d'œil aux points chauds de GPT. Certains constructeurs automobiles ont annoncé qu'ils étaient sur le point d'appliquer une technologie de type GPT, et un tas de concepts sympas rendent les gens confus.
Par exemple, une entreprise de conduite autonome relevant d'une entreprise automobile traditionnelle a publié un grand modèle génératif de conduite autonome, qui est appelé "le premier du secteur" à utiliser ce modèle pour former la conduite autonome.
Un investisseur qui s'intéresse depuis longtemps à la piste des voitures intelligentes a demandé à un chef de file de l'industrie ce qu'il pensait du modèle, et l'autre partie a répondu en quatre mots : "TM absurde".
"C'est juste un acte de relations publiques." L'investisseur a commenté Shentu.
La conduite autonome, va-t-elle être renversée et relancée ?
Poussée par Tesla, couplée à la vague d'IA émergeant cette année, l'industrie de la conduite autonome se rapproche progressivement de la direction des grands modèles, de la grande puissance de calcul et du big data.
L'impact des grands modèles sur la conduite autonome n'est pas encore assez drastique, mais les personnes ayant un odorat très développé ont montré une ambivalence.
Tout comme lorsque Tesla a utilisé Transformer pour convertir des données multi-caméras de l'espace image vers l'espace BEV, il n'a pas hésité à renverser l'architecture d'origine et à réécrire l'algorithme. L'application de grands modèles maintenant peut également signifier que l'algorithme de conduite automatique d'origine sera renversé et redémarré.
He Zhiqiang pense que les grands modèles auront un impact énorme sur la conduite autonome. Dans le passé, de nombreux petits modèles étaient utilisés pour la conduite autonome, mais maintenant c'est devenu un grand modèle, et il faudra peut-être tout recommencer. L'industrie de la conduite autonome sera remaniée.
Zhao Dongxiang, directeur de la conduite autonome dans une société de puces IA, a déclaré à Shentu que le changement global de bout en bout équivaut à tout recommencer.
Le shuffling est une opportunité pour les nouveaux entrants et une menace pour les leaders. L'histoire d'un dépassement dans une courbe se produit souvent dans une période de changement technologique rapide. À l'ère de la technologie rapide, plus les investissements dans l'ancien itinéraire sont importants, plus le coût irrécupérable peut être élevé et plus il est difficile de faire demi-tour. Pour les équipementiers ou les entreprises de conduite autonome, pour adopter une nouvelle technologie, non seulement l'effet mais aussi le coût doivent être pris en compte.
Zhao Dongxiang a déclaré qu'en ce qui concerne l'étape actuelle, il est inutile de changer la voie technique de la conduite automatique. "Maintenant, les capacités techniques de l'industrie ne sont pas mauvaises. Tout le monde a dépensé tellement d'argent et l'a fait pendant si longtemps. S'il y a n'y a pas d'amélioration substantielle, il n'y a pas de motivation pour changer."
Le AI DAY à la fin de l'année dernière, Tesla a mis à niveau le BEV vers un réseau d'occupation (réseau d'occupation), et la capacité de généralisation a encore été améliorée. En occupant le réseau, le système de perception du pilote automatique de Tesla peut juger s'il doit l'éviter sans savoir quel objet il voit, résolvant ainsi des problèmes plus longs.
Quel que soit le type d'itinéraire technique, il subit actuellement des changements et des itérations rapides. Les petits modèles du passé peuvent être remplacés par de grands modèles, et les grands modèles d'aujourd'hui peuvent également être remplacés par de nouvelles espèces à l'avenir.
Mais dans tous les cas, la pratique consistant à frotter les points chauds et à fabriquer des gadgets n'est pas propice au progrès technologique. "C'est une mauvaise habitude de suivre la chaleur, et il est utile de fabriquer des produits de manière terre-à-terre", a déclaré Zhao Dongxiang.
La véritable "bombe royale" de la conduite autonome est loin d'être arrivée. Ce que nous devons faire, c'est rester impressionnés par chaque cycle de changement technologique. Le mythique GPT ne peut pas construire la voiture de vos rêves, mais au moins, des changements ont eu lieu.