Tras la explosión de ChatGPT, el modelo de IA se ha convertido en un punto caliente perseguido por muchas empresas tecnológicas. Desde las conversaciones de chat hasta la generación de imágenes y la oficina de escritorio, parece que la IA tiene el poder sobrenatural de subvertir todo de la noche a la mañana.
La locura se extendió a la industria automotriz y los profesionales comenzaron a pensar: ¿Es factible dejar que GPT fabrique automóviles?
Algunas empresas automotrices anunciaron que aplicarían tecnología de modelos a gran escala, mientras que otras dijeron que accederían a modelos grandes de terceros, y algunas empresas automotrices se apresuraron a lanzar el sistema de conducción automática con la palabra GPT.
Algunos profesionales le dijeron a Shentu que la cabina inteligente y la conducción automática pueden ser los primeros escenarios de aplicación de modelos grandes. Entre ellas, la conducción autónoma es la más esperada.
La conducción autónoma es una pista extremadamente difícil. Además de gigantes de la tecnología como Google y Baidu, una gran cantidad de talentosos emprendedores se han dedicado a ello y han quemado miles de millones de dólares, pero hasta el momento no han logrado resultados satisfactorios.
El modelo grande AI entra en conducción automática, ¿será diferente esta vez?
¿Cuánto es la relación entre GPT y los automóviles?
GPT no tiene una relación directa con los automóviles en la superficie, pero de hecho tiene una relación profunda. La historia tiene que empezar hace seis años.
En junio de 2017, Musk, el jefe de Tesla, robó a un investigador eslovaco de OpenAI. El hombre era Andrej Karpathy, quien luego se convirtió en el director de IA de Tesla.
En ese momento, Musk mostró un gran interés por la inteligencia artificial y también fue uno de los fundadores de OpenAI. Poco después de contratar a Andrej Karpathy, Musk dejó la junta directiva de OpenAI porque creía que tanto Tesla como OpenAI estaban investigando la IA y que podría haber conflictos de intereses en el futuro.
Más tarde, Andrej Karpathy reescribió el algoritmo del piloto automático en Tesla y desarrolló la tecnología de percepción visual pura BEV, que llevó al piloto automático de Tesla a una nueva etapa. Y su antiguo propietario, OpenAI, apostó todas sus fichas por la inteligencia artificial general y finalmente desarrolló GPT.
Desde la perspectiva del producto, el GPT de OpenAI y el BEV de Tesla son especies completamente diferentes. Pero desde la perspectiva de la tecnología subyacente, todos se basan en tecnología de inteligencia artificial, especialmente la aplicación del modelo Google Transformer.
Transformer es una arquitectura de red neuronal de aprendizaje profundo propuesta por 8 científicos de IA de Google en 2017. Este es un invento extremadamente importante en la industria de la inteligencia artificial. La "T" en el popular ChatGPT de hoy se refiere al modelo Transformer.
A diferencia de la red neuronal tradicional RNN y CNN, Transformer utiliza un mecanismo de autoatención para extraer la conexión y correlación de diferentes elementos en la secuencia, y tiene una buena capacidad para procesar datos de series temporales. Esto le permite mostrar un rendimiento sobresaliente en tareas como traducción automática, resumen de texto y sistemas de respuesta a preguntas.
Por lo tanto, Transformer se utilizó por primera vez en el campo de la PNL (procesamiento avanzado del lenguaje natural) para comprender el texto y el lenguaje humanos.
Pre-entrenamiento en el modelo Transformer, después de un ajuste fino e iteración continuos, OpenAI ha lanzado sucesivamente grandes modelos de entrenamiento de idiomas como GPT-1, GPT-2, GPT-3 y GPT-4. ChatGPT es un robot de diálogo desarrollado por OpenAI después de ajustar el modelo GPT-3. Debido a que puede interactuar de manera conversacional, la gente común es fácil de usar y es más "inteligente" que los chatbots del pasado, por lo que brilla.
Básicamente, el modelo GPT de ChatGPT, el modelo LaMDA de Google y el modelo Wenxin de Baidu comparten el mismo origen.
El uso del modelo de Transformer para el lenguaje natural dio origen a aplicaciones de chat como ChatGPT, su uso en visión artificial también ha logrado resultados sorprendentes, el pionero en este sentido es Tesla.
Andrej Karpathy fue responsable de liderar el equipo de visión por computadora para la conducción autónoma durante su mandato como director de inteligencia artificial de Tesla.Al combinar el modelo Transformer, Tesla desarrolló con éxito la tecnología BEV.
El nombre completo de BEV es Bird's Eye View, que es una vista de pájaro. Puede convertir las imágenes 2D capturadas por la cámara en imágenes 3D empalmándolas y convertirlas uniformemente al ángulo de vista para su procesamiento, formando una "perspectiva de Dios". La razón de esto es que la conducción se lleva a cabo en un espacio tridimensional y lo que la gente ve es un mundo tridimensional, no una imagen 2D.
Andrej Karpathy demostrará esta nueva solución de percepción en el Tesla AI DAY en agosto de 2021. Por eso, Tesla no dudó en reescribir el algoritmo del piloto automático y reconstruyó la infraestructura para entrenar redes neuronales profundas.
Esta es la primera vez que la tecnología de modelos grandes se aplica a la industria de la conducción autónoma.
Mirando hacia atrás hoy, aunque GPT actualmente se usa principalmente en el campo del procesamiento del lenguaje natural, no podemos permitir que GPT conduzca un automóvil, pero la tecnología de modelo grande de IA detrás de él, especialmente la arquitectura Transformer, en realidad ha estado conduciendo de forma autónoma. campo aplicado.
Desde el procesamiento del lenguaje natural hasta la visión artificial, los dos campos han unificado la estructura de modelado basada en la arquitectura Transformer, lo que facilita el modelado conjunto.
Y a medida que se profundiza en la comprensión de la IA, las empresas de automóviles se parecen cada vez más a las empresas de inteligencia artificial. Además de Tesla, Li Auto anunció su visión de empresa a principios de este año, afirmando convertirse en una empresa de inteligencia artificial para 2030. Este año lanzará el sistema de conducción asistida por navegación urbana NOA, y el soporte técnico es el modelo BEV de percepción y transformador.
No parece haber diferencia entre dejar que la IA hable con la gente y dejar que la IA conduzca un automóvil, excepto que los escenarios de aterrizaje de los dos son diferentes. Los seres humanos siempre están llenos de imaginación cuando se trata de aplicar la tecnología subyacente a productos específicos.
GPT enseña esas cosas sobre la conducción automática
Desde principios de este año, las poderosas capacidades demostradas por GPT han conmocionado al mundo exterior. La inteligencia artificial general ya no es un castillo en el aire. Las personas en la industria de la conducción autónoma comenzaron a pensar que tal vez la aplicación de IA generativa en modelos de lenguaje se puede migrar a la conducción autónoma.
Esencialmente, un modelo de lenguaje es un modelo matemático del lenguaje humano. La computadora todavía no entiende el lenguaje natural, pero convierte los problemas del lenguaje en problemas matemáticos a través de modelos matemáticos. El lenguaje natural se entiende indirectamente al predecir la probabilidad de que aparezca la siguiente palabra a lo largo de la historia de un texto dado.
Cambiando a la escena de conducción, dado el entorno de tráfico actual, un mapa de navegación y el historial de comportamiento de conducción del conductor, ¿puede el modelo grande predecir la próxima acción de conducción?
Yu Kai, el fundador de Horizon, dijo en el Foro de 100 Vehículos Eléctricos realizado en abril de este año que ChatGPT lo inspiró mucho: "Seguiremos usando big data, datos más grandes, modelos más grandes y aprendizaje no supervisado. Los humanos intentan unidad, al igual que aprende de una gran cantidad de texto natural sin supervisión y sin etiquetas". Argumenta que las secuencias de los controles de conducción de cada conductor son como nuestros textos de lenguaje natural. A continuación, quiere construir un modelo de gran lenguaje que vuelva a la conducción autónoma.
En teoría, esta idea es factible. La IA ya tiene la capacidad de aprender. De acuerdo con el modelo de lenguaje adaptativo, la máquina continuará optimizando iterativamente de acuerdo con los comentarios del usuario, aprenderá los hábitos del usuario y luego mejorará el modelo. El ChatGPT actual utiliza esta tecnología. Entonces, no es difícil para la máquina aprender los hábitos de conducción del conductor.
El modo de sombra de Tesla es para alimentar los datos de conducción de los conductores reales al aprendizaje automático. El propósito de entrenar el algoritmo se logra comparando el comportamiento de los conductores humanos.
Después de que GPT desencadenara una nueva ronda de auge de la IA, un impacto cognitivo en la industria es que, al aumentar la escala de parámetros del modelo, la cantidad de datos aumenta exponencialmente, que es el llamado modelo grande. Después de alcanzar un cierto punto crítico , Los modelos pueden ser repentinamente inteligentes.
En el pasado, los datos requeridos por el modelo durante la fase de entrenamiento se etiquetaban manualmente. Tomando como ejemplo la conducción autónoma, el etiquetador de datos utiliza una gran cantidad de imágenes para etiquetar y decirle a la máquina qué es un gato, qué es un perro y cuántos tipos de perros y gatos hay. El anotador es como el maestro de la máquina, enseñándole a comprender el mundo una y otra vez.
El problema es que lo que el maestro no enseñó, la máquina todavía no puede. Un ejemplo típico es que Tesla ha tenido accidentes de piloto automático muchas veces, y el vehículo golpeó un camión grande que se volcó porque la máquina no pudo reconocerlo.
He Yuhua, el socio fundador de Hegao Capital, le dio un ejemplo a Shentu: Guangzhou tiene frecuentes días de lluvia en verano, y en algunas escenas con luces tenues, habrá una gran cantidad de insectos voladores en el aire. Cuando pasa un automóvil, las luces se encienden y puede haber miles de insectos voladores golpeando la parte delantera del automóvil. En este caso, el sistema de percepción de conducción autónoma del automóvil puede confundirlo con una pared.
El sistema de conducción automática no puede agotar todos los casos de esquina (escenarios extremos), lo que supone una dificultad importante en su desarrollo.
Lo que captura ChatGPT son los datos sin marcar de toda la red. En el aprendizaje autosupervisado, los datos en sí se utilizan como una señal de supervisión, en lugar de depender de etiquetas etiquetadas por humanos. Un día, la gente descubrió que en el proceso de digerir estos datos, el modelo grande de repente tiene la capacidad de inferir otros casos a partir de una instancia.
Entonces, si el modelo grande de conducción autónoma también puede aprender el comportamiento de conducción humano sin supervisión, sin la necesidad de un "maestro" que lo enseñe, ¿significa que el sistema se ha convertido repentinamente en un "conductor antiguo"?
GPT "conducir", no es confiable
Los sueños son hermosos, y el camino para realizarlos siempre es muy flaco.
Para que un modelo de IA similar a ChatGPT ejerza su poder en el campo de la conducción autónoma, al menos los siguientes problemas deben resolverse en la actualidad.
El primero es la fuente de datos.
Las fuentes de datos de ChatGPT son muy ricas, incluyendo Wikipedia, libros, artículos de noticias, revistas científicas, etc., lo que equivale a los datos públicos de toda la red como alimento.
La conducción autónoma es diferente. Los datos de conducción del conductor y los datos de conducción del vehículo no se divulgan, y muchos de ellos implican privacidad. Los fabricantes de automóviles y las empresas de conducción autónoma operan de forma independiente, y los datos están cerrados y no circulan, lo que dificulta la obtención de datos. Sin datos, la conducción autónoma es agua sin fuente.
He Zhiqiang, presidente de Lenovo Venture Capital, le dijo a Shentu que el núcleo de la conducción autónoma es tener datos, y los datos son muy importantes para los modelos de capacitación. Los OEM como BYD tienen datos, pero sus algoritmos aún necesitan ser refinados. Los nuevos fabricantes de automóviles como "Wei Xiaoli" son buenos en algoritmos, pero sus ventas de automóviles no son suficientes. Las empresas con datos y algoritmos pueden aprovechar al máximo los modelos grandes.
La segunda es que el método de implementación informática del sistema es limitado.
Yu Kai cree que OpenAI y ChatGPT están computando en la nube, que tiene suficiente suministro de energía, fuente de alimentación y un muy buen sistema.Sin embargo, si el automóvil depende de la batería y la disipación de calor del automóvil, entonces este El desafío es genial, lo que significa que la conducción automática no puede usar un modelo tan grande y un cálculo tan grande.
El consumo de potencia de cómputo por parte de modelos grandes ha provocado que los fabricantes de computación en la nube se conviertan en el primer lote de jugadores en disfrutar de los dividendos en esta ola de auge de la IA. El desarrollo de la computación en la nube por parte de las grandes empresas también abre el camino para modelos grandes. Pero en el lado del auto, esto será una contradicción.
Un problema mayor es que no se ha verificado la confiabilidad de los modelos grandes.
Las personas que han usado ChatGPT saben que ChatGPT a veces dice tonterías, a veces bien y otras veces mal. Esto se conoce en la industria como la tendencia a la alucinación, la tendencia a producir contenido irreal que no tiene procedencia alguna. Los grandes modelos inventan cosas sin importarles su veracidad y exactitud.
Chatear puede ser una tontería, pero la conducción automática no. El resultado de cualquier salida incorrecta puede ser fatal.
"ChatGPT ha hecho un gran progreso, pero la conducción automática aún no ha llegado, porque la conducción automática, especialmente la conducción no tripulada, puede tener una tasa de tolerancia a fallas cero, que es una cuestión de vida o muerte", dijo Yu Kai.
Long Zhiyong, quien una vez se desempeñó como director de operaciones de una empresa emergente de inteligencia artificial en Silicon Valley, cree que lo incontrolable, impredecible y poco confiable son las mayores amenazas para la comercialización de modelos grandes. Una manifestación típica es que el modelo grande tiene tendencia a alucinar.
Ahora, no es realista que el sistema de conducción automática aprenda a elegir y distinguir, y a generar la solución óptima de manera estable.
Un miembro de una empresa de inteligencia artificial le dijo a Shentu: "De hecho, hay muchos avances en la percepción visual a nivel de algoritmo. Pero la escena del automóvil es demasiado exigente. Personalmente, no creo que haya un gran avance a corto plazo". Puedes prestar atención a los movimientos especiales de Sla".
Sin embargo, recientemente ha habido una tendencia en el círculo tecnológico de que las empresas, grandes y pequeñas, quieren echar un vistazo a los puntos calientes de GPT. Algunos fabricantes de automóviles han anunciado que están a punto de aplicar tecnología similar a GPT, y un montón de conceptos geniales confunden a la gente.
Por ejemplo, una empresa de conducción autónoma de una empresa de automóviles tradicional ha lanzado un gran modelo generativo para la conducción autónoma, que se denomina "el primero en la industria" en utilizar este modelo para entrenar la conducción autónoma.
Un inversionista que ha estado prestando atención a la pista de autos inteligentes durante mucho tiempo le preguntó a un líder de la industria qué pensaba del modelo, y la otra parte respondió con cuatro palabras: "Tonterías TM".
"Es solo un acto de relaciones públicas", comentó el inversionista sobre Shentu.
Conducción autónoma, ¿será derrocada y reiniciada?
Impulsada por Tesla, junto con la ola de IA que surgió este año, la industria de la conducción autónoma se está acercando gradualmente a la dirección de los modelos grandes, la gran potencia informática y los grandes datos.
El impacto de los modelos grandes en la conducción autónoma aún no es lo suficientemente drástico, pero las personas con un agudo sentido del olfato han mostrado cierta ambivalencia.
Al igual que cuando Tesla usó Transformer para convertir datos de varias cámaras del espacio de la imagen al espacio BEV, no dudó en derrocar la arquitectura original y reescribir el algoritmo. La aplicación de modelos grandes ahora también puede significar que el algoritmo original de conducción automática será anulado y reiniciado.
He Zhiqiang cree que los modelos grandes tendrán un gran impacto en la conducción autónoma. En el pasado, muchos modelos pequeños se usaban para la conducción autónoma, pero ahora se ha convertido en un modelo grande y es posible que sea necesario volver a hacerlo todo. La industria de la conducción autónoma se reorganizará.
Zhao Dongxiang, director de conducción autónoma en una empresa de chips de IA, le dijo a Shentu que el cambio general de extremo a extremo equivale a hacerlo todo de nuevo.
La barajada es una oportunidad para los nuevos entrantes y una amenaza para los líderes. La historia de adelantar en una curva a menudo ocurre en un período de rápido cambio tecnológico. En la era de la tecnología rápida, cuanto mayor sea la inversión en la ruta antigua, mayor será el costo irrecuperable y más difícil será dar la vuelta. Para los OEM o las empresas de conducción autónoma, para adoptar una nueva tecnología, no solo se debe considerar el efecto sino también el costo.
Zhao Dongxiang dijo que, en lo que respecta a la etapa actual, no tiene sentido cambiar la ruta técnica de la conducción automática: "Ahora, las capacidades técnicas de la industria no son malas. Todos han gastado tanto dinero y lo han hecho durante tanto tiempo. Si hay no hay una mejora sustancial, no hay motivación para cambiar".
En el AI DAY a fines del año pasado, Tesla actualizó el BEV a una red de ocupación (red de ocupación) y la capacidad de generalización mejoró aún más. Al ocupar la red, el sistema de percepción del piloto automático de Tesla puede juzgar si necesita evitarlo sin saber qué objeto ve, resolviendo así más problemas de cola larga.
No importa qué tipo de ruta técnica, ahora está experimentando cambios e iteraciones rápidos. Los modelos pequeños del pasado pueden ser reemplazados por modelos grandes, y los modelos grandes de hoy también pueden ser reemplazados por algunas especies nuevas en el futuro.
Pero en cualquier caso, la práctica de frotar puntos calientes y hacer trucos no conduce al progreso tecnológico. "Es un mal hábito seguir el calor y es útil hacer productos con los pies en la tierra", dijo Zhao Dongxiang.
La auténtica "bomba rey" de la conducción autónoma está lejos de llegar. Lo que debemos hacer es permanecer asombrados ante cada ronda de cambio tecnológico. El mítico GPT no puede construir el coche de tus sueños, pero al menos se han producido cambios.
Ver originales
El contenido es solo de referencia, no una solicitud u oferta. No se proporciona asesoramiento fiscal, legal ni de inversión. Consulte el Descargo de responsabilidad para obtener más información sobre los riesgos.
El mítico GPT no puede construir el coche de tus sueños
Tras la explosión de ChatGPT, el modelo de IA se ha convertido en un punto caliente perseguido por muchas empresas tecnológicas. Desde las conversaciones de chat hasta la generación de imágenes y la oficina de escritorio, parece que la IA tiene el poder sobrenatural de subvertir todo de la noche a la mañana.
La locura se extendió a la industria automotriz y los profesionales comenzaron a pensar: ¿Es factible dejar que GPT fabrique automóviles?
Algunas empresas automotrices anunciaron que aplicarían tecnología de modelos a gran escala, mientras que otras dijeron que accederían a modelos grandes de terceros, y algunas empresas automotrices se apresuraron a lanzar el sistema de conducción automática con la palabra GPT.
Algunos profesionales le dijeron a Shentu que la cabina inteligente y la conducción automática pueden ser los primeros escenarios de aplicación de modelos grandes. Entre ellas, la conducción autónoma es la más esperada.
La conducción autónoma es una pista extremadamente difícil. Además de gigantes de la tecnología como Google y Baidu, una gran cantidad de talentosos emprendedores se han dedicado a ello y han quemado miles de millones de dólares, pero hasta el momento no han logrado resultados satisfactorios.
El modelo grande AI entra en conducción automática, ¿será diferente esta vez?
¿Cuánto es la relación entre GPT y los automóviles?
GPT no tiene una relación directa con los automóviles en la superficie, pero de hecho tiene una relación profunda. La historia tiene que empezar hace seis años.
En junio de 2017, Musk, el jefe de Tesla, robó a un investigador eslovaco de OpenAI. El hombre era Andrej Karpathy, quien luego se convirtió en el director de IA de Tesla.
En ese momento, Musk mostró un gran interés por la inteligencia artificial y también fue uno de los fundadores de OpenAI. Poco después de contratar a Andrej Karpathy, Musk dejó la junta directiva de OpenAI porque creía que tanto Tesla como OpenAI estaban investigando la IA y que podría haber conflictos de intereses en el futuro.
Más tarde, Andrej Karpathy reescribió el algoritmo del piloto automático en Tesla y desarrolló la tecnología de percepción visual pura BEV, que llevó al piloto automático de Tesla a una nueva etapa. Y su antiguo propietario, OpenAI, apostó todas sus fichas por la inteligencia artificial general y finalmente desarrolló GPT.
Desde la perspectiva del producto, el GPT de OpenAI y el BEV de Tesla son especies completamente diferentes. Pero desde la perspectiva de la tecnología subyacente, todos se basan en tecnología de inteligencia artificial, especialmente la aplicación del modelo Google Transformer.
Transformer es una arquitectura de red neuronal de aprendizaje profundo propuesta por 8 científicos de IA de Google en 2017. Este es un invento extremadamente importante en la industria de la inteligencia artificial. La "T" en el popular ChatGPT de hoy se refiere al modelo Transformer.
A diferencia de la red neuronal tradicional RNN y CNN, Transformer utiliza un mecanismo de autoatención para extraer la conexión y correlación de diferentes elementos en la secuencia, y tiene una buena capacidad para procesar datos de series temporales. Esto le permite mostrar un rendimiento sobresaliente en tareas como traducción automática, resumen de texto y sistemas de respuesta a preguntas.
Por lo tanto, Transformer se utilizó por primera vez en el campo de la PNL (procesamiento avanzado del lenguaje natural) para comprender el texto y el lenguaje humanos.
Pre-entrenamiento en el modelo Transformer, después de un ajuste fino e iteración continuos, OpenAI ha lanzado sucesivamente grandes modelos de entrenamiento de idiomas como GPT-1, GPT-2, GPT-3 y GPT-4. ChatGPT es un robot de diálogo desarrollado por OpenAI después de ajustar el modelo GPT-3. Debido a que puede interactuar de manera conversacional, la gente común es fácil de usar y es más "inteligente" que los chatbots del pasado, por lo que brilla.
Básicamente, el modelo GPT de ChatGPT, el modelo LaMDA de Google y el modelo Wenxin de Baidu comparten el mismo origen.
El uso del modelo de Transformer para el lenguaje natural dio origen a aplicaciones de chat como ChatGPT, su uso en visión artificial también ha logrado resultados sorprendentes, el pionero en este sentido es Tesla.
Andrej Karpathy fue responsable de liderar el equipo de visión por computadora para la conducción autónoma durante su mandato como director de inteligencia artificial de Tesla.Al combinar el modelo Transformer, Tesla desarrolló con éxito la tecnología BEV.
El nombre completo de BEV es Bird's Eye View, que es una vista de pájaro. Puede convertir las imágenes 2D capturadas por la cámara en imágenes 3D empalmándolas y convertirlas uniformemente al ángulo de vista para su procesamiento, formando una "perspectiva de Dios". La razón de esto es que la conducción se lleva a cabo en un espacio tridimensional y lo que la gente ve es un mundo tridimensional, no una imagen 2D.
Andrej Karpathy demostrará esta nueva solución de percepción en el Tesla AI DAY en agosto de 2021. Por eso, Tesla no dudó en reescribir el algoritmo del piloto automático y reconstruyó la infraestructura para entrenar redes neuronales profundas.
Esta es la primera vez que la tecnología de modelos grandes se aplica a la industria de la conducción autónoma.
Mirando hacia atrás hoy, aunque GPT actualmente se usa principalmente en el campo del procesamiento del lenguaje natural, no podemos permitir que GPT conduzca un automóvil, pero la tecnología de modelo grande de IA detrás de él, especialmente la arquitectura Transformer, en realidad ha estado conduciendo de forma autónoma. campo aplicado.
Desde el procesamiento del lenguaje natural hasta la visión artificial, los dos campos han unificado la estructura de modelado basada en la arquitectura Transformer, lo que facilita el modelado conjunto.
Y a medida que se profundiza en la comprensión de la IA, las empresas de automóviles se parecen cada vez más a las empresas de inteligencia artificial. Además de Tesla, Li Auto anunció su visión de empresa a principios de este año, afirmando convertirse en una empresa de inteligencia artificial para 2030. Este año lanzará el sistema de conducción asistida por navegación urbana NOA, y el soporte técnico es el modelo BEV de percepción y transformador.
No parece haber diferencia entre dejar que la IA hable con la gente y dejar que la IA conduzca un automóvil, excepto que los escenarios de aterrizaje de los dos son diferentes. Los seres humanos siempre están llenos de imaginación cuando se trata de aplicar la tecnología subyacente a productos específicos.
GPT enseña esas cosas sobre la conducción automática
Desde principios de este año, las poderosas capacidades demostradas por GPT han conmocionado al mundo exterior. La inteligencia artificial general ya no es un castillo en el aire. Las personas en la industria de la conducción autónoma comenzaron a pensar que tal vez la aplicación de IA generativa en modelos de lenguaje se puede migrar a la conducción autónoma.
Esencialmente, un modelo de lenguaje es un modelo matemático del lenguaje humano. La computadora todavía no entiende el lenguaje natural, pero convierte los problemas del lenguaje en problemas matemáticos a través de modelos matemáticos. El lenguaje natural se entiende indirectamente al predecir la probabilidad de que aparezca la siguiente palabra a lo largo de la historia de un texto dado.
Cambiando a la escena de conducción, dado el entorno de tráfico actual, un mapa de navegación y el historial de comportamiento de conducción del conductor, ¿puede el modelo grande predecir la próxima acción de conducción?
Yu Kai, el fundador de Horizon, dijo en el Foro de 100 Vehículos Eléctricos realizado en abril de este año que ChatGPT lo inspiró mucho: "Seguiremos usando big data, datos más grandes, modelos más grandes y aprendizaje no supervisado. Los humanos intentan unidad, al igual que aprende de una gran cantidad de texto natural sin supervisión y sin etiquetas". Argumenta que las secuencias de los controles de conducción de cada conductor son como nuestros textos de lenguaje natural. A continuación, quiere construir un modelo de gran lenguaje que vuelva a la conducción autónoma.
En teoría, esta idea es factible. La IA ya tiene la capacidad de aprender. De acuerdo con el modelo de lenguaje adaptativo, la máquina continuará optimizando iterativamente de acuerdo con los comentarios del usuario, aprenderá los hábitos del usuario y luego mejorará el modelo. El ChatGPT actual utiliza esta tecnología. Entonces, no es difícil para la máquina aprender los hábitos de conducción del conductor.
El modo de sombra de Tesla es para alimentar los datos de conducción de los conductores reales al aprendizaje automático. El propósito de entrenar el algoritmo se logra comparando el comportamiento de los conductores humanos.
Después de que GPT desencadenara una nueva ronda de auge de la IA, un impacto cognitivo en la industria es que, al aumentar la escala de parámetros del modelo, la cantidad de datos aumenta exponencialmente, que es el llamado modelo grande. Después de alcanzar un cierto punto crítico , Los modelos pueden ser repentinamente inteligentes.
En el pasado, los datos requeridos por el modelo durante la fase de entrenamiento se etiquetaban manualmente. Tomando como ejemplo la conducción autónoma, el etiquetador de datos utiliza una gran cantidad de imágenes para etiquetar y decirle a la máquina qué es un gato, qué es un perro y cuántos tipos de perros y gatos hay. El anotador es como el maestro de la máquina, enseñándole a comprender el mundo una y otra vez.
El problema es que lo que el maestro no enseñó, la máquina todavía no puede. Un ejemplo típico es que Tesla ha tenido accidentes de piloto automático muchas veces, y el vehículo golpeó un camión grande que se volcó porque la máquina no pudo reconocerlo.
He Yuhua, el socio fundador de Hegao Capital, le dio un ejemplo a Shentu: Guangzhou tiene frecuentes días de lluvia en verano, y en algunas escenas con luces tenues, habrá una gran cantidad de insectos voladores en el aire. Cuando pasa un automóvil, las luces se encienden y puede haber miles de insectos voladores golpeando la parte delantera del automóvil. En este caso, el sistema de percepción de conducción autónoma del automóvil puede confundirlo con una pared.
El sistema de conducción automática no puede agotar todos los casos de esquina (escenarios extremos), lo que supone una dificultad importante en su desarrollo.
Lo que captura ChatGPT son los datos sin marcar de toda la red. En el aprendizaje autosupervisado, los datos en sí se utilizan como una señal de supervisión, en lugar de depender de etiquetas etiquetadas por humanos. Un día, la gente descubrió que en el proceso de digerir estos datos, el modelo grande de repente tiene la capacidad de inferir otros casos a partir de una instancia.
Entonces, si el modelo grande de conducción autónoma también puede aprender el comportamiento de conducción humano sin supervisión, sin la necesidad de un "maestro" que lo enseñe, ¿significa que el sistema se ha convertido repentinamente en un "conductor antiguo"?
GPT "conducir", no es confiable
Los sueños son hermosos, y el camino para realizarlos siempre es muy flaco.
Para que un modelo de IA similar a ChatGPT ejerza su poder en el campo de la conducción autónoma, al menos los siguientes problemas deben resolverse en la actualidad.
El primero es la fuente de datos.
Las fuentes de datos de ChatGPT son muy ricas, incluyendo Wikipedia, libros, artículos de noticias, revistas científicas, etc., lo que equivale a los datos públicos de toda la red como alimento.
La conducción autónoma es diferente. Los datos de conducción del conductor y los datos de conducción del vehículo no se divulgan, y muchos de ellos implican privacidad. Los fabricantes de automóviles y las empresas de conducción autónoma operan de forma independiente, y los datos están cerrados y no circulan, lo que dificulta la obtención de datos. Sin datos, la conducción autónoma es agua sin fuente.
He Zhiqiang, presidente de Lenovo Venture Capital, le dijo a Shentu que el núcleo de la conducción autónoma es tener datos, y los datos son muy importantes para los modelos de capacitación. Los OEM como BYD tienen datos, pero sus algoritmos aún necesitan ser refinados. Los nuevos fabricantes de automóviles como "Wei Xiaoli" son buenos en algoritmos, pero sus ventas de automóviles no son suficientes. Las empresas con datos y algoritmos pueden aprovechar al máximo los modelos grandes.
La segunda es que el método de implementación informática del sistema es limitado.
Yu Kai cree que OpenAI y ChatGPT están computando en la nube, que tiene suficiente suministro de energía, fuente de alimentación y un muy buen sistema.Sin embargo, si el automóvil depende de la batería y la disipación de calor del automóvil, entonces este El desafío es genial, lo que significa que la conducción automática no puede usar un modelo tan grande y un cálculo tan grande.
El consumo de potencia de cómputo por parte de modelos grandes ha provocado que los fabricantes de computación en la nube se conviertan en el primer lote de jugadores en disfrutar de los dividendos en esta ola de auge de la IA. El desarrollo de la computación en la nube por parte de las grandes empresas también abre el camino para modelos grandes. Pero en el lado del auto, esto será una contradicción.
Un problema mayor es que no se ha verificado la confiabilidad de los modelos grandes.
Las personas que han usado ChatGPT saben que ChatGPT a veces dice tonterías, a veces bien y otras veces mal. Esto se conoce en la industria como la tendencia a la alucinación, la tendencia a producir contenido irreal que no tiene procedencia alguna. Los grandes modelos inventan cosas sin importarles su veracidad y exactitud.
Chatear puede ser una tontería, pero la conducción automática no. El resultado de cualquier salida incorrecta puede ser fatal.
"ChatGPT ha hecho un gran progreso, pero la conducción automática aún no ha llegado, porque la conducción automática, especialmente la conducción no tripulada, puede tener una tasa de tolerancia a fallas cero, que es una cuestión de vida o muerte", dijo Yu Kai.
Long Zhiyong, quien una vez se desempeñó como director de operaciones de una empresa emergente de inteligencia artificial en Silicon Valley, cree que lo incontrolable, impredecible y poco confiable son las mayores amenazas para la comercialización de modelos grandes. Una manifestación típica es que el modelo grande tiene tendencia a alucinar.
Ahora, no es realista que el sistema de conducción automática aprenda a elegir y distinguir, y a generar la solución óptima de manera estable.
Un miembro de una empresa de inteligencia artificial le dijo a Shentu: "De hecho, hay muchos avances en la percepción visual a nivel de algoritmo. Pero la escena del automóvil es demasiado exigente. Personalmente, no creo que haya un gran avance a corto plazo". Puedes prestar atención a los movimientos especiales de Sla".
Sin embargo, recientemente ha habido una tendencia en el círculo tecnológico de que las empresas, grandes y pequeñas, quieren echar un vistazo a los puntos calientes de GPT. Algunos fabricantes de automóviles han anunciado que están a punto de aplicar tecnología similar a GPT, y un montón de conceptos geniales confunden a la gente.
Por ejemplo, una empresa de conducción autónoma de una empresa de automóviles tradicional ha lanzado un gran modelo generativo para la conducción autónoma, que se denomina "el primero en la industria" en utilizar este modelo para entrenar la conducción autónoma.
Un inversionista que ha estado prestando atención a la pista de autos inteligentes durante mucho tiempo le preguntó a un líder de la industria qué pensaba del modelo, y la otra parte respondió con cuatro palabras: "Tonterías TM".
"Es solo un acto de relaciones públicas", comentó el inversionista sobre Shentu.
Conducción autónoma, ¿será derrocada y reiniciada?
Impulsada por Tesla, junto con la ola de IA que surgió este año, la industria de la conducción autónoma se está acercando gradualmente a la dirección de los modelos grandes, la gran potencia informática y los grandes datos.
El impacto de los modelos grandes en la conducción autónoma aún no es lo suficientemente drástico, pero las personas con un agudo sentido del olfato han mostrado cierta ambivalencia.
Al igual que cuando Tesla usó Transformer para convertir datos de varias cámaras del espacio de la imagen al espacio BEV, no dudó en derrocar la arquitectura original y reescribir el algoritmo. La aplicación de modelos grandes ahora también puede significar que el algoritmo original de conducción automática será anulado y reiniciado.
He Zhiqiang cree que los modelos grandes tendrán un gran impacto en la conducción autónoma. En el pasado, muchos modelos pequeños se usaban para la conducción autónoma, pero ahora se ha convertido en un modelo grande y es posible que sea necesario volver a hacerlo todo. La industria de la conducción autónoma se reorganizará.
Zhao Dongxiang, director de conducción autónoma en una empresa de chips de IA, le dijo a Shentu que el cambio general de extremo a extremo equivale a hacerlo todo de nuevo.
La barajada es una oportunidad para los nuevos entrantes y una amenaza para los líderes. La historia de adelantar en una curva a menudo ocurre en un período de rápido cambio tecnológico. En la era de la tecnología rápida, cuanto mayor sea la inversión en la ruta antigua, mayor será el costo irrecuperable y más difícil será dar la vuelta. Para los OEM o las empresas de conducción autónoma, para adoptar una nueva tecnología, no solo se debe considerar el efecto sino también el costo.
Zhao Dongxiang dijo que, en lo que respecta a la etapa actual, no tiene sentido cambiar la ruta técnica de la conducción automática: "Ahora, las capacidades técnicas de la industria no son malas. Todos han gastado tanto dinero y lo han hecho durante tanto tiempo. Si hay no hay una mejora sustancial, no hay motivación para cambiar".
En el AI DAY a fines del año pasado, Tesla actualizó el BEV a una red de ocupación (red de ocupación) y la capacidad de generalización mejoró aún más. Al ocupar la red, el sistema de percepción del piloto automático de Tesla puede juzgar si necesita evitarlo sin saber qué objeto ve, resolviendo así más problemas de cola larga.
No importa qué tipo de ruta técnica, ahora está experimentando cambios e iteraciones rápidos. Los modelos pequeños del pasado pueden ser reemplazados por modelos grandes, y los modelos grandes de hoy también pueden ser reemplazados por algunas especies nuevas en el futuro.
Pero en cualquier caso, la práctica de frotar puntos calientes y hacer trucos no conduce al progreso tecnológico. "Es un mal hábito seguir el calor y es útil hacer productos con los pies en la tierra", dijo Zhao Dongxiang.
La auténtica "bomba rey" de la conducción autónoma está lejos de llegar. Lo que debemos hacer es permanecer asombrados ante cada ronda de cambio tecnológico. El mítico GPT no puede construir el coche de tus sueños, pero al menos se han producido cambios.