Após a explosão do ChatGPT, o modelo AI tornou-se um ponto quente perseguido por muitas empresas de tecnologia. De conversas de bate-papo à geração de imagens e ao escritório de mesa, parece que a IA tem o poder sobrenatural de subverter tudo da noite para o dia.
A mania se espalhou para a indústria automotiva e os profissionais começaram a pensar: é viável deixar a GPT fabricar carros?
Algumas montadoras anunciaram que aplicariam a tecnologia de modelos em grande escala, enquanto outras disseram que acessariam grandes modelos de terceiros, e algumas montadoras correram para lançar o sistema de direção automática com a palavra GPT.
Alguns profissionais disseram a Shentu que o cockpit inteligente e a direção automática podem ser os primeiros cenários de aplicação de modelos grandes. Entre eles, a condução autônoma é a mais esperada.
A condução autónoma é uma pista extremamente difícil. Além de gigantes da tecnologia como Google e Baidu, um grande número de empreendedores talentosos se dedicaram a isso e queimaram bilhões de dólares, mas até agora não alcançaram resultados satisfatórios.
Modelo AI grande entra em condução automática, será diferente desta vez?
Qual é a relação entre GPT e carros?
O GPT não tem relação direta com os carros na superfície, mas na verdade tem uma relação profunda. A história tem que começar há seis anos.
Em junho de 2017, Musk, o chefe da Tesla, roubou um pesquisador eslovaco da OpenAI. O homem era Andrej Karpathy, que mais tarde se tornou o diretor de IA da Tesla.
Naquela época, Musk demonstrou grande interesse em inteligência artificial e também foi um dos fundadores da OpenAI. Pouco depois de recrutar Andrej Karpathy, Musk deixou o conselho de administração da OpenAI por acreditar que tanto a Tesla quanto a OpenAI estavam pesquisando IA e que poderia haver conflitos de interesse no futuro.
Mais tarde, Andrej Karpathy reescreveu o algoritmo do piloto automático em Tesla e desenvolveu a tecnologia de percepção visual pura BEV, que levou o piloto automático de Tesla a um novo estágio. E seu ex-proprietário, OpenAI, apostou todas as fichas na inteligência artificial geral e, finalmente, desenvolveu o GPT.
Do ponto de vista do produto, o GPT da OpenAI e o BEV da Tesla são espécies completamente diferentes. Mas, do ponto de vista da tecnologia subjacente, todos eles contam com tecnologia de inteligência artificial, especialmente a aplicação do modelo Google Transformer.
O Transformer é uma arquitetura de rede neural de aprendizado profundo proposta por 8 cientistas de IA do Google em 2017. Esta é uma invenção extremamente importante na indústria de inteligência artificial. O "T" no popular ChatGPT de hoje refere-se ao modelo Transformer.
Diferente da rede neural tradicional RNN e CNN, o Transformer usa o mecanismo de auto-atenção para minerar a conexão e a correlação de diferentes elementos na sequência e possui bons recursos de processamento de dados de séries temporais. Isso permite que ele mostre excelente desempenho em tarefas como tradução automática, resumo de texto e sistemas de resposta a perguntas.
Portanto, o Transformer foi usado pela primeira vez no campo do NLP (processamento avançado de linguagem natural) para entender o texto e a linguagem humana.
Pré-treinamento no modelo Transformer, após contínuo ajuste fino e iteração, a OpenAI lançou sucessivamente grandes modelos de treinamento de idiomas, como GPT-1, GPT-2, GPT-3 e GPT-4. O ChatGPT é um robô de diálogo desenvolvido pela OpenAI após o ajuste fino do modelo GPT-3. Por poder interagir de maneira conversacional, as pessoas comuns são fáceis de usar e são mais "inteligentes" do que os chatbots do passado, por isso brilham.
Fundamentalmente, o modelo GPT do ChatGPT, o modelo LaMDA do Google e o modelo Wenxin do Baidu compartilham a mesma origem.
O uso do modelo Transformer para linguagem natural deu origem a aplicativos de bate-papo como o ChatGPT, o uso em visão computacional também alcançou resultados surpreendentes. O pioneiro nesse sentido é a Tesla.
Andrej Karpathy foi responsável por liderar a equipe de visão computacional para direção autônoma durante seu mandato como diretor de IA da Tesla.Ao combinar o modelo Transformer, a Tesla desenvolveu com sucesso a tecnologia BEV.
O nome completo do BEV é Bird's Eye View, que é uma visão panorâmica. Ele pode converter as imagens 2D capturadas pela câmera em imagens 3D por emenda e convertê-las uniformemente no ângulo de visão para processamento, formando uma "perspectiva de Deus". A razão para isso é que a direção é realizada em um espaço tridimensional, e o que as pessoas veem é um mundo tridimensional, não uma imagem 2D.
Esta nova solução de percepção será demonstrada por Andrej Karpathy no Tesla AI DAY em agosto de 2021. Por esse motivo, a Tesla não hesitou em reescrever o algoritmo do piloto automático e reconstruiu a infraestrutura para treinar redes neurais profundas.
Esta é a primeira vez que a tecnologia de modelos grandes é aplicada à indústria de direção autônoma.
Olhando para trás hoje, embora o GPT seja atualmente usado principalmente no campo do processamento de linguagem natural, não podemos permitir que o GPT dirija um carro, mas a tecnologia de modelo grande de IA por trás dele, especialmente a arquitetura Transformer, tem realmente conduzido de forma autônoma. campo aplicado.
Do processamento de linguagem natural à visão computacional, as duas áreas unificaram a estrutura de modelagem baseada na arquitetura Transformer, facilitando a modelagem conjunta.
E à medida que a compreensão da IA se aprofunda, as montadoras estão se tornando cada vez mais parecidas com as empresas de inteligência artificial. Além da Tesla, a Li Auto anunciou sua visão de empresa no início deste ano, afirmando se tornar uma empresa de inteligência artificial até 2030. Ele lançará o sistema de condução assistida por navegação urbana NOA este ano, e o suporte técnico é a percepção BEV e o modelo Transformer.
Parece não haver diferença entre deixar a IA falar com as pessoas e permitir que a IA dirija um carro, exceto que os cenários de pouso dos dois são diferentes. Os seres humanos estão sempre cheios de imaginação quando se trata de aplicar a tecnologia subjacente a produtos específicos.
GPT ensina essas coisas sobre direção automática
Desde o início deste ano, as poderosas capacidades demonstradas pelo GPT chocaram o mundo exterior. A inteligência artificial geral não é mais um castelo no ar. As pessoas na indústria de direção autônoma começaram a pensar que talvez a aplicação de IA generativa em modelos de linguagem possa ser migrada para direção autônoma.
Essencialmente, um modelo de linguagem é um modelo matemático da linguagem humana. O computador ainda não entende a linguagem natural, mas transforma problemas de linguagem em problemas matemáticos por meio de modelagem matemática. A linguagem natural é entendida indiretamente ao prever a probabilidade da próxima palavra aparecer ao longo da história de um determinado texto.
Mudando para a cena de direção, considerando o ambiente de tráfego atual, um mapa de navegação e o histórico de comportamento de direção do motorista, o modelo grande pode prever a próxima ação de direção?
Yu Kai, o fundador da Horizon, disse no Fórum dos 100 Veículos Elétricos realizado em abril deste ano que o ChatGPT o inspirou muito: "Continuaremos a usar big data, dados maiores, modelos maiores e aprendizado não supervisionado. Os humanos tentam dirigir, assim como você aprende com uma grande quantidade de texto natural não supervisionado e sem rótulos." Ele argumenta que as sequências dos controles de direção de cada motorista são como nossos textos em linguagem natural. Em seguida, ele quer construir um grande modelo de linguagem que retorne à direção autônoma.
Em teoria, essa ideia é viável. A IA já tem a capacidade de aprender. De acordo com o modelo de linguagem adaptável, a máquina continuará otimizando iterativamente de acordo com o feedback do usuário, aprenderá os hábitos do usuário e, em seguida, melhorará o modelo. O ChatGPT atual usa essa tecnologia. Então, não é difícil para a máquina aprender os hábitos de direção do motorista.
O modo sombra da Tesla é alimentar os dados de direção de motoristas reais para o aprendizado de máquina. O objetivo do treinamento do algoritmo é alcançado comparando o comportamento de motoristas humanos.
Depois que o GPT iniciou uma nova rodada de boom de IA, um impacto cognitivo na indústria é que, ao aumentar a escala de parâmetros do modelo, a quantidade de dados aumenta exponencialmente, que é o chamado modelo grande. Depois de atingir um certo ponto crítico , Os modelos podem de repente ser inteligentes.
Antigamente, os dados requeridos pelo modelo durante a fase de treinamento eram rotulados manualmente. Tomando a direção autônoma como exemplo, o rotulador de dados usa um grande número de imagens para rotular e dizer à máquina o que é um gato, o que é um cachorro e quantos tipos de cães e gatos existem. O anotador é como o professor da máquina, ensinando-a a entender o mundo repetidamente.
O problema é que o que o professor não ensinou, a máquina ainda não pode. Um exemplo típico é que a Tesla teve acidentes de piloto automático muitas vezes, e o veículo bateu em um grande caminhão que capotou porque a máquina não conseguiu reconhecê-lo.
He Yuhua, o sócio fundador da Hegao Capital, deu um exemplo a Shentu: Guangzhou tem dias chuvosos de verão frequentes e, em algumas cenas com pouca luz, haverá um grande número de insetos voadores no ar. Quando um carro passa, as luzes acendem e pode haver milhares de insetos voadores atingindo a frente do carro. Nesse caso, o sistema de percepção de direção autônoma do carro pode confundi-lo com uma parede.
O sistema de direção automática não consegue esgotar todos os casos de curvas (cenários extremos), o que é uma grande dificuldade em seu desenvolvimento.
O que o ChatGPT captura são os dados não marcados de toda a rede. No aprendizado autossupervisionado, os próprios dados são usados como um sinal de supervisão, em vez de depender de rótulos rotulados por humanos. Um dia, as pessoas descobriram que, no processo de digerir esses dados, o modelo grande repentinamente tem a capacidade de inferir outros casos a partir de uma instância.
Então, se o grande modelo de direção autônoma também pode aprender o comportamento humano de dirigir sem supervisão, sem a necessidade de um “professor” para ensiná-lo, isso significa que o sistema se transformou em um “velho motorista”?
GPT "dirigindo", não é confiável
Sonhos são lindos, e o caminho para realizá-los é sempre muito estreito.
Para que um modelo de IA semelhante ao ChatGPT exerça seu poder no campo da direção autônoma, pelo menos os seguintes problemas precisam ser resolvidos no momento.
A primeira é a fonte de dados.
As fontes de dados do ChatGPT são muito ricas, incluindo Wikipedia, livros, artigos de notícias, revistas científicas, etc., o que equivale aos dados públicos de toda a rede como seu alimento.
A condução autónoma é diferente. Os dados de direção do motorista e os dados de direção do veículo não são divulgados, e muitos deles envolvem privacidade. Fabricantes de automóveis e empresas de direção autônoma operam de forma independente, e os dados são fechados e não circulam, o que dificulta a obtenção de dados. Sem dados, a direção autônoma é água sem fonte.
He Zhiqiang, presidente da Lenovo Venture Capital, disse a Shentu que o núcleo da direção autônoma é ter dados, e os dados são muito importantes para modelos de treinamento. OEMs como a BYD têm dados, mas seus algoritmos ainda precisam ser refinados. Fabricantes de carros novos, como "Wei Xiaoli", são bons em algoritmos, mas suas vendas de carros não são suficientes. Empresas com dados e algoritmos podem fazer pleno uso de grandes modelos.
A segunda é que o método de implantação de computação do sistema é limitado.
Yu Kai acredita que o OpenAI e o ChatGPT estão computando na nuvem, que possui suprimento de energia suficiente, fonte de alimentação e um sistema muito bom. No entanto, se o carro depende da bateria e da dissipação de calor do carro, esse é o desafio. ótimo, o que significa que a direção automática não pode usar um modelo tão grande e um cálculo tão grande.
O consumo de poder de computação por grandes modelos fez com que os fabricantes de computação em nuvem se tornassem o primeiro lote de jogadores a desfrutar de dividendos nesta onda de boom de IA. O desenvolvimento da computação em nuvem pelas grandes empresas também abre caminho para grandes modelos. Mas do lado do carro, isso será uma contradição.
Um problema maior é que a confiabilidade de modelos grandes não foi verificada.
As pessoas que usaram o ChatGPT sabem que o ChatGPT às vezes fala bobagem, às vezes certo e às vezes errado. Isso é conhecido na indústria como uma tendência à alucinação, a tendência de produzir conteúdo irreal que não tem proveniência alguma. Grandes modelos inventam coisas sem se importar com sua veracidade e precisão.
Conversar pode ser um absurdo, mas a direção automática não. O resultado de qualquer saída errada pode ser fatal.
“O ChatGPT fez grandes progressos, mas a direção automática ainda não chegou, porque a direção automática, especialmente a direção não tripulada, pode ter uma taxa de tolerância a falhas zero, que é uma questão da vida humana”, disse Yu Kai.
Long Zhiyong, que já atuou como COO de uma empresa iniciante de IA no Vale do Silício, acredita que incontrolável, imprevisível e não confiável são as maiores ameaças à comercialização de modelos grandes. Uma manifestação típica é que o modelo grande tem tendência a alucinar.
Agora, não é realista para o sistema de direção automática aprender a escolher e distinguir e produzir a solução ideal de forma estável.
Uma fonte de uma empresa de inteligência artificial disse a Shentu: "De fato, existem muitos avanços na percepção visual no nível do algoritmo. Mas a cena do carro é muito exigente. Pessoalmente, não acho que haverá um grande avanço no curto prazo . Você pode prestar atenção aos movimentos especiais do Sla."
No entanto, recentemente tem havido uma tendência no círculo de tecnologia que as empresas, grandes e pequenas, querem dar uma olhada nos pontos quentes do GPT. Alguns fabricantes de automóveis anunciaram que estão prestes a aplicar tecnologia semelhante à GPT, e vários conceitos interessantes confundem as pessoas.
Por exemplo, uma empresa de direção autônoma sob uma empresa de automóveis tradicional lançou um grande modelo generativo para direção autônoma, que é chamado de "o primeiro na indústria" a usar esse modelo para treinar a direção autônoma.
Um investidor que há muito tempo presta atenção na pista de carros inteligentes perguntou a um líder do setor o que ele achava do modelo, e a outra parte respondeu com quatro palavras: "Tolice TM".
“É apenas um ato de relações públicas.” O investidor comentou sobre Shentu.
Condução autônoma, será derrubada e reiniciada?
Impulsionada pela Tesla, juntamente com a onda de IA emergente este ano, a indústria de direção autônoma está gradualmente se aproximando da direção de grandes modelos, grande poder de computação e big data.
O impacto dos modelos grandes na direção autônoma ainda não é drástico o suficiente, mas as pessoas com um olfato apurado mostraram uma ambivalência.
Assim como quando a Tesla usou o Transformer para converter dados de várias câmeras do espaço da imagem para o espaço BEV, ela não hesitou em derrubar a arquitetura original e reescrever o algoritmo. A aplicação de grandes modelos agora também pode significar que o algoritmo de direção automática original será derrubado e reiniciado.
He Zhiqiang acredita que os modelos grandes terão um grande impacto na direção autônoma. No passado, muitos modelos pequenos eram usados para direção autônoma, mas agora se tornou um modelo grande e pode ser necessário fazer tudo de novo. A indústria de direção autônoma será remodelada.
Zhao Dongxiang, diretor de direção autônoma de uma empresa de chips de IA, disse a Shentu que a mudança geral de ponta a ponta equivale a fazer tudo de novo.
O embaralhamento é uma oportunidade para novos entrantes e uma ameaça para os líderes. A história da ultrapassagem em uma curva geralmente acontece em um período de rápida mudança tecnológica. Na era da tecnologia rápida, quanto mais investimento na rota antiga, maior pode ser o custo irrecuperável e mais difícil é fazer a volta. Para OEMs ou empresas de direção autônoma, para adotar uma nova tecnologia, não apenas o efeito, mas também o custo devem ser considerados.
Zhao Dongxiang disse que, no que diz respeito ao estágio atual, não faz sentido mudar a rota técnica da direção automática. "Agora, as capacidades técnicas da indústria não são ruins. Todo mundo gastou tanto dinheiro e fez isso por tanto tempo. Se houver não há melhora substancial, não há motivação para mudar."
No AI DAY no final do ano passado, a Tesla atualizou o BEV para uma rede de ocupação (rede de ocupação), e a capacidade de generalização foi aprimorada ainda mais. Ao ocupar a rede, o sistema de percepção do piloto automático da Tesla pode julgar se precisa evitá-la sem saber qual é o objeto que vê, resolvendo assim mais problemas de cauda longa.
Não importa que tipo de rota técnica, agora está passando por mudanças e iterações rápidas. Os modelos pequenos do passado podem ser substituídos por modelos grandes, e os modelos grandes de hoje também podem ser substituídos por algumas novas espécies no futuro.
Mas, de qualquer forma, a prática de esfregar pontos quentes e fazer truques não favorece o progresso tecnológico. “É um mau hábito seguir o calor e é útil fabricar produtos de maneira prática”, disse Zhao Dongxiang.
A verdadeira "bomba rei" da direção autônoma está longe de acontecer. O que precisamos fazer é permanecer maravilhados com cada rodada de mudança tecnológica. O mítico GPT não pode construir o carro dos seus sonhos, mas pelo menos ocorreram mudanças.
Ver original
O conteúdo é apenas para referência, não uma solicitação ou oferta. Nenhum aconselhamento fiscal, de investimento ou jurídico é fornecido. Consulte a isenção de responsabilidade para obter mais informações sobre riscos.
O mítico GPT não pode construir o carro dos seus sonhos
Após a explosão do ChatGPT, o modelo AI tornou-se um ponto quente perseguido por muitas empresas de tecnologia. De conversas de bate-papo à geração de imagens e ao escritório de mesa, parece que a IA tem o poder sobrenatural de subverter tudo da noite para o dia.
A mania se espalhou para a indústria automotiva e os profissionais começaram a pensar: é viável deixar a GPT fabricar carros?
Algumas montadoras anunciaram que aplicariam a tecnologia de modelos em grande escala, enquanto outras disseram que acessariam grandes modelos de terceiros, e algumas montadoras correram para lançar o sistema de direção automática com a palavra GPT.
Alguns profissionais disseram a Shentu que o cockpit inteligente e a direção automática podem ser os primeiros cenários de aplicação de modelos grandes. Entre eles, a condução autônoma é a mais esperada.
A condução autónoma é uma pista extremamente difícil. Além de gigantes da tecnologia como Google e Baidu, um grande número de empreendedores talentosos se dedicaram a isso e queimaram bilhões de dólares, mas até agora não alcançaram resultados satisfatórios.
Modelo AI grande entra em condução automática, será diferente desta vez?
Qual é a relação entre GPT e carros?
O GPT não tem relação direta com os carros na superfície, mas na verdade tem uma relação profunda. A história tem que começar há seis anos.
Em junho de 2017, Musk, o chefe da Tesla, roubou um pesquisador eslovaco da OpenAI. O homem era Andrej Karpathy, que mais tarde se tornou o diretor de IA da Tesla.
Naquela época, Musk demonstrou grande interesse em inteligência artificial e também foi um dos fundadores da OpenAI. Pouco depois de recrutar Andrej Karpathy, Musk deixou o conselho de administração da OpenAI por acreditar que tanto a Tesla quanto a OpenAI estavam pesquisando IA e que poderia haver conflitos de interesse no futuro.
Mais tarde, Andrej Karpathy reescreveu o algoritmo do piloto automático em Tesla e desenvolveu a tecnologia de percepção visual pura BEV, que levou o piloto automático de Tesla a um novo estágio. E seu ex-proprietário, OpenAI, apostou todas as fichas na inteligência artificial geral e, finalmente, desenvolveu o GPT.
Do ponto de vista do produto, o GPT da OpenAI e o BEV da Tesla são espécies completamente diferentes. Mas, do ponto de vista da tecnologia subjacente, todos eles contam com tecnologia de inteligência artificial, especialmente a aplicação do modelo Google Transformer.
O Transformer é uma arquitetura de rede neural de aprendizado profundo proposta por 8 cientistas de IA do Google em 2017. Esta é uma invenção extremamente importante na indústria de inteligência artificial. O "T" no popular ChatGPT de hoje refere-se ao modelo Transformer.
Diferente da rede neural tradicional RNN e CNN, o Transformer usa o mecanismo de auto-atenção para minerar a conexão e a correlação de diferentes elementos na sequência e possui bons recursos de processamento de dados de séries temporais. Isso permite que ele mostre excelente desempenho em tarefas como tradução automática, resumo de texto e sistemas de resposta a perguntas.
Portanto, o Transformer foi usado pela primeira vez no campo do NLP (processamento avançado de linguagem natural) para entender o texto e a linguagem humana.
Pré-treinamento no modelo Transformer, após contínuo ajuste fino e iteração, a OpenAI lançou sucessivamente grandes modelos de treinamento de idiomas, como GPT-1, GPT-2, GPT-3 e GPT-4. O ChatGPT é um robô de diálogo desenvolvido pela OpenAI após o ajuste fino do modelo GPT-3. Por poder interagir de maneira conversacional, as pessoas comuns são fáceis de usar e são mais "inteligentes" do que os chatbots do passado, por isso brilham.
Fundamentalmente, o modelo GPT do ChatGPT, o modelo LaMDA do Google e o modelo Wenxin do Baidu compartilham a mesma origem.
O uso do modelo Transformer para linguagem natural deu origem a aplicativos de bate-papo como o ChatGPT, o uso em visão computacional também alcançou resultados surpreendentes. O pioneiro nesse sentido é a Tesla.
Andrej Karpathy foi responsável por liderar a equipe de visão computacional para direção autônoma durante seu mandato como diretor de IA da Tesla.Ao combinar o modelo Transformer, a Tesla desenvolveu com sucesso a tecnologia BEV.
O nome completo do BEV é Bird's Eye View, que é uma visão panorâmica. Ele pode converter as imagens 2D capturadas pela câmera em imagens 3D por emenda e convertê-las uniformemente no ângulo de visão para processamento, formando uma "perspectiva de Deus". A razão para isso é que a direção é realizada em um espaço tridimensional, e o que as pessoas veem é um mundo tridimensional, não uma imagem 2D.
Esta nova solução de percepção será demonstrada por Andrej Karpathy no Tesla AI DAY em agosto de 2021. Por esse motivo, a Tesla não hesitou em reescrever o algoritmo do piloto automático e reconstruiu a infraestrutura para treinar redes neurais profundas.
Esta é a primeira vez que a tecnologia de modelos grandes é aplicada à indústria de direção autônoma.
Olhando para trás hoje, embora o GPT seja atualmente usado principalmente no campo do processamento de linguagem natural, não podemos permitir que o GPT dirija um carro, mas a tecnologia de modelo grande de IA por trás dele, especialmente a arquitetura Transformer, tem realmente conduzido de forma autônoma. campo aplicado.
Do processamento de linguagem natural à visão computacional, as duas áreas unificaram a estrutura de modelagem baseada na arquitetura Transformer, facilitando a modelagem conjunta.
E à medida que a compreensão da IA se aprofunda, as montadoras estão se tornando cada vez mais parecidas com as empresas de inteligência artificial. Além da Tesla, a Li Auto anunciou sua visão de empresa no início deste ano, afirmando se tornar uma empresa de inteligência artificial até 2030. Ele lançará o sistema de condução assistida por navegação urbana NOA este ano, e o suporte técnico é a percepção BEV e o modelo Transformer.
Parece não haver diferença entre deixar a IA falar com as pessoas e permitir que a IA dirija um carro, exceto que os cenários de pouso dos dois são diferentes. Os seres humanos estão sempre cheios de imaginação quando se trata de aplicar a tecnologia subjacente a produtos específicos.
GPT ensina essas coisas sobre direção automática
Desde o início deste ano, as poderosas capacidades demonstradas pelo GPT chocaram o mundo exterior. A inteligência artificial geral não é mais um castelo no ar. As pessoas na indústria de direção autônoma começaram a pensar que talvez a aplicação de IA generativa em modelos de linguagem possa ser migrada para direção autônoma.
Essencialmente, um modelo de linguagem é um modelo matemático da linguagem humana. O computador ainda não entende a linguagem natural, mas transforma problemas de linguagem em problemas matemáticos por meio de modelagem matemática. A linguagem natural é entendida indiretamente ao prever a probabilidade da próxima palavra aparecer ao longo da história de um determinado texto.
Mudando para a cena de direção, considerando o ambiente de tráfego atual, um mapa de navegação e o histórico de comportamento de direção do motorista, o modelo grande pode prever a próxima ação de direção?
Yu Kai, o fundador da Horizon, disse no Fórum dos 100 Veículos Elétricos realizado em abril deste ano que o ChatGPT o inspirou muito: "Continuaremos a usar big data, dados maiores, modelos maiores e aprendizado não supervisionado. Os humanos tentam dirigir, assim como você aprende com uma grande quantidade de texto natural não supervisionado e sem rótulos." Ele argumenta que as sequências dos controles de direção de cada motorista são como nossos textos em linguagem natural. Em seguida, ele quer construir um grande modelo de linguagem que retorne à direção autônoma.
Em teoria, essa ideia é viável. A IA já tem a capacidade de aprender. De acordo com o modelo de linguagem adaptável, a máquina continuará otimizando iterativamente de acordo com o feedback do usuário, aprenderá os hábitos do usuário e, em seguida, melhorará o modelo. O ChatGPT atual usa essa tecnologia. Então, não é difícil para a máquina aprender os hábitos de direção do motorista.
O modo sombra da Tesla é alimentar os dados de direção de motoristas reais para o aprendizado de máquina. O objetivo do treinamento do algoritmo é alcançado comparando o comportamento de motoristas humanos.
Depois que o GPT iniciou uma nova rodada de boom de IA, um impacto cognitivo na indústria é que, ao aumentar a escala de parâmetros do modelo, a quantidade de dados aumenta exponencialmente, que é o chamado modelo grande. Depois de atingir um certo ponto crítico , Os modelos podem de repente ser inteligentes.
Antigamente, os dados requeridos pelo modelo durante a fase de treinamento eram rotulados manualmente. Tomando a direção autônoma como exemplo, o rotulador de dados usa um grande número de imagens para rotular e dizer à máquina o que é um gato, o que é um cachorro e quantos tipos de cães e gatos existem. O anotador é como o professor da máquina, ensinando-a a entender o mundo repetidamente.
O problema é que o que o professor não ensinou, a máquina ainda não pode. Um exemplo típico é que a Tesla teve acidentes de piloto automático muitas vezes, e o veículo bateu em um grande caminhão que capotou porque a máquina não conseguiu reconhecê-lo.
He Yuhua, o sócio fundador da Hegao Capital, deu um exemplo a Shentu: Guangzhou tem dias chuvosos de verão frequentes e, em algumas cenas com pouca luz, haverá um grande número de insetos voadores no ar. Quando um carro passa, as luzes acendem e pode haver milhares de insetos voadores atingindo a frente do carro. Nesse caso, o sistema de percepção de direção autônoma do carro pode confundi-lo com uma parede.
O sistema de direção automática não consegue esgotar todos os casos de curvas (cenários extremos), o que é uma grande dificuldade em seu desenvolvimento.
O que o ChatGPT captura são os dados não marcados de toda a rede. No aprendizado autossupervisionado, os próprios dados são usados como um sinal de supervisão, em vez de depender de rótulos rotulados por humanos. Um dia, as pessoas descobriram que, no processo de digerir esses dados, o modelo grande repentinamente tem a capacidade de inferir outros casos a partir de uma instância.
Então, se o grande modelo de direção autônoma também pode aprender o comportamento humano de dirigir sem supervisão, sem a necessidade de um “professor” para ensiná-lo, isso significa que o sistema se transformou em um “velho motorista”?
GPT "dirigindo", não é confiável
Sonhos são lindos, e o caminho para realizá-los é sempre muito estreito.
Para que um modelo de IA semelhante ao ChatGPT exerça seu poder no campo da direção autônoma, pelo menos os seguintes problemas precisam ser resolvidos no momento.
A primeira é a fonte de dados.
As fontes de dados do ChatGPT são muito ricas, incluindo Wikipedia, livros, artigos de notícias, revistas científicas, etc., o que equivale aos dados públicos de toda a rede como seu alimento.
A condução autónoma é diferente. Os dados de direção do motorista e os dados de direção do veículo não são divulgados, e muitos deles envolvem privacidade. Fabricantes de automóveis e empresas de direção autônoma operam de forma independente, e os dados são fechados e não circulam, o que dificulta a obtenção de dados. Sem dados, a direção autônoma é água sem fonte.
He Zhiqiang, presidente da Lenovo Venture Capital, disse a Shentu que o núcleo da direção autônoma é ter dados, e os dados são muito importantes para modelos de treinamento. OEMs como a BYD têm dados, mas seus algoritmos ainda precisam ser refinados. Fabricantes de carros novos, como "Wei Xiaoli", são bons em algoritmos, mas suas vendas de carros não são suficientes. Empresas com dados e algoritmos podem fazer pleno uso de grandes modelos.
A segunda é que o método de implantação de computação do sistema é limitado.
Yu Kai acredita que o OpenAI e o ChatGPT estão computando na nuvem, que possui suprimento de energia suficiente, fonte de alimentação e um sistema muito bom. No entanto, se o carro depende da bateria e da dissipação de calor do carro, esse é o desafio. ótimo, o que significa que a direção automática não pode usar um modelo tão grande e um cálculo tão grande.
O consumo de poder de computação por grandes modelos fez com que os fabricantes de computação em nuvem se tornassem o primeiro lote de jogadores a desfrutar de dividendos nesta onda de boom de IA. O desenvolvimento da computação em nuvem pelas grandes empresas também abre caminho para grandes modelos. Mas do lado do carro, isso será uma contradição.
Um problema maior é que a confiabilidade de modelos grandes não foi verificada.
As pessoas que usaram o ChatGPT sabem que o ChatGPT às vezes fala bobagem, às vezes certo e às vezes errado. Isso é conhecido na indústria como uma tendência à alucinação, a tendência de produzir conteúdo irreal que não tem proveniência alguma. Grandes modelos inventam coisas sem se importar com sua veracidade e precisão.
Conversar pode ser um absurdo, mas a direção automática não. O resultado de qualquer saída errada pode ser fatal.
“O ChatGPT fez grandes progressos, mas a direção automática ainda não chegou, porque a direção automática, especialmente a direção não tripulada, pode ter uma taxa de tolerância a falhas zero, que é uma questão da vida humana”, disse Yu Kai.
Long Zhiyong, que já atuou como COO de uma empresa iniciante de IA no Vale do Silício, acredita que incontrolável, imprevisível e não confiável são as maiores ameaças à comercialização de modelos grandes. Uma manifestação típica é que o modelo grande tem tendência a alucinar.
Agora, não é realista para o sistema de direção automática aprender a escolher e distinguir e produzir a solução ideal de forma estável.
Uma fonte de uma empresa de inteligência artificial disse a Shentu: "De fato, existem muitos avanços na percepção visual no nível do algoritmo. Mas a cena do carro é muito exigente. Pessoalmente, não acho que haverá um grande avanço no curto prazo . Você pode prestar atenção aos movimentos especiais do Sla."
No entanto, recentemente tem havido uma tendência no círculo de tecnologia que as empresas, grandes e pequenas, querem dar uma olhada nos pontos quentes do GPT. Alguns fabricantes de automóveis anunciaram que estão prestes a aplicar tecnologia semelhante à GPT, e vários conceitos interessantes confundem as pessoas.
Por exemplo, uma empresa de direção autônoma sob uma empresa de automóveis tradicional lançou um grande modelo generativo para direção autônoma, que é chamado de "o primeiro na indústria" a usar esse modelo para treinar a direção autônoma.
Um investidor que há muito tempo presta atenção na pista de carros inteligentes perguntou a um líder do setor o que ele achava do modelo, e a outra parte respondeu com quatro palavras: "Tolice TM".
“É apenas um ato de relações públicas.” O investidor comentou sobre Shentu.
Condução autônoma, será derrubada e reiniciada?
Impulsionada pela Tesla, juntamente com a onda de IA emergente este ano, a indústria de direção autônoma está gradualmente se aproximando da direção de grandes modelos, grande poder de computação e big data.
O impacto dos modelos grandes na direção autônoma ainda não é drástico o suficiente, mas as pessoas com um olfato apurado mostraram uma ambivalência.
Assim como quando a Tesla usou o Transformer para converter dados de várias câmeras do espaço da imagem para o espaço BEV, ela não hesitou em derrubar a arquitetura original e reescrever o algoritmo. A aplicação de grandes modelos agora também pode significar que o algoritmo de direção automática original será derrubado e reiniciado.
He Zhiqiang acredita que os modelos grandes terão um grande impacto na direção autônoma. No passado, muitos modelos pequenos eram usados para direção autônoma, mas agora se tornou um modelo grande e pode ser necessário fazer tudo de novo. A indústria de direção autônoma será remodelada.
Zhao Dongxiang, diretor de direção autônoma de uma empresa de chips de IA, disse a Shentu que a mudança geral de ponta a ponta equivale a fazer tudo de novo.
O embaralhamento é uma oportunidade para novos entrantes e uma ameaça para os líderes. A história da ultrapassagem em uma curva geralmente acontece em um período de rápida mudança tecnológica. Na era da tecnologia rápida, quanto mais investimento na rota antiga, maior pode ser o custo irrecuperável e mais difícil é fazer a volta. Para OEMs ou empresas de direção autônoma, para adotar uma nova tecnologia, não apenas o efeito, mas também o custo devem ser considerados.
Zhao Dongxiang disse que, no que diz respeito ao estágio atual, não faz sentido mudar a rota técnica da direção automática. "Agora, as capacidades técnicas da indústria não são ruins. Todo mundo gastou tanto dinheiro e fez isso por tanto tempo. Se houver não há melhora substancial, não há motivação para mudar."
No AI DAY no final do ano passado, a Tesla atualizou o BEV para uma rede de ocupação (rede de ocupação), e a capacidade de generalização foi aprimorada ainda mais. Ao ocupar a rede, o sistema de percepção do piloto automático da Tesla pode julgar se precisa evitá-la sem saber qual é o objeto que vê, resolvendo assim mais problemas de cauda longa.
Não importa que tipo de rota técnica, agora está passando por mudanças e iterações rápidas. Os modelos pequenos do passado podem ser substituídos por modelos grandes, e os modelos grandes de hoje também podem ser substituídos por algumas novas espécies no futuro.
Mas, de qualquer forma, a prática de esfregar pontos quentes e fazer truques não favorece o progresso tecnológico. “É um mau hábito seguir o calor e é útil fabricar produtos de maneira prática”, disse Zhao Dongxiang.
A verdadeira "bomba rei" da direção autônoma está longe de acontecer. O que precisamos fazer é permanecer maravilhados com cada rodada de mudança tecnológica. O mítico GPT não pode construir o carro dos seus sonhos, mas pelo menos ocorreram mudanças.