Por que a modularidade multimodal é uma ilusão da Web3 AI?

Question

Autor original: @BlazingKevin\_ , o Pesquisador na MovemakerA evolução dos modelos multimodais não trouxe o caos, mas aprofundou as barreiras técnicas da IA Web2 - do alinhamento semântico à compreensão visual, da incorporação de alta dimensão à fusão de recursos, modelos complexos estão integrando várias expressões modais a uma velocidade sem precedentes para construir uma IA cada vez mais fechada. O mercado de ações dos EUA também votou com os pés, sejam ações de moeda ou ações de IA, eles saíram de uma onda de bull market. E essa onda de calor não tem nada a ver com Crypto. As tentativas de IA Web3 que vimos, especialmente a evolução da direção do agente nos últimos meses, estão quase completamente erradas: o wishful thinking de usar uma estrutura descentralizada para montar um sistema modular multimodal estilo Web2 é, na verdade, um duplo desalinhamento entre tecnologia e pensamento. Nos módulos altamente acoplados de hoje, distribuição de recursos altamente instável e demanda de poder de computação cada vez mais concentrada, a modularização multimodal simplesmente não pode ficar na Web3. Vamos salientar: o futuro da IA Web3 não é sobre imitação, é sobre desvios estratégicos. Do alinhamento semântico de espaços de alta dimensão, ao gargalo de informação no mecanismo de atenção, ao alinhamento de recursos sob poder de computação heterogêneo, vou expandi-los um a um para explicar por que a IA Web3 deve usar o campo para cercar a cidade como um programa tático.## Web3 AI baseado em modelos multimodais achatados, a não alocação semântica resulta em baixo desempenhoNo sistema multimodal da IA Web2 moderna, "alinhamento semântico" refere-se ao mapeamento de informações de diferentes modalidades (como imagens, texto, áudio, vídeo, etc.) no mesmo espaço semântico ou interconversível, para que o modelo possa entender e comparar o significado intrínseco por trás desses sinais originalmente díspares. Por exemplo, para uma imagem de um gato e a frase "um gato bonito", o modelo precisa projetá-los próximos uns dos outros em um espaço embutido de alta dimensão, para que ele possa "olhar para a imagem e falar" e "ouvir o som para associar a imagem" ao recuperar, gerar ou raciocinar.Só é significativo dividir o fluxo de trabalho em diferentes módulos na premissa de que se realiza um espaço de incorporação de alta dimensão. No entanto, no protocolo Web3 Agent, não é possível realizar a incorporação de alta dimensão, pois a modularização é uma ilusão da Web3 AI.Como entender o espaço de incorporação de alta dimensão? No nível mais intuitivo, imagine o "espaço de incorporação de alta dimensão" como um sistema de coordenadas - assim como as coordenadas x-y em um plano, você pode usar um par de números para localizar um ponto. A diferença é que, em nosso plano bidimensional comum, um ponto é completamente determinado por dois números (x, y); enquanto no espaço "de alta dimensão", cada ponto precisa ser descrito por mais números, podendo ser 128, 512 ou até milhares de números.De forma progressiva, compreenda em três etapas:1. Exemplo em duas dimensões:Pense em quantas coordenadas de cidades você marcou no mapa, como Pequim (116.4, 39.9), Xangai (121.5, 31.2) e Cantão (113.3, 23.1). Cada cidade aqui corresponde a um "vetor de incorporação bidimensional" (embedding vector): as coordenadas bidimensionais codificam as informações geográficas em números.Se você quiser medir a "similaridade" entre cidades - cidades que estão próximas no mapa costumam estar na mesma zona econômica ou climática - você pode comparar diretamente a distância euclidiana de suas coordenadas.2. Expandir para múltiplas dimensões:Agora, suponha que você não apenas queira descrever a posição no "espaço geográfico", mas também adicionar algumas "características climáticas" (temperatura média, precipitação), "características populacionais" (densidade populacional, PIB) etc. Você pode atribuir a cada cidade um vetor que contém essas 5, 10 ou até mais dimensões.Por exemplo, o vetor 5D de Guangzhou pode ser [ 113.3, 23.1, 24.5, 1700, 14.5 ], representando respectivamente a longitude, latitude, temperatura média, precipitação anual (milímetros) e índice econômico. Este "espaço multidimensional" permite que você compare cidades simultaneamente em várias dimensões, como geografia, clima e economia: se os vetores de duas cidades forem muito próximos, isso significa que elas são muito semelhantes nessas características.3. Mudar para a semântica - por que "incorporar": Na processamento de linguagem natural (NLP) ou visão computacional, também queremos mapear palavras, frases ou imagens para um vetor multidimensional, de forma que palavras ou imagens com significados semelhantes fiquem mais próximas no espaço. Esse processo de mapeamento é chamado de "embedding".Por exemplo: treinamos um modelo que mapeia "cat" (gato) para um vetor 300-dimensional v₁, mapeia "dog" (cão) para outro vetor v₂ e mapeia palavras "não relacionadas", como "economy" (economia), para v₃. Assim, neste espaço 300-dimensional, a distância entre v₁ e v₂ será muito pequena (porque ambos são animais e frequentemente aparecem em contextos linguísticos semelhantes), enquanto a distância entre v₁ e v₃ será muito grande.Como o modelo é treinado em grandes quantidades de pares de texto ou imagem-texto, cada dimensão que aprende não corresponde diretamente a propriedades interpretáveis como "longitude" ou "latitude", mas sim algum tipo de "característica semântica implícita". Algumas dimensões podem capturar a divisão de grão grosso de "animal vs. não animal", outras podem distinguir entre "doméstico vs. selvagem", e ainda outras podem corresponder ao sentimento de "bonito vs. poderoso...... Em suma, centenas ou milhares de dimensões trabalham juntas para codificar todos os tipos de camadas semânticas complexas e entrelaçadas.Qual é a diferença entre dimensões altas e baixas? Apenas um número suficiente de dimensões pode acomodar uma variedade de características semânticas entrelaçadas, e apenas dimensões altas podem fazê-las ter uma posição mais clara em suas respetivas latitudes semânticas. Quando a semântica não pode ser distinguida, isto é, a semântica não pode ser alinhada, diferentes sinais no espaço de baixa dimensão "apertam" uns aos outros, resultando em confusão frequente na recuperação ou classificação do modelo, e a precisão é muito reduzida. Em segundo lugar, é difícil capturar diferenças sutis no estágio de geração da estratégia, e é fácil perder os principais sinais de negociação ou julgar mal o limiar de risco, o que arrasta diretamente para baixo o desempenho dos retornos. Além disso, a colaboração entre módulos torna-se impossível, cada agente trabalha de forma independente, o fenómeno das ilhas de informação é grave, o atraso global da resposta aumenta e a robustez torna-se fraca. Finalmente, em face de cenários de mercado complexos, a estrutura de baixa dimensão quase não tem capacidade para transportar dados de várias fontes, e a estabilidade e escalabilidade do sistema são difíceis de garantir, e a operação a longo prazo está fadada a cair em gargalos de desempenho e dificuldades de manutenção, resultando em uma grande lacuna entre o desempenho do produto após o pouso e a expectativa inicial.Então, os protocolos Web3 AI ou Agent podem alcançar espaço de incorporação de alta dimensão? Em primeiro lugar, para responder à questão de como alcançar o espaço de alta dimensão, o sentido tradicional de "altamente dimensional" requer que cada subsistema, como inteligência de mercado, geração, execução e implementação de estratégias e controle de riscos, se alinhem e se complementem na representação de dados e no processo de tomada de decisão. No entanto, a maioria dos Agentes Web3 apenas encapsula APIs prontas (CoinGecko, interfaces DEX, etc.) em "Agentes" independentes, sem um espaço de incorporação central unificado e um mecanismo de atenção entre módulos, resultando em informações que não podem interagir entre módulos de vários ângulos e níveis, e só podem seguir um pipeline linear, mostrando uma única função, e incapazes de formar uma otimização geral de loop fechado.Muitos agentes chamam interfaces externas diretamente e nem mesmo fazem ajuste fino ou engenharia de recursos suficientes para os dados retornados pela interface. Por exemplo, o agente de análise de mercado simplesmente pega o preço e o volume de negociação, o agente de execução de transações só coloca ordens de acordo com os parâmetros da interface e o agente de controle de risco só dá alarmes de acordo com vários limites. Desempenham as suas próprias funções, mas carecem de fusão multimodal e de uma compreensão semântica profunda do mesmo evento de risco ou sinal de mercado, o que faz com que o sistema não seja capaz de gerar rapidamente estratégias abrangentes e multiângulos face a oportunidades extremas de mercado ou de ativos cruzados.Portanto, exigir que a IA Web3 alcance um espaço de alta dimensão equivale a exigir que o protocolo do Agente desenvolva todas as interfaces API envolvidas, o que é contrário à sua intenção original de modularização, e o sistema multimodal modular descrito por pequenas e médias empresas na IA Web3 não pode resistir ao escrutínio. A arquitetura de alta dimensão requer treinamento unificado de ponta a ponta ou otimização colaborativa: da captura de sinais ao cálculo da estratégia, à execução e ao controle de riscos, todos os links compartilham o mesmo conjunto de funções de representação e perda. A ideia de "módulo como plug-in" do Web3 Agent exacerbou a fragmentação — cada atualização, implantação e ajuste de parâmetros do agente são concluídos em seu próprio silo, que é difícil de iterar de forma síncrona, e não há um mecanismo centralizado eficaz de monitoramento e feedback, resultando em custos de manutenção crescentes e desempenho geral limitado.Para implementar um agente inteligente de cadeia completa com barreiras de mercado, é necessário um modelo conjunto de ponta a ponta, incorporação unificada entre módulos e um engenho sistemático de treinamento e implantação colaborativa para romper esse impasse. No entanto, atualmente não existem tais pontos de dor no mercado, e, portanto, não há demanda de mercado.## No espaço de baixa dimensão, o mecanismo de atenção não pode ser projetado de forma precisaOs modelos multimodais de alto nível devem conceber mecanismos de atenção sofisticados. O "mecanismo de atenção" é essencialmente uma forma de alocar dinamicamente recursos computacionais, permitindo que o modelo se "concentre" seletivamente nas partes mais relevantes ao processar uma entrada modal. Os mais comuns são os mecanismos de autoatenção e atenção cruzada no Transformer: a autoatenção permite que o modelo meça as dependências entre elementos em uma sequência, como a importância de cada palavra no texto para outras palavras; A transatenção permite que informações de uma modalidade (por exemplo, texto) decidam quais recursos de imagem "ver" ao decodificar ou gerar outra modalidade (por exemplo, a sequência de recursos de uma imagem). Com atenção de várias cabeças, o modelo pode aprender vários alinhamentos simultaneamente em diferentes subespaços para capturar associações mais complexas e refinadas.O pré-requisito para o funcionamento do mecanismo de atenção é que as multimodalidades possuam alta dimensionalidade. Em um espaço de alta dimensionalidade, um mecanismo de atenção preciso pode encontrar a parte mais central em um espaço massivo de alta dimensionalidade no menor tempo possível. Antes de explicar por que o mecanismo de atenção precisa ser colocado em um espaço de alta dimensionalidade para exercer sua função, vamos primeiro entender o processo de design do mecanismo de atenção na IA do Web2, representado pelo decodificador Transformer. A ideia central é que, ao processar sequências (texto, patch de imagem, quadro de áudio), o modelo atribui dinamicamente "pesos de atenção" a cada elemento, permitindo que ele se concentre nas informações mais relevantes, em vez de tratar todos de forma igual e cega.Para simplificar, se você comparar o mecanismo de atenção a um carro, projetar Query-Key-Value é projetar o motor. Q-K-V é o mecanismo que nos ajuda a determinar as informações chave, Query refere-se à consulta ( "o que estou procurando" ), Key refere-se ao índice ( "que rótulo eu tenho" ), Value refere-se ao conteúdo (" O que está aqui", ). Para um modelo multimodal, o que você insere no modelo pode ser uma frase, uma imagem ou um áudio. Para recuperar o conteúdo que precisamos no espaço dimensional, essas entradas são cortadas nas menores unidades, como um caractere, um pequeno bloco de um determinado tamanho de pixel ou um pedaço de quadro de áudio, e o modelo multimodal gera Consulta, Chave e Valor para essas unidades mínimas para cálculo de atenção. Quando o modelo processa um determinado local, ele usará a consulta dessa posição para comparar as chaves de todas as posições, determinar quais tags melhor correspondem aos requisitos atuais e, em seguida, extrair o valor da posição correspondente de acordo com o grau de correspondência e ponderar a combinação de acordo com a importância e, finalmente, obter uma nova representação que não apenas contenha suas próprias informações, mas também integre o conteúdo relevante de todo o mundo. Desta forma, cada saída pode ser dinamicamente "questionada-recuperada-integrada" de acordo com o contexto para alcançar um foco de informação eficiente e preciso.Com base neste motor, adicionam-se várias peças, combinando habilmente a "interação global" com a "complexidade controlável": o produto escalar de escala garante a estabilidade numérica, a paralelização múltipla enriquece a expressão, a codificação de posição preserva a ordem da sequência, as variantes esparsas equilibram a eficiência, a residualidade e a normalização ajudam a estabilizar o treinamento, e a atenção cruzada conecta múltiplos modos. Estes designs modulares e progressivos permitem que a IA do Web2, ao lidar com várias sequências e tarefas multimodais, tenha uma poderosa capacidade de aprendizado, enquanto opera de forma eficiente dentro de uma faixa de capacidade computacional suportável.Por que a IA Web3 baseada em módulos não pode alcançar um agendamento de atenção unificado? Primeiro, o mecanismo de atenção depende de um espaço unificado Query–Key–Value e todos os recursos de entrada devem ser mapeados para o mesmo espaço vetorial de alta dimensão para calcular os pesos dinâmicos do produto ponto. No entanto, APIs independentes retornam diferentes formatos e diferentes distribuições de dados - preço, status do pedido, alarmes de limite - sem uma camada de incorporação unificada e não podem formar um conjunto de Q/K/V interativo. Em segundo lugar, a atenção multipessoal permite prestar atenção a diferentes fontes de informação em paralelo, ao mesmo nível e ao mesmo tempo, e depois os resultados são agregados. No entanto, APIs independentes muitas vezes "chamam A primeiro, depois chamam B e depois chamam C", e a saída de cada etapa é apenas a entrada do próximo módulo, que não tem a capacidade de ponderação dinâmica paralela e multicanal e, naturalmente, não pode simular o agendamento fino de pontuação e síntese de todas as posições ou modalidades ao mesmo tempo no mecanismo de atenção. Finalmente, um verdadeiro mecanismo de atenção atribui dinamicamente pesos a cada elemento com base no contexto geral; No modo API, os módulos só podem ver o contexto "independente" quando são chamados, e não há contexto central compartilhado entre si em tempo real, portanto, é impossível alcançar correlação global e foco entre módulos.Portanto, apenas encapsular várias funcionalidades em APIs discretas - sem uma representação vetorial comum, sem ponderação e agregação paralelas - não será suficiente para construir uma capacidade de "agendamento de atenção unificada" como a do Transformer, assim como um carro com um motor de baixo desempenho dificilmente poderá aumentar seu limite, não importa como seja modificado.## A modularização discreta leva a uma fusão de características que permanece em uma colagem estática superficial.A "fusão de características" consiste em combinar ainda mais os vetores de características obtidos por diferentes processamentos modais com base no alinhamento e na atenção, de modo a que possam ser diretamente utilizados por tarefas a jusante (classificação, recuperação, geração, etc.). Os métodos de fusão podem ser tão simples como emenda, soma ponderada ou tão complexos como agrupamento bilinear, decomposição tensora e até mesmo técnicas de roteamento dinâmico. Uma abordagem de ordem superior é alternar alinhamento, atenção e fusão em uma rede multicamadas, ou estabelecer um caminho de transmissão de mensagens mais flexível entre recursos intermodais através de redes neurais gráficas (GNNs) para alcançar uma interação profunda de informações.Não é necessário dizer que a Web3 AI está, sem dúvida, apenas na fase mais simples de concatenação, pois a fusão de características dinâmicas pressupõe um espaço de alta dimensão e um mecanismo de atenção preciso. Quando essas condições não são atendidas, naturalmente a fusão de características na fase final não pode ter um desempenho excepcional.A IA Web2 tende ao treinamento conjunto de ponta a ponta: todos os recursos modais, como imagens, texto e áudio, são processados simultaneamente no mesmo espaço de alta dimensão, e o modelo aprende automaticamente os pesos de fusão ideais e os modos de interação na propagação para frente e para trás através da cootimização com a camada de tarefas a jusante através da camada de atenção e da camada de fusão. A IA Web3, por outro lado, usa uma emenda de módulo mais discreta, encapsulando várias APIs, como reconhecimento de imagem, captura de mercado e avaliação de risco, em agentes independentes e, em seguida, simplesmente juntando os rótulos, valores ou alarmes de limite que eles emitem e tomando decisões abrangentes por lógica principal ou manual, que não tem uma meta de treinamento unificada e nenhum fluxo de gradiente entre os módulos.Na IA Web2, o sistema conta com o mecanismo de atenção para calcular as pontuações de importância de vários recursos em tempo real de acordo com o contexto e ajustar dinamicamente a estratégia de fusão. A atenção de várias cabeças também pode capturar vários padrões de interação de recursos diferentes em paralelo no mesmo nível, levando em consideração detalhes locais e semântica global. Web3 AI, por outro lado, muitas vezes fixa o peso de "imagem × 0,5 + texto × 0,3 + preço × 0,2" antecipadamente, ou usa regras simples if/else para determinar se deve fundir, ou não fundir de todo, e apenas apresenta a saída de cada módulo juntos, o que carece de flexibilidade.A IA Web2 mapeia todas as características de modalidades para um espaço de alta dimensão de milhares de dimensões, onde o processo de fusão não é apenas a concatenação de vetores, mas também inclui adição, pooling bilinear e várias operações de interação de alta ordem – cada dimensão pode corresponder a algum significado latente, permitindo que o modelo capture associações complexas e profundas entre modalidades. Em contraste, as saídas de cada agente da IA Web3 geralmente contêm apenas alguns campos ou indicadores chave, com uma dimensão de características extremamente baixa, quase incapazes de expressar informações sutis como "por que o conteúdo da imagem corresponde ao significado do texto" ou "a delicada relação entre a volatilidade de preços e as tendências emocionais".No Web2 AI, a perda das tarefas de downstream é continuamente retroalimentada para as várias partes do modelo através da camada de atenção e da camada de fusão, ajustando automaticamente quais características devem ser reforçadas ou suprimidas, formando uma otimização em loop fechado. Em contraste, no Web3 AI, os resultados das chamadas de API, uma vez reportados, dependem muito da avaliação e ajuste manual ou de processos externos, carecendo de feedback automatizado de ponta a ponta, o que torna difícil a iteração e otimização online das estratégias de fusão.## As barreiras na indústria de IA estão a aumentar, mas as dores ainda não surgiramDevido à necessidade de levar em conta o alinhamento intermodal, a computação de atenção sofisticada e a fusão de recursos de alta dimensão no treinamento de ponta a ponta, o sistema multimodal da IA Web2 é muitas vezes um projeto de engenharia extremamente grande. Não só requer conjuntos de dados multimodais massivos, diversificados e bem anotados, mas também requer semanas ou até meses de treinamento em milhares de GPUs; Em termos de arquitetura de modelo, integra vários conceitos mais recentes de projeto de rede e tecnologias de otimização. Em termos de implementação do projeto, também é necessário construir uma plataforma de treinamento distribuída escalável, sistema de monitoramento, gerenciamento de versão de modelo e pipeline de implantação. Na pesquisa e desenvolvimento de algoritmos, é necessário continuar a estudar variantes de atenção mais eficientes, perdas de alinhamento mais robustas e estratégias de fusão mais leves. Esse trabalho sistemático full-link, full-stack tem requisitos extremamente altos de capital, dados, poder de computação, talentos e até mesmo colaboração organizacional, por isso constitui uma forte barreira da indústria e também criou a competitividade central dominada por algumas equipes líderes até agora.Quando analisei as aplicações chinesas de IA em abril e comparei a WEB3 ai, mencionei um ponto de vista: em indústrias com fortes barreiras, o Crypto pode alcançar avanços, o que significa que algumas indústrias têm sido muito maduras nos mercados tradicionais, mas há enormes pontos problemáticos, alta maturidade significa que há usuários suficientes familiarizados com modelos de negócios semelhantes, e grandes pontos problemáticos significam que os usuários estão dispostos a experimentar novas soluções, ou seja, forte disposição para aceitar Crypto, ambos são indispensáveis, ou seja, pelo contrário, Se não for uma indústria que já está muito madura no mercado tradicional, mas há enormes pontos problemáticos, a Crypto não será capaz de se enraizar nela, não haverá espaço para sobrevivência, e a vontade dos usuários de entendê-la plenamente é muito baixa, e eles não entendem seu limite superior potencial.WEB3 AI ou qualquer produto cripto sob a bandeira do PMF precisa ser desenvolvido com a tática de cercar a cidade no campo, e a água deve ser testada em pequena escala na posição marginal, para garantir que a fundação seja sólida, e então esperar o surgimento do cenário central, ou seja, a cidade alvo. O núcleo da IA Web3 está na descentralização, e seu caminho de evolução se reflete na compatibilidade de alto paralelismo, baixo acoplamento e poder de computação heterogêneo. Isso torna a IA Web3 mais vantajosa em cenários como computação de borda e é adequada para tarefas com estruturas leves, paralelismo fácil e incentivo, como ajuste fino de LoRA, tarefas pós-treinamento alinhadas comportamentalmente, treinamento e anotação de dados terceirizados, treinamento de modelos básicos pequenos e treinamento colaborativo de dispositivos de borda. A arquitetura de produto desses cenários é leve e o roteiro pode ser iterado de forma flexível. Mas isso não quer dizer que a oportunidade é agora, porque as barreiras da IA WEB2 apenas começaram a se formar, o surgimento da Deepseek estimulou o progresso da IA de tarefa complexa multimodal, que é a concorrência das empresas líderes, e é o estágio inicial do surgimento dos dividendos da IA WEB2, acho que apenas quando os dividendos da IA WEB2 desaparecem, os pontos problemáticos deixados para trás são as oportunidades para a IA WEB3 cortar, assim como o nascimento original do DeFi, e antes que chegue a hora, a IA WEB3 Precisamos identificar cuidadosamente o acordo que tem "áreas rurais ao redor das cidades", seja para cortar da borda, primeiro ganhar uma posição firme no campo (ou pequeno mercado, pequena cena) onde o poder é fraco e o mercado tem poucas cenas enraizadas, e gradualmente acumular recursos e experiência; Se isso não puder ser feito, então é difícil confiar no PMF para alcançar um valor de mercado de US $ 1 bilhão nesta base, e tais projetos não estarão na lista de observação; PRECISAMOS PRESTAR ATENÇÃO SE O PROTOCOLO DE IA WEB3 PRECISA SER TOTALMENTE FLEXÍVEL, FLEXÍVEL PARA DIFERENTES CENÁRIOS, PODE SE MOVER RAPIDAMENTE ENTRE ÁREAS RURAIS E SE APROXIMAR DA CIDADE-ALVO NA VELOCIDADE MAIS RÁPIDA.## Sobre o MovemakerMovemaker é a primeira organização comunitária oficial autorizada pela Fundação Aptos, iniciada em conjunto pela Ankaa e pela BlockBooster, com foco em promover a construção e o desenvolvimento do ecossistema Aptos na região de língua chinesa. Como representante oficial da Aptos na região de língua chinesa, a Movemaker se dedica a conectar desenvolvedores, usuários, capital e muitos parceiros ecológicos, criando um ecossistema Aptos diversificado, aberto e próspero.Isenção de responsabilidade:Este artigo/blog é apenas para fins informativos e representa as opiniões pessoais do autor e não representa necessariamente a posição da Movemaker. Este artigo não se destina a fornecer: (i) consultoria de investimento ou recomendações de investimento; (ii) uma oferta ou solicitação para comprar, vender ou manter ativos digitais; ou (iii) aconselhamento financeiro, contabilístico, jurídico ou fiscal. Manter ativos digitais, incluindo stablecoins e NFTs, é extremamente arriscado, altamente volátil em preço e pode até se tornar inútil. Você deve considerar cuidadosamente se a negociação ou detenção de Ativos Digitais é adequada para você à luz de sua própria situação financeira. Consulte o seu consultor jurídico, fiscal ou de investimentos se tiver dúvidas sobre as suas circunstâncias específicas. As informações fornecidas neste artigo, incluindo dados de mercado e estatísticas, se houver, são apenas para fins de informação geral. Foram tomadas precauções razoáveis na preparação destes números e gráficos, mas não é aceite qualquer responsabilidade por quaisquer erros factuais ou omissões neles expressos.