Penulis asli: @BlazingKevin_ , Peneliti di Movemaker
Evolusi model multimodal tidak membawa kekacauan, tetapi telah memperdalam hambatan teknis AI Web2 - dari penyelarasan semantik hingga pemahaman visual, dari penyematan dimensi tinggi hingga fusi fitur, model kompleks mengintegrasikan berbagai ekspresi modal dengan kecepatan yang belum pernah terjadi sebelumnya untuk membangun dataran tinggi AI yang semakin tertutup. Pasar saham AS juga memilih dengan kakinya, apakah itu saham mata uang atau saham AI, mereka keluar dari gelombang pasar bullish. Dan gelombang panas ini tidak ada hubungannya dengan Crypto. Upaya AI Web3 yang telah kita lihat, terutama evolusi arah agen dalam beberapa bulan terakhir, hampir sepenuhnya salah: angan-angan untuk menggunakan struktur terdesentralisasi untuk merakit sistem modular multimodal bergaya Web2 sebenarnya adalah ketidaksejajaran ganda antara teknologi dan pemikiran. Dalam modul yang sangat digabungkan saat ini, distribusi fitur yang sangat tidak stabil, dan permintaan daya komputasi yang semakin terkonsentrasi, modularisasi multimodal tidak dapat bertahan di Web3. Mari kita tunjukkan: masa depan AI Web3 bukan tentang peniruan, ini tentang jalan memutar strategis. Dari penyelarasan semantik ruang dimensi tinggi, hingga kemacetan informasi dalam mekanisme perhatian, hingga penyelarasan fitur di bawah daya komputasi heterogen, saya akan mengembangkannya satu per satu untuk menjelaskan mengapa AI Web3 harus menggunakan pedesaan untuk mengelilingi kota sebagai program taktis.
Web3 AI berbasis model multimodal datar, ketidakcocokan semantik menyebabkan kinerja rendah
Dalam sistem multimodal AI Web2 modern, "penyelarasan semantik" mengacu pada pemetaan informasi dari modalitas yang berbeda (seperti gambar, teks, audio, video, dll.) ke dalam ruang semantik yang sama atau dapat dikonversi, sehingga model dapat memahami dan membandingkan makna intrinsik di balik sinyal yang awalnya berbeda ini. Misalnya, untuk gambar kucing dan frasa "kucing lucu", model perlu memproyeksikan mereka berdekatan satu sama lain dalam ruang tertanam dimensi tinggi, sehingga dapat "melihat gambar dan berbicara" dan "mendengarkan suara untuk mengasosiasikan gambar" saat pengambilan, pembuatan atau penalaran.
Hanya di bawah premis mewujudkan ruang penyematan dimensi tinggi, berarti untuk membagi alur kerja menjadi modul yang berbeda untuk mengurangi biaya dan meningkatkan efisiensi. Namun, dalam protokol agen web3, penyematan dimensi tinggi tidak dapat direalisasikan, karena modularitas adalah ilusi AI Web3.
Bagaimana cara memahami ruang embedding berdimensi tinggi? Pada tingkat yang paling intuitif, bayangkan "ruang embedding berdimensi tinggi" sebagai sistem koordinat—seperti koordinat x-y di bidang datar, Anda dapat menggunakan sepasang angka untuk menentukan sebuah titik. Hanya saja, di bidang dua dimensi yang umum kita temui, sebuah titik sepenuhnya ditentukan oleh dua angka (x, y); sedangkan di ruang "berdimensi tinggi", setiap titik harus dijelaskan dengan lebih banyak angka, mungkin 128, 512, atau bahkan ribuan angka.
Secara bertahap, dibagi menjadi tiga langkah untuk dipahami:
Contoh dua dimensi:
Bayangkan Anda menandai koordinat beberapa kota di peta, seperti Beijing (116.4, 39.9), Shanghai (121.5, 31.2), Guangzhou (113.3, 23.1). Setiap kota di sini sesuai dengan satu "vektor嵌入 dua dimensi" (embedding vector): koordinat dua dimensi mengkodekan informasi lokasi geografis ke dalam angka.
Jika Anda ingin mengukur "kesamaan" antara kota-kota - kota yang berdekatan di peta sering kali berada dalam zona ekonomi atau iklim yang sama - Anda dapat langsung membandingkan jarak Euclidean dari koordinat mereka.
2. Memperluas ke multidimensi:
Sekarang anggaplah Anda tidak hanya ingin mendeskripsikan lokasi di "ruang geografis", tetapi juga ingin menambahkan beberapa "karakteristik iklim" (suhu rata-rata, curah hujan), "karakteristik populasi" (kepadatan penduduk, PDB), dan lain-lain. Anda dapat memberikan setiap kota vektor yang mencakup 5, 10, atau bahkan lebih banyak dimensi.
Misalnya, vektor 5 dimensi di Guangzhou mungkin [ 113,3, 23,1, 24,5, 1700, 14,5 ], yang masing-masing mewakili bujur, garis lintang, suhu rata-rata, curah hujan tahunan (mm), dan indeks ekonomi. "Ruang multi-dimensi" ini memungkinkan Anda untuk membandingkan kota dengan berbagai dimensi seperti geografi, iklim, ekonomi, dll pada saat yang sama: jika vektor dua kota berdekatan satu sama lain, itu berarti mereka sangat mirip dalam semua atribut ini.
3. Beralih ke semantik - Mengapa harus "menyematkan":
Dalam pemrosesan bahasa alami (NLP) atau visi komputer, kita juga ingin memetakan "kata-kata", "kalimat", atau "gambar" ke dalam vektor multidimensi seperti itu, sehingga kata atau gambar yang "memiliki makna serupa" berada lebih dekat di ruang. Proses pemetaan ini disebut "embedding".
Contoh: Kami melatih sebuah model untuk memetakan "cat" (kucing) ke dalam vektor 300 dimensi v₁, memetakan "dog" (anjing) ke dalam vektor lain v₂, dan memetakan kata "tidak relevan" seperti "economy" (ekonomi) ke dalam v₃. Maka dalam ruang 300 dimensi ini, jarak antara v₁ dan v₂ akan sangat kecil (karena keduanya adalah hewan dan sering muncul dalam konteks bahasa yang serupa), sedangkan jarak antara v₁ dan v₃ akan sangat besar.
Seiring model dilatih pada teks atau pasangan gambar-teks yang sangat besar, setiap dimensi yang dipelajari tidak secara langsung berkaitan dengan atribut yang dapat dijelaskan seperti "garis bujur", "garis lintang", tetapi merupakan semacam "fitur semantik tersembunyi". Beberapa dimensi mungkin menangkap pembagian kasar "hewan vs. non-hewan", beberapa dimensi mungkin membedakan "peliharaan vs. liar", dan beberapa dimensi mungkin berkaitan dengan perasaan "menggemaskan vs. garang"... Singkatnya, ratusan hingga ribuan dimensi bekerja sama untuk mengkodekan berbagai lapisan semantik yang kompleks dan saling terkait.
Apa perbedaan antara dimensi tinggi dan rendah? Hanya jumlah dimensi yang cukup yang dapat mengakomodasi berbagai fitur semantik yang saling terkait, dan hanya dimensi tinggi yang dapat membuatnya memiliki posisi yang lebih jelas di garis lintang semantik masing-masing. Ketika semantik tidak dapat dibedakan, yaitu, semantik tidak dapat diselaraskan, sinyal yang berbeda di ruang dimensi rendah "meremas" satu sama lain, mengakibatkan kebingungan yang sering terjadi dalam pengambilan atau klasifikasi model, dan akurasinya sangat berkurang. Kedua, sulit untuk menangkap perbedaan halus dalam tahap pembuatan strategi, dan mudah untuk melewatkan sinyal perdagangan utama atau salah menilai ambang batas risiko, yang secara langsung menyeret kinerja pengembalian. Selain itu, kolaborasi lintas modul menjadi tidak mungkin, setiap agen bekerja secara independen, fenomena pulau informasi serius, penundaan respons keseluruhan meningkat, dan ketahanannya menjadi buruk. Akhirnya, dalam menghadapi skenario pasar yang kompleks, struktur dimensi rendah hampir tidak memiliki kapasitas untuk membawa data multi-sumber, dan stabilitas serta skalabilitas sistem sulit dijamin, dan operasi jangka panjang pasti akan jatuh ke dalam kemacetan kinerja dan kesulitan pemeliharaan, mengakibatkan kesenjangan yang jauh antara kinerja produk setelah mendarat dan harapan awal.
Jadi, bisakah protokol Web3 AI atau Agent mencapai ruang penyematan dimensi tinggi? Pertama-tama, untuk menjawab pertanyaan tentang bagaimana mencapai ruang dimensi tinggi, pengertian tradisional "dimensi tinggi" mengharuskan setiap subsistem, seperti intelijen pasar, pembuatan strategi, eksekusi dan implementasi, dan pengendalian risiko, selaras satu sama lain dan saling melengkapi dalam representasi data dan proses pengambilan keputusan. Namun, sebagian besar Agen Web3 hanya merangkum API siap pakai (CoinGecko, antarmuka DEX, dll.) menjadi "Agen" independen, tidak memiliki ruang penyematan pusat terpadu dan mekanisme perhatian lintas modul, menghasilkan informasi yang tidak dapat berinteraksi antar modul dari berbagai sudut dan level, dan hanya dapat mengikuti pipa linier, menunjukkan satu fungsi, dan tidak dapat membentuk pengoptimalan loop tertutup secara keseluruhan.
Banyak agen memanggil antarmuka eksternal secara langsung, dan bahkan tidak melakukan penyempurnaan atau rekayasa fitur yang cukup untuk data yang dikembalikan oleh antarmuka. Misalnya, agen analisis pasar hanya mengambil harga dan volume perdagangan, agen eksekusi transaksi hanya menempatkan pesanan sesuai dengan parameter antarmuka, dan agen kontrol risiko hanya memberikan alarm sesuai dengan beberapa ambang batas. Mereka melakukan tugas mereka sendiri, tetapi tidak memiliki fusi multi-modal dan pemahaman semantik yang mendalam tentang peristiwa risiko atau sinyal pasar yang sama, mengakibatkan sistem tidak dapat dengan cepat menghasilkan strategi yang komprehensif dan multi-sudut dalam menghadapi pasar ekstrem atau peluang lintas aset.
Oleh karena itu, mewajibkan Web3 AI untuk mencapai ruang dimensi tinggi setara dengan mewajibkan protokol Agen untuk mengembangkan semua antarmuka API yang terlibat, yang bertentangan dengan niat awal modularisasi, dan sistem multimodal modular yang dijelaskan oleh usaha kecil dan menengah di Web3 AI tidak dapat menahan pengawasan. Arsitektur dimensi tinggi memerlukan pelatihan terpadu end-to-end atau pengoptimalan kolaboratif: mulai dari penangkapan sinyal hingga perhitungan strategi, hingga eksekusi dan pengendalian risiko, semua tautan berbagi serangkaian fungsi representasi dan kerugian yang sama. Gagasan "module-as-plug-in" dari Agen Web3 telah memperburuk fragmentasi—setiap peningkatan, penerapan, dan penyetelan parameter agen diselesaikan dalam silonya sendiri, yang sulit untuk diulangi secara sinkron, dan tidak ada mekanisme pemantauan dan umpan balik terpusat yang efektif, mengakibatkan biaya pemeliharaan melonjak dan kinerja keseluruhan yang terbatas.
Untuk mewujudkan agen cerdas seluruh rantai dengan hambatan industri, diperlukan pemodelan bersama dari ujung ke ujung, penyatuan penyisipan antar modul, serta rekayasa sistematis untuk pelatihan dan penerapan kolaboratif agar dapat memecahkan masalah, namun saat ini pasar tidak memiliki titik nyeri seperti itu, sehingga tidak ada permintaan pasar.
Dalam ruang berdimensi rendah, mekanisme perhatian tidak dapat dirancang dengan tepat
Model multimodal tingkat tinggi perlu merancang mekanisme perhatian yang canggih. "Mekanisme perhatian" pada dasarnya adalah cara mengalokasikan sumber daya komputasi secara dinamis, memungkinkan model untuk secara selektif "fokus" pada bagian yang paling relevan saat memproses input modal. Yang paling umum adalah mekanisme perhatian diri dan perhatian silang dalam Transformer: perhatian diri memungkinkan model untuk mengukur ketergantungan antar elemen dalam suatu urutan, seperti pentingnya setiap kata dalam teks terhadap kata-kata lain; Transattention memungkinkan informasi dari satu modalitas (misalnya, teks) untuk memutuskan fitur gambar mana yang akan "dilihat" saat mendekode atau menghasilkan modalitas lain (misalnya, urutan fitur gambar). Dengan perhatian multi-kepala, model dapat mempelajari beberapa penyelarasan secara bersamaan di subruang yang berbeda untuk menangkap asosiasi yang lebih kompleks dan halus.
Premis dari mekanisme perhatian adalah bahwa multimodalitas memiliki dimensi tinggi, dan di ruang dimensi tinggi, mekanisme perhatian yang canggih dapat menemukan bagian inti dari ruang dimensi tinggi yang masif dalam waktu singkat. Sebelum menjelaskan mengapa mekanisme perhatian perlu ditempatkan di ruang dimensi tinggi untuk berperan, pertama-tama kita memahami proses AI Web2 yang diwakili oleh dekoder Transformer saat merancang mekanisme perhatian. Ide intinya adalah bahwa ketika memproses urutan (teks, tambalan gambar, bingkai audio), model secara dinamis menetapkan "bobot perhatian" untuk setiap elemen, memungkinkannya untuk fokus pada informasi yang paling relevan, daripada memperlakukannya secara membabi buta.
Sederhananya, jika Anda membandingkan mekanisme perhatian dengan mobil, merancang Query-Key-Value adalah merancang mesin. Q-K-V adalah mekanisme yang membantu kita menentukan informasi kunci, Kueri mengacu pada kueri ( "apa yang saya cari" ), Kunci mengacu pada indeks ( "label apa yang saya miliki" ), Nilai mengacu pada konten (" Apa yang ada di sini" ). Untuk model multimodal, apa yang Anda masukkan ke model dapat berupa kalimat, gambar, atau audio. Untuk mengambil konten yang kita butuhkan dalam ruang dimensi, input ini dipotong menjadi unit terkecil, seperti karakter, blok kecil dengan ukuran piksel tertentu, atau sepotong bingkai audio, dan model multimodal menghasilkan Query, Key, dan Value untuk unit minimum ini untuk perhitungan perhatian. Ketika model memproses lokasi tertentu, ia akan menggunakan kueri posisi ini untuk membandingkan kunci semua posisi, menentukan tag mana yang paling cocok dengan persyaratan saat ini, dan kemudian mengekstrak nilai dari posisi yang sesuai sesuai dengan tingkat pencocokan dan membobot kombinasi sesuai dengan kepentingan, dan akhirnya mendapatkan representasi baru yang tidak hanya berisi informasinya sendiri, tetapi juga mengintegrasikan konten yang relevan dari seluruh dunia. Dengan cara ini, setiap output dapat secara dinamis "dipertanyakan-diambil-terintegrasi" sesuai dengan konteks untuk mencapai fokus informasi yang efisien dan akurat.
Atas dasar mesin ini, berbagai bagian ditambahkan, dan "interaksi global" dan "kompleksitas yang dapat dikendalikan" digabungkan dengan cerdik: produk titik berskala memastikan stabilitas numerik, ekspresi kaya paralel multi-kepala, pengkodean posisi mempertahankan urutan urutan, varian jarang memperhitungkan efisiensi, residu dan normalisasi membantu pelatihan yang stabil, dan perhatian silang membuka multi-modalitas. Desain modular, lapis demi lapis ini memungkinkan AI Web2 memiliki kemampuan belajar yang kuat dan beroperasi secara efisien dalam kisaran daya komputasi yang terjangkau saat menangani berbagai tugas berurutan dan multimodal.
Mengapa AI Web3 berbasis modular tidak dapat mencapai penjadwalan perhatian terpadu? Pertama, mekanisme perhatian bergantung pada ruang Query–Key–Value terpadu, dan semua fitur input harus dipetakan ke ruang vektor dimensi tinggi yang sama untuk menghitung bobot dinamis dari produk titik. Namun, API independen mengembalikan format yang berbeda dan distribusi data yang berbeda - harga, status pesanan, alarm ambang batas - tanpa lapisan penyematan terpadu, dan tidak dapat membentuk satu set Q/K/V interaktif. Kedua, perhatian multi-kepala memungkinkan sumber informasi yang berbeda untuk diperhatikan secara paralel pada tingkat yang sama pada saat yang sama, dan kemudian hasilnya dikumpulkan. Namun, API independen sering "memanggil A terlebih dahulu, lalu memanggil B, dan kemudian memanggil C", dan output dari setiap langkah hanyalah input dari modul berikutnya, yang tidak memiliki kemampuan pembobotan dinamis paralel dan multi-saluran, dan secara alami tidak dapat mensimulasikan penjadwalan yang baik dari penilaian dan mensintesis semua posisi atau modalitas pada saat yang sama dalam mekanisme perhatian. Akhirnya, mekanisme perhatian sejati secara dinamis menetapkan bobot untuk setiap elemen berdasarkan konteks keseluruhan; Dalam mode API, modul hanya dapat melihat konteks "independen" saat dipanggil, dan tidak ada konteks pusat yang dibagikan satu sama lain secara real time, sehingga tidak mungkin untuk mencapai korelasi global dan fokus di seluruh modul.
Oleh karena itu, hanya mengandalkan pengemasan berbagai fungsi menjadi API diskrit—tanpa representasi vektor yang umum, tanpa penguatan dan agregasi paralel—tidak akan mampu membangun kemampuan "penjadwalan perhatian terpadu" seperti Transformer, sama seperti sebuah mobil dengan kinerja mesin yang rendah sulit untuk meningkatkan batasnya apapun modifikasinya.
Modul modular yang diskrit menyebabkan penggabungan fitur tetap pada penyambungan statis yang dangkal.
"Fusi fitur" adalah menggabungkan vektor fitur yang diperoleh dari pemrosesan berbagai modalitas berdasarkan penyelarasan dan perhatian, untuk digunakan langsung dalam tugas hilir (klasifikasi, pencarian, generasi, dll.). Metode penggabungan dapat sesederhana penggabungan, penjumlahan berbobot, atau serumit pemrosesan bilinear, dekomposisi tensor, bahkan teknik rute dinamis. Metode tingkat lebih tinggi melibatkan penyelarasan, perhatian, dan penggabungan yang bergantian dalam jaringan bertingkat, atau membangun jalur pengiriman pesan yang lebih fleksibel antara fitur lintas modalitas melalui jaringan saraf graf (GNN), untuk mencapai interaksi informasi yang mendalam.
Tidak perlu dikatakan, Web3 AI tentu saja masih berada pada tahap penggabungan yang paling sederhana, karena penggabungan fitur dinamis memerlukan ruang berdimensi tinggi serta mekanisme perhatian yang cermat. Ketika prasyarat tersebut tidak dapat dipenuhi, tentu saja penggabungan fitur di tahap akhir juga tidak dapat mencapai kinerja yang baik.
Web2 AI cenderung melakukan pelatihan bersama end-to-end: semua fitur modal seperti gambar, teks, dan audio diproses secara bersamaan dalam ruang dimensi tinggi yang sama, dan model secara otomatis mempelajari bobot fusi dan mode interaksi yang optimal dalam propagasi maju dan mundur melalui pengoptimalan bersama dengan lapisan tugas hilir melalui lapisan perhatian dan lapisan fusi. Web3 AI, di sisi lain, menggunakan penyambungan modul yang lebih diskrit, merangkum berbagai API seperti pengenalan gambar, penangkapan pasar, dan penilaian risiko ke dalam agen independen, dan kemudian hanya menyatukan label, nilai, atau alarm ambang batas yang mereka keluarkan, dan membuat keputusan komprehensif dengan logika atau manual utama, yang tidak memiliki tujuan pelatihan terpadu dan tidak ada aliran gradien di seluruh modul.
Dalam Web2 AI, sistem mengandalkan mekanisme perhatian untuk menghitung skor kepentingan berbagai fitur secara real time sesuai dengan konteks, dan secara dinamis menyesuaikan strategi fusi. Perhatian multi-kepala juga dapat menangkap beberapa pola interaksi fitur yang berbeda secara paralel pada tingkat yang sama, dengan mempertimbangkan detail lokal dan semantik global. Web3 AI, di sisi lain, sering memperbaiki bobot "gambar × 0,5 + teks × 0,3 + harga × 0,2" terlebih dahulu, atau menggunakan aturan jika/else sederhana untuk menentukan apakah akan menyatu, atau tidak menyatu sama sekali, dan hanya menyajikan output dari setiap modul bersama-sama, yang tidak memiliki fleksibilitas.
Web2 AI memetakan semua fitur modal ke ruang dimensi tinggi dari beberapa ribu dimensi, dan proses fusi tidak hanya penjahitan vektor, tetapi juga berbagai interaksi tingkat tinggi seperti penambahan dan pengumpulan bilinear—setiap dimensi memiliki potensi untuk sesuai dengan semantik laten, memungkinkan model untuk menangkap asosiasi lintas modal yang mendalam dan kompleks. Sebaliknya, output agen Web3 AI seringkali hanya berisi beberapa bidang atau metrik utama, dan dimensi fiturnya sangat rendah, sehingga hampir tidak mungkin untuk menyampaikan informasi halus seperti "mengapa konten gambar cocok dengan makna teks" atau "korelasi halus antara fluktuasi harga dan pergerakan sentimen".
Dalam Web2 AI, kehilangan tugas hilir akan terus dikembalikan ke berbagai bagian model melalui lapisan perhatian dan lapisan penggabungan, secara otomatis menyesuaikan fitur mana yang harus diperkuat atau ditekan, membentuk optimasi lingkaran tertutup. Di sisi lain, Web3 AI lebih mengandalkan proses manual atau eksternal setelah hasil pemanggilan API dilaporkan untuk mengevaluasi dan menyesuaikan parameter, kurang memiliki umpan balik otomatis dari ujung ke ujung, sehingga strategi penggabungan sulit untuk diiterasi dan dioptimalkan secara online.
Hambatan di industri AI semakin dalam, tetapi titik nyeri belum muncul
Karena kebutuhan untuk memperhitungkan penyelarasan lintas modal, komputasi perhatian yang canggih, dan fusi fitur dimensi tinggi dalam pelatihan end-to-end, sistem multimodal AI Web2 seringkali merupakan proyek teknik yang sangat besar. Tidak hanya membutuhkan kumpulan data lintas modal yang besar, beragam, dan beranotasi dengan baik, tetapi juga membutuhkan pelatihan berminggu-minggu atau bahkan berbulan-bulan pada ribuan GPU; Dalam hal arsitektur model, ia mengintegrasikan berbagai konsep desain jaringan terbaru dan teknologi pengoptimalan. Dalam hal implementasi proyek, juga perlu untuk membangun platform pelatihan terdistribusi yang dapat diskalakan, sistem pemantauan, manajemen versi model, dan pipa penerapan. Dalam penelitian dan pengembangan algoritma, perlu untuk terus mempelajari varian perhatian yang lebih efisien, kehilangan keselarasan yang lebih kuat, dan strategi fusi yang lebih ringan. Pekerjaan sistematis full-link, full-stack seperti itu memiliki persyaratan yang sangat tinggi untuk modal, data, daya komputasi, bakat, dan bahkan kolaborasi organisasi, sehingga merupakan penghalang industri yang kuat dan juga telah menciptakan daya saing inti yang dikuasai oleh beberapa tim terkemuka sejauh ini.
Ketika saya meninjau aplikasi AI Cina pada bulan April dan membandingkan AI3 ai, saya menyebutkan sebuah sudut pandang: di industri dengan hambatan yang kuat, Crypto dapat mencapai terobosan, yang berarti bahwa beberapa industri telah sangat matang di pasar tradisional, tetapi ada titik nyeri yang sangat besar, kematangan tinggi berarti ada cukup banyak pengguna yang akrab dengan model bisnis serupa, dan titik nyeri yang besar berarti bahwa pengguna bersedia mencoba solusi baru, yaitu, kemauan yang kuat untuk menerima Crypto, keduanya sangat diperlukan, yaitu, sebaliknya, Jika itu bukan industri yang sudah sangat matang di pasar tradisional, tetapi ada titik nyeri yang sangat besar, Crypto tidak akan dapat berakar di dalamnya, tidak akan ada ruang untuk bertahan hidup, dan kesediaan pengguna untuk sepenuhnya memahaminya sangat rendah, dan mereka tidak memahami potensi batas atasnya.
WEB3 AI atau produk kripto apa pun di bawah bendera PMF perlu dikembangkan dengan taktik mengelilingi kota di pedesaan, dan air harus diuji dalam skala kecil di posisi marjinal, untuk memastikan bahwa fondasinya kokoh, dan kemudian menunggu munculnya skenario inti, yaitu kota target. Inti dari AI Web3 terletak pada desentralisasi, dan jalur evolusinya tercermin dalam kompatibilitas paralelisme tinggi, kopling rendah, dan daya komputasi heterogen. Hal ini membuat AI Web3 lebih menguntungkan dalam skenario seperti komputasi tepi, dan cocok untuk tugas dengan struktur ringan, paralelisme yang mudah, dan insentifisasi, seperti penyempurnaan LoRA, tugas pasca-pelatihan yang selaras secara perilaku, pelatihan dan anotasi data crowdsourced, pelatihan model dasar kecil, dan pelatihan kolaboratif perangkat edge. Arsitektur produk dari skenario ini ringan, dan peta jalan dapat diulangi secara fleksibel. Tapi ini bukan untuk mengatakan bahwa peluangnya sekarang, karena hambatan AI WEB2 baru saja mulai terbentuk, munculnya Deepseek telah merangsang kemajuan AI tugas kompleks multimodal, yang merupakan persaingan perusahaan terkemuka, dan ini adalah tahap awal munculnya dividen AI WEB2, saya pikir hanya ketika dividen AI WEB2 menghilang, titik nyeri yang ditinggalkan olehnya adalah peluang bagi AI WEB3 untuk memotong, seperti kelahiran asli DeFi, dan sebelum saatnya tiba, AI3 WEB3 Kita perlu dengan hati-hati mengidentifikasi kesepakatan yang memiliki "daerah pedesaan di sekitar kota", apakah akan memotong dari tepi, pertama-tama mendapatkan pijakan yang kuat di pedesaan (atau pasar kecil, pemandangan kecil) di mana kekuatannya lemah dan pasar memiliki sedikit adegan yang berakar, dan secara bertahap mengumpulkan sumber daya dan pengalaman; Jika ini tidak dapat dilakukan, maka sulit untuk mengandalkan PMF untuk mencapai nilai pasar sebesar $1 miliar atas dasar ini, dan proyek semacam itu tidak akan ada dalam daftar pantauan; KITA PERLU MEMPERHATIKAN APAKAH PROTOKOL AI WEB3 HARUS SEPENUHNYA FLEKSIBEL, FLEKSIBEL UNTUK SKENARIO YANG BERBEDA, DAPAT BERGERAK CEPAT ANTAR DAERAH PEDESAAN, DAN BERGERAK LEBIH DEKAT KE KOTA TARGET DENGAN KECEPATAN TERCEPAT.
Tentang Movemaker
Movemaker adalah organisasi komunitas resmi pertama yang diotorisasi oleh Yayasan Aptos, diprakarsai bersama oleh Ankaa dan BlockBooster, yang fokus pada pengembangan dan pembangunan ekosistem Aptos di wilayah berbahasa Mandarin. Sebagai perwakilan resmi Aptos di wilayah berbahasa Mandarin, Movemaker berkomitmen untuk menciptakan ekosistem Aptos yang beragam, terbuka, dan makmur dengan menghubungkan pengembang, pengguna, modal, dan banyak mitra ekosistem.
Penyangkalan:
Artikel / blog ini hanya untuk tujuan informasi dan mewakili pandangan pribadi penulis dan tidak selalu mewakili posisi Movemaker. Artikel ini tidak dimaksudkan untuk memberikan: (i) saran investasi atau rekomendasi investasi; (ii) penawaran atau ajakan untuk membeli, menjual, atau memegang aset digital; atau (iii) nasihat keuangan, akuntansi, hukum, atau pajak. Memegang aset digital, termasuk stablecoin dan NFT, sangat berisiko, harganya sangat fluktuatif, dan bahkan bisa menjadi tidak berharga. Anda harus mempertimbangkan dengan cermat apakah perdagangan atau kepemilikan Aset Digital cocok untuk Anda mengingat situasi keuangan Anda sendiri. Silakan berkonsultasi dengan penasihat hukum, pajak, atau investasi Anda jika Anda memiliki pertanyaan tentang keadaan spesifik Anda. Informasi yang diberikan dalam artikel ini, termasuk data dan statistik pasar, jika ada, hanya untuk tujuan informasi umum. Kehati-hatian yang wajar telah diambil dalam persiapan angka-angka dan grafik ini, tetapi tidak ada tanggung jawab yang diterima atas kesalahan faktual atau kelalaian yang diungkapkan di dalamnya.
Konten ini hanya untuk referensi, bukan ajakan atau tawaran. Tidak ada nasihat investasi, pajak, atau hukum yang diberikan. Lihat Penafian untuk pengungkapan risiko lebih lanjut.
Mengapa modularitas multimodal adalah ilusi AI Web3?
Penulis asli: @BlazingKevin_ , Peneliti di Movemaker
Evolusi model multimodal tidak membawa kekacauan, tetapi telah memperdalam hambatan teknis AI Web2 - dari penyelarasan semantik hingga pemahaman visual, dari penyematan dimensi tinggi hingga fusi fitur, model kompleks mengintegrasikan berbagai ekspresi modal dengan kecepatan yang belum pernah terjadi sebelumnya untuk membangun dataran tinggi AI yang semakin tertutup. Pasar saham AS juga memilih dengan kakinya, apakah itu saham mata uang atau saham AI, mereka keluar dari gelombang pasar bullish. Dan gelombang panas ini tidak ada hubungannya dengan Crypto. Upaya AI Web3 yang telah kita lihat, terutama evolusi arah agen dalam beberapa bulan terakhir, hampir sepenuhnya salah: angan-angan untuk menggunakan struktur terdesentralisasi untuk merakit sistem modular multimodal bergaya Web2 sebenarnya adalah ketidaksejajaran ganda antara teknologi dan pemikiran. Dalam modul yang sangat digabungkan saat ini, distribusi fitur yang sangat tidak stabil, dan permintaan daya komputasi yang semakin terkonsentrasi, modularisasi multimodal tidak dapat bertahan di Web3. Mari kita tunjukkan: masa depan AI Web3 bukan tentang peniruan, ini tentang jalan memutar strategis. Dari penyelarasan semantik ruang dimensi tinggi, hingga kemacetan informasi dalam mekanisme perhatian, hingga penyelarasan fitur di bawah daya komputasi heterogen, saya akan mengembangkannya satu per satu untuk menjelaskan mengapa AI Web3 harus menggunakan pedesaan untuk mengelilingi kota sebagai program taktis.
Web3 AI berbasis model multimodal datar, ketidakcocokan semantik menyebabkan kinerja rendah
Dalam sistem multimodal AI Web2 modern, "penyelarasan semantik" mengacu pada pemetaan informasi dari modalitas yang berbeda (seperti gambar, teks, audio, video, dll.) ke dalam ruang semantik yang sama atau dapat dikonversi, sehingga model dapat memahami dan membandingkan makna intrinsik di balik sinyal yang awalnya berbeda ini. Misalnya, untuk gambar kucing dan frasa "kucing lucu", model perlu memproyeksikan mereka berdekatan satu sama lain dalam ruang tertanam dimensi tinggi, sehingga dapat "melihat gambar dan berbicara" dan "mendengarkan suara untuk mengasosiasikan gambar" saat pengambilan, pembuatan atau penalaran.
Hanya di bawah premis mewujudkan ruang penyematan dimensi tinggi, berarti untuk membagi alur kerja menjadi modul yang berbeda untuk mengurangi biaya dan meningkatkan efisiensi. Namun, dalam protokol agen web3, penyematan dimensi tinggi tidak dapat direalisasikan, karena modularitas adalah ilusi AI Web3.
Bagaimana cara memahami ruang embedding berdimensi tinggi? Pada tingkat yang paling intuitif, bayangkan "ruang embedding berdimensi tinggi" sebagai sistem koordinat—seperti koordinat x-y di bidang datar, Anda dapat menggunakan sepasang angka untuk menentukan sebuah titik. Hanya saja, di bidang dua dimensi yang umum kita temui, sebuah titik sepenuhnya ditentukan oleh dua angka (x, y); sedangkan di ruang "berdimensi tinggi", setiap titik harus dijelaskan dengan lebih banyak angka, mungkin 128, 512, atau bahkan ribuan angka.
Secara bertahap, dibagi menjadi tiga langkah untuk dipahami:
Bayangkan Anda menandai koordinat beberapa kota di peta, seperti Beijing (116.4, 39.9), Shanghai (121.5, 31.2), Guangzhou (113.3, 23.1). Setiap kota di sini sesuai dengan satu "vektor嵌入 dua dimensi" (embedding vector): koordinat dua dimensi mengkodekan informasi lokasi geografis ke dalam angka.
Jika Anda ingin mengukur "kesamaan" antara kota-kota - kota yang berdekatan di peta sering kali berada dalam zona ekonomi atau iklim yang sama - Anda dapat langsung membandingkan jarak Euclidean dari koordinat mereka. 2. Memperluas ke multidimensi:
Sekarang anggaplah Anda tidak hanya ingin mendeskripsikan lokasi di "ruang geografis", tetapi juga ingin menambahkan beberapa "karakteristik iklim" (suhu rata-rata, curah hujan), "karakteristik populasi" (kepadatan penduduk, PDB), dan lain-lain. Anda dapat memberikan setiap kota vektor yang mencakup 5, 10, atau bahkan lebih banyak dimensi.
Misalnya, vektor 5 dimensi di Guangzhou mungkin [ 113,3, 23,1, 24,5, 1700, 14,5 ], yang masing-masing mewakili bujur, garis lintang, suhu rata-rata, curah hujan tahunan (mm), dan indeks ekonomi. "Ruang multi-dimensi" ini memungkinkan Anda untuk membandingkan kota dengan berbagai dimensi seperti geografi, iklim, ekonomi, dll pada saat yang sama: jika vektor dua kota berdekatan satu sama lain, itu berarti mereka sangat mirip dalam semua atribut ini. 3. Beralih ke semantik - Mengapa harus "menyematkan": Dalam pemrosesan bahasa alami (NLP) atau visi komputer, kita juga ingin memetakan "kata-kata", "kalimat", atau "gambar" ke dalam vektor multidimensi seperti itu, sehingga kata atau gambar yang "memiliki makna serupa" berada lebih dekat di ruang. Proses pemetaan ini disebut "embedding". Contoh: Kami melatih sebuah model untuk memetakan "cat" (kucing) ke dalam vektor 300 dimensi v₁, memetakan "dog" (anjing) ke dalam vektor lain v₂, dan memetakan kata "tidak relevan" seperti "economy" (ekonomi) ke dalam v₃. Maka dalam ruang 300 dimensi ini, jarak antara v₁ dan v₂ akan sangat kecil (karena keduanya adalah hewan dan sering muncul dalam konteks bahasa yang serupa), sedangkan jarak antara v₁ dan v₃ akan sangat besar. Seiring model dilatih pada teks atau pasangan gambar-teks yang sangat besar, setiap dimensi yang dipelajari tidak secara langsung berkaitan dengan atribut yang dapat dijelaskan seperti "garis bujur", "garis lintang", tetapi merupakan semacam "fitur semantik tersembunyi". Beberapa dimensi mungkin menangkap pembagian kasar "hewan vs. non-hewan", beberapa dimensi mungkin membedakan "peliharaan vs. liar", dan beberapa dimensi mungkin berkaitan dengan perasaan "menggemaskan vs. garang"... Singkatnya, ratusan hingga ribuan dimensi bekerja sama untuk mengkodekan berbagai lapisan semantik yang kompleks dan saling terkait.
Apa perbedaan antara dimensi tinggi dan rendah? Hanya jumlah dimensi yang cukup yang dapat mengakomodasi berbagai fitur semantik yang saling terkait, dan hanya dimensi tinggi yang dapat membuatnya memiliki posisi yang lebih jelas di garis lintang semantik masing-masing. Ketika semantik tidak dapat dibedakan, yaitu, semantik tidak dapat diselaraskan, sinyal yang berbeda di ruang dimensi rendah "meremas" satu sama lain, mengakibatkan kebingungan yang sering terjadi dalam pengambilan atau klasifikasi model, dan akurasinya sangat berkurang. Kedua, sulit untuk menangkap perbedaan halus dalam tahap pembuatan strategi, dan mudah untuk melewatkan sinyal perdagangan utama atau salah menilai ambang batas risiko, yang secara langsung menyeret kinerja pengembalian. Selain itu, kolaborasi lintas modul menjadi tidak mungkin, setiap agen bekerja secara independen, fenomena pulau informasi serius, penundaan respons keseluruhan meningkat, dan ketahanannya menjadi buruk. Akhirnya, dalam menghadapi skenario pasar yang kompleks, struktur dimensi rendah hampir tidak memiliki kapasitas untuk membawa data multi-sumber, dan stabilitas serta skalabilitas sistem sulit dijamin, dan operasi jangka panjang pasti akan jatuh ke dalam kemacetan kinerja dan kesulitan pemeliharaan, mengakibatkan kesenjangan yang jauh antara kinerja produk setelah mendarat dan harapan awal.
Jadi, bisakah protokol Web3 AI atau Agent mencapai ruang penyematan dimensi tinggi? Pertama-tama, untuk menjawab pertanyaan tentang bagaimana mencapai ruang dimensi tinggi, pengertian tradisional "dimensi tinggi" mengharuskan setiap subsistem, seperti intelijen pasar, pembuatan strategi, eksekusi dan implementasi, dan pengendalian risiko, selaras satu sama lain dan saling melengkapi dalam representasi data dan proses pengambilan keputusan. Namun, sebagian besar Agen Web3 hanya merangkum API siap pakai (CoinGecko, antarmuka DEX, dll.) menjadi "Agen" independen, tidak memiliki ruang penyematan pusat terpadu dan mekanisme perhatian lintas modul, menghasilkan informasi yang tidak dapat berinteraksi antar modul dari berbagai sudut dan level, dan hanya dapat mengikuti pipa linier, menunjukkan satu fungsi, dan tidak dapat membentuk pengoptimalan loop tertutup secara keseluruhan.
Banyak agen memanggil antarmuka eksternal secara langsung, dan bahkan tidak melakukan penyempurnaan atau rekayasa fitur yang cukup untuk data yang dikembalikan oleh antarmuka. Misalnya, agen analisis pasar hanya mengambil harga dan volume perdagangan, agen eksekusi transaksi hanya menempatkan pesanan sesuai dengan parameter antarmuka, dan agen kontrol risiko hanya memberikan alarm sesuai dengan beberapa ambang batas. Mereka melakukan tugas mereka sendiri, tetapi tidak memiliki fusi multi-modal dan pemahaman semantik yang mendalam tentang peristiwa risiko atau sinyal pasar yang sama, mengakibatkan sistem tidak dapat dengan cepat menghasilkan strategi yang komprehensif dan multi-sudut dalam menghadapi pasar ekstrem atau peluang lintas aset.
Oleh karena itu, mewajibkan Web3 AI untuk mencapai ruang dimensi tinggi setara dengan mewajibkan protokol Agen untuk mengembangkan semua antarmuka API yang terlibat, yang bertentangan dengan niat awal modularisasi, dan sistem multimodal modular yang dijelaskan oleh usaha kecil dan menengah di Web3 AI tidak dapat menahan pengawasan. Arsitektur dimensi tinggi memerlukan pelatihan terpadu end-to-end atau pengoptimalan kolaboratif: mulai dari penangkapan sinyal hingga perhitungan strategi, hingga eksekusi dan pengendalian risiko, semua tautan berbagi serangkaian fungsi representasi dan kerugian yang sama. Gagasan "module-as-plug-in" dari Agen Web3 telah memperburuk fragmentasi—setiap peningkatan, penerapan, dan penyetelan parameter agen diselesaikan dalam silonya sendiri, yang sulit untuk diulangi secara sinkron, dan tidak ada mekanisme pemantauan dan umpan balik terpusat yang efektif, mengakibatkan biaya pemeliharaan melonjak dan kinerja keseluruhan yang terbatas.
Untuk mewujudkan agen cerdas seluruh rantai dengan hambatan industri, diperlukan pemodelan bersama dari ujung ke ujung, penyatuan penyisipan antar modul, serta rekayasa sistematis untuk pelatihan dan penerapan kolaboratif agar dapat memecahkan masalah, namun saat ini pasar tidak memiliki titik nyeri seperti itu, sehingga tidak ada permintaan pasar.
Dalam ruang berdimensi rendah, mekanisme perhatian tidak dapat dirancang dengan tepat
Model multimodal tingkat tinggi perlu merancang mekanisme perhatian yang canggih. "Mekanisme perhatian" pada dasarnya adalah cara mengalokasikan sumber daya komputasi secara dinamis, memungkinkan model untuk secara selektif "fokus" pada bagian yang paling relevan saat memproses input modal. Yang paling umum adalah mekanisme perhatian diri dan perhatian silang dalam Transformer: perhatian diri memungkinkan model untuk mengukur ketergantungan antar elemen dalam suatu urutan, seperti pentingnya setiap kata dalam teks terhadap kata-kata lain; Transattention memungkinkan informasi dari satu modalitas (misalnya, teks) untuk memutuskan fitur gambar mana yang akan "dilihat" saat mendekode atau menghasilkan modalitas lain (misalnya, urutan fitur gambar). Dengan perhatian multi-kepala, model dapat mempelajari beberapa penyelarasan secara bersamaan di subruang yang berbeda untuk menangkap asosiasi yang lebih kompleks dan halus.
Premis dari mekanisme perhatian adalah bahwa multimodalitas memiliki dimensi tinggi, dan di ruang dimensi tinggi, mekanisme perhatian yang canggih dapat menemukan bagian inti dari ruang dimensi tinggi yang masif dalam waktu singkat. Sebelum menjelaskan mengapa mekanisme perhatian perlu ditempatkan di ruang dimensi tinggi untuk berperan, pertama-tama kita memahami proses AI Web2 yang diwakili oleh dekoder Transformer saat merancang mekanisme perhatian. Ide intinya adalah bahwa ketika memproses urutan (teks, tambalan gambar, bingkai audio), model secara dinamis menetapkan "bobot perhatian" untuk setiap elemen, memungkinkannya untuk fokus pada informasi yang paling relevan, daripada memperlakukannya secara membabi buta.
Sederhananya, jika Anda membandingkan mekanisme perhatian dengan mobil, merancang Query-Key-Value adalah merancang mesin. Q-K-V adalah mekanisme yang membantu kita menentukan informasi kunci, Kueri mengacu pada kueri ( "apa yang saya cari" ), Kunci mengacu pada indeks ( "label apa yang saya miliki" ), Nilai mengacu pada konten (" Apa yang ada di sini" ). Untuk model multimodal, apa yang Anda masukkan ke model dapat berupa kalimat, gambar, atau audio. Untuk mengambil konten yang kita butuhkan dalam ruang dimensi, input ini dipotong menjadi unit terkecil, seperti karakter, blok kecil dengan ukuran piksel tertentu, atau sepotong bingkai audio, dan model multimodal menghasilkan Query, Key, dan Value untuk unit minimum ini untuk perhitungan perhatian. Ketika model memproses lokasi tertentu, ia akan menggunakan kueri posisi ini untuk membandingkan kunci semua posisi, menentukan tag mana yang paling cocok dengan persyaratan saat ini, dan kemudian mengekstrak nilai dari posisi yang sesuai sesuai dengan tingkat pencocokan dan membobot kombinasi sesuai dengan kepentingan, dan akhirnya mendapatkan representasi baru yang tidak hanya berisi informasinya sendiri, tetapi juga mengintegrasikan konten yang relevan dari seluruh dunia. Dengan cara ini, setiap output dapat secara dinamis "dipertanyakan-diambil-terintegrasi" sesuai dengan konteks untuk mencapai fokus informasi yang efisien dan akurat.
Atas dasar mesin ini, berbagai bagian ditambahkan, dan "interaksi global" dan "kompleksitas yang dapat dikendalikan" digabungkan dengan cerdik: produk titik berskala memastikan stabilitas numerik, ekspresi kaya paralel multi-kepala, pengkodean posisi mempertahankan urutan urutan, varian jarang memperhitungkan efisiensi, residu dan normalisasi membantu pelatihan yang stabil, dan perhatian silang membuka multi-modalitas. Desain modular, lapis demi lapis ini memungkinkan AI Web2 memiliki kemampuan belajar yang kuat dan beroperasi secara efisien dalam kisaran daya komputasi yang terjangkau saat menangani berbagai tugas berurutan dan multimodal.
Mengapa AI Web3 berbasis modular tidak dapat mencapai penjadwalan perhatian terpadu? Pertama, mekanisme perhatian bergantung pada ruang Query–Key–Value terpadu, dan semua fitur input harus dipetakan ke ruang vektor dimensi tinggi yang sama untuk menghitung bobot dinamis dari produk titik. Namun, API independen mengembalikan format yang berbeda dan distribusi data yang berbeda - harga, status pesanan, alarm ambang batas - tanpa lapisan penyematan terpadu, dan tidak dapat membentuk satu set Q/K/V interaktif. Kedua, perhatian multi-kepala memungkinkan sumber informasi yang berbeda untuk diperhatikan secara paralel pada tingkat yang sama pada saat yang sama, dan kemudian hasilnya dikumpulkan. Namun, API independen sering "memanggil A terlebih dahulu, lalu memanggil B, dan kemudian memanggil C", dan output dari setiap langkah hanyalah input dari modul berikutnya, yang tidak memiliki kemampuan pembobotan dinamis paralel dan multi-saluran, dan secara alami tidak dapat mensimulasikan penjadwalan yang baik dari penilaian dan mensintesis semua posisi atau modalitas pada saat yang sama dalam mekanisme perhatian. Akhirnya, mekanisme perhatian sejati secara dinamis menetapkan bobot untuk setiap elemen berdasarkan konteks keseluruhan; Dalam mode API, modul hanya dapat melihat konteks "independen" saat dipanggil, dan tidak ada konteks pusat yang dibagikan satu sama lain secara real time, sehingga tidak mungkin untuk mencapai korelasi global dan fokus di seluruh modul.
Oleh karena itu, hanya mengandalkan pengemasan berbagai fungsi menjadi API diskrit—tanpa representasi vektor yang umum, tanpa penguatan dan agregasi paralel—tidak akan mampu membangun kemampuan "penjadwalan perhatian terpadu" seperti Transformer, sama seperti sebuah mobil dengan kinerja mesin yang rendah sulit untuk meningkatkan batasnya apapun modifikasinya.
Modul modular yang diskrit menyebabkan penggabungan fitur tetap pada penyambungan statis yang dangkal.
"Fusi fitur" adalah menggabungkan vektor fitur yang diperoleh dari pemrosesan berbagai modalitas berdasarkan penyelarasan dan perhatian, untuk digunakan langsung dalam tugas hilir (klasifikasi, pencarian, generasi, dll.). Metode penggabungan dapat sesederhana penggabungan, penjumlahan berbobot, atau serumit pemrosesan bilinear, dekomposisi tensor, bahkan teknik rute dinamis. Metode tingkat lebih tinggi melibatkan penyelarasan, perhatian, dan penggabungan yang bergantian dalam jaringan bertingkat, atau membangun jalur pengiriman pesan yang lebih fleksibel antara fitur lintas modalitas melalui jaringan saraf graf (GNN), untuk mencapai interaksi informasi yang mendalam.
Tidak perlu dikatakan, Web3 AI tentu saja masih berada pada tahap penggabungan yang paling sederhana, karena penggabungan fitur dinamis memerlukan ruang berdimensi tinggi serta mekanisme perhatian yang cermat. Ketika prasyarat tersebut tidak dapat dipenuhi, tentu saja penggabungan fitur di tahap akhir juga tidak dapat mencapai kinerja yang baik.
Web2 AI cenderung melakukan pelatihan bersama end-to-end: semua fitur modal seperti gambar, teks, dan audio diproses secara bersamaan dalam ruang dimensi tinggi yang sama, dan model secara otomatis mempelajari bobot fusi dan mode interaksi yang optimal dalam propagasi maju dan mundur melalui pengoptimalan bersama dengan lapisan tugas hilir melalui lapisan perhatian dan lapisan fusi. Web3 AI, di sisi lain, menggunakan penyambungan modul yang lebih diskrit, merangkum berbagai API seperti pengenalan gambar, penangkapan pasar, dan penilaian risiko ke dalam agen independen, dan kemudian hanya menyatukan label, nilai, atau alarm ambang batas yang mereka keluarkan, dan membuat keputusan komprehensif dengan logika atau manual utama, yang tidak memiliki tujuan pelatihan terpadu dan tidak ada aliran gradien di seluruh modul.
Dalam Web2 AI, sistem mengandalkan mekanisme perhatian untuk menghitung skor kepentingan berbagai fitur secara real time sesuai dengan konteks, dan secara dinamis menyesuaikan strategi fusi. Perhatian multi-kepala juga dapat menangkap beberapa pola interaksi fitur yang berbeda secara paralel pada tingkat yang sama, dengan mempertimbangkan detail lokal dan semantik global. Web3 AI, di sisi lain, sering memperbaiki bobot "gambar × 0,5 + teks × 0,3 + harga × 0,2" terlebih dahulu, atau menggunakan aturan jika/else sederhana untuk menentukan apakah akan menyatu, atau tidak menyatu sama sekali, dan hanya menyajikan output dari setiap modul bersama-sama, yang tidak memiliki fleksibilitas.
Web2 AI memetakan semua fitur modal ke ruang dimensi tinggi dari beberapa ribu dimensi, dan proses fusi tidak hanya penjahitan vektor, tetapi juga berbagai interaksi tingkat tinggi seperti penambahan dan pengumpulan bilinear—setiap dimensi memiliki potensi untuk sesuai dengan semantik laten, memungkinkan model untuk menangkap asosiasi lintas modal yang mendalam dan kompleks. Sebaliknya, output agen Web3 AI seringkali hanya berisi beberapa bidang atau metrik utama, dan dimensi fiturnya sangat rendah, sehingga hampir tidak mungkin untuk menyampaikan informasi halus seperti "mengapa konten gambar cocok dengan makna teks" atau "korelasi halus antara fluktuasi harga dan pergerakan sentimen".
Dalam Web2 AI, kehilangan tugas hilir akan terus dikembalikan ke berbagai bagian model melalui lapisan perhatian dan lapisan penggabungan, secara otomatis menyesuaikan fitur mana yang harus diperkuat atau ditekan, membentuk optimasi lingkaran tertutup. Di sisi lain, Web3 AI lebih mengandalkan proses manual atau eksternal setelah hasil pemanggilan API dilaporkan untuk mengevaluasi dan menyesuaikan parameter, kurang memiliki umpan balik otomatis dari ujung ke ujung, sehingga strategi penggabungan sulit untuk diiterasi dan dioptimalkan secara online.
Hambatan di industri AI semakin dalam, tetapi titik nyeri belum muncul
Karena kebutuhan untuk memperhitungkan penyelarasan lintas modal, komputasi perhatian yang canggih, dan fusi fitur dimensi tinggi dalam pelatihan end-to-end, sistem multimodal AI Web2 seringkali merupakan proyek teknik yang sangat besar. Tidak hanya membutuhkan kumpulan data lintas modal yang besar, beragam, dan beranotasi dengan baik, tetapi juga membutuhkan pelatihan berminggu-minggu atau bahkan berbulan-bulan pada ribuan GPU; Dalam hal arsitektur model, ia mengintegrasikan berbagai konsep desain jaringan terbaru dan teknologi pengoptimalan. Dalam hal implementasi proyek, juga perlu untuk membangun platform pelatihan terdistribusi yang dapat diskalakan, sistem pemantauan, manajemen versi model, dan pipa penerapan. Dalam penelitian dan pengembangan algoritma, perlu untuk terus mempelajari varian perhatian yang lebih efisien, kehilangan keselarasan yang lebih kuat, dan strategi fusi yang lebih ringan. Pekerjaan sistematis full-link, full-stack seperti itu memiliki persyaratan yang sangat tinggi untuk modal, data, daya komputasi, bakat, dan bahkan kolaborasi organisasi, sehingga merupakan penghalang industri yang kuat dan juga telah menciptakan daya saing inti yang dikuasai oleh beberapa tim terkemuka sejauh ini.
Ketika saya meninjau aplikasi AI Cina pada bulan April dan membandingkan AI3 ai, saya menyebutkan sebuah sudut pandang: di industri dengan hambatan yang kuat, Crypto dapat mencapai terobosan, yang berarti bahwa beberapa industri telah sangat matang di pasar tradisional, tetapi ada titik nyeri yang sangat besar, kematangan tinggi berarti ada cukup banyak pengguna yang akrab dengan model bisnis serupa, dan titik nyeri yang besar berarti bahwa pengguna bersedia mencoba solusi baru, yaitu, kemauan yang kuat untuk menerima Crypto, keduanya sangat diperlukan, yaitu, sebaliknya, Jika itu bukan industri yang sudah sangat matang di pasar tradisional, tetapi ada titik nyeri yang sangat besar, Crypto tidak akan dapat berakar di dalamnya, tidak akan ada ruang untuk bertahan hidup, dan kesediaan pengguna untuk sepenuhnya memahaminya sangat rendah, dan mereka tidak memahami potensi batas atasnya.
WEB3 AI atau produk kripto apa pun di bawah bendera PMF perlu dikembangkan dengan taktik mengelilingi kota di pedesaan, dan air harus diuji dalam skala kecil di posisi marjinal, untuk memastikan bahwa fondasinya kokoh, dan kemudian menunggu munculnya skenario inti, yaitu kota target. Inti dari AI Web3 terletak pada desentralisasi, dan jalur evolusinya tercermin dalam kompatibilitas paralelisme tinggi, kopling rendah, dan daya komputasi heterogen. Hal ini membuat AI Web3 lebih menguntungkan dalam skenario seperti komputasi tepi, dan cocok untuk tugas dengan struktur ringan, paralelisme yang mudah, dan insentifisasi, seperti penyempurnaan LoRA, tugas pasca-pelatihan yang selaras secara perilaku, pelatihan dan anotasi data crowdsourced, pelatihan model dasar kecil, dan pelatihan kolaboratif perangkat edge. Arsitektur produk dari skenario ini ringan, dan peta jalan dapat diulangi secara fleksibel. Tapi ini bukan untuk mengatakan bahwa peluangnya sekarang, karena hambatan AI WEB2 baru saja mulai terbentuk, munculnya Deepseek telah merangsang kemajuan AI tugas kompleks multimodal, yang merupakan persaingan perusahaan terkemuka, dan ini adalah tahap awal munculnya dividen AI WEB2, saya pikir hanya ketika dividen AI WEB2 menghilang, titik nyeri yang ditinggalkan olehnya adalah peluang bagi AI WEB3 untuk memotong, seperti kelahiran asli DeFi, dan sebelum saatnya tiba, AI3 WEB3 Kita perlu dengan hati-hati mengidentifikasi kesepakatan yang memiliki "daerah pedesaan di sekitar kota", apakah akan memotong dari tepi, pertama-tama mendapatkan pijakan yang kuat di pedesaan (atau pasar kecil, pemandangan kecil) di mana kekuatannya lemah dan pasar memiliki sedikit adegan yang berakar, dan secara bertahap mengumpulkan sumber daya dan pengalaman; Jika ini tidak dapat dilakukan, maka sulit untuk mengandalkan PMF untuk mencapai nilai pasar sebesar $1 miliar atas dasar ini, dan proyek semacam itu tidak akan ada dalam daftar pantauan; KITA PERLU MEMPERHATIKAN APAKAH PROTOKOL AI WEB3 HARUS SEPENUHNYA FLEKSIBEL, FLEKSIBEL UNTUK SKENARIO YANG BERBEDA, DAPAT BERGERAK CEPAT ANTAR DAERAH PEDESAAN, DAN BERGERAK LEBIH DEKAT KE KOTA TARGET DENGAN KECEPATAN TERCEPAT.
Tentang Movemaker
Movemaker adalah organisasi komunitas resmi pertama yang diotorisasi oleh Yayasan Aptos, diprakarsai bersama oleh Ankaa dan BlockBooster, yang fokus pada pengembangan dan pembangunan ekosistem Aptos di wilayah berbahasa Mandarin. Sebagai perwakilan resmi Aptos di wilayah berbahasa Mandarin, Movemaker berkomitmen untuk menciptakan ekosistem Aptos yang beragam, terbuka, dan makmur dengan menghubungkan pengembang, pengguna, modal, dan banyak mitra ekosistem.
Penyangkalan:
Artikel / blog ini hanya untuk tujuan informasi dan mewakili pandangan pribadi penulis dan tidak selalu mewakili posisi Movemaker. Artikel ini tidak dimaksudkan untuk memberikan: (i) saran investasi atau rekomendasi investasi; (ii) penawaran atau ajakan untuk membeli, menjual, atau memegang aset digital; atau (iii) nasihat keuangan, akuntansi, hukum, atau pajak. Memegang aset digital, termasuk stablecoin dan NFT, sangat berisiko, harganya sangat fluktuatif, dan bahkan bisa menjadi tidak berharga. Anda harus mempertimbangkan dengan cermat apakah perdagangan atau kepemilikan Aset Digital cocok untuk Anda mengingat situasi keuangan Anda sendiri. Silakan berkonsultasi dengan penasihat hukum, pajak, atau investasi Anda jika Anda memiliki pertanyaan tentang keadaan spesifik Anda. Informasi yang diberikan dalam artikel ini, termasuk data dan statistik pasar, jika ada, hanya untuk tujuan informasi umum. Kehati-hatian yang wajar telah diambil dalam persiapan angka-angka dan grafik ini, tetapi tidak ada tanggung jawab yang diterima atas kesalahan faktual atau kelalaian yang diungkapkan di dalamnya.