Orijinal yazar: @BlazingKevin_ , Movemaker'da Araştırmacı
Çok modlu modellerin evrimi kaos getirmedi, ancak Web2 AI'nın teknik engellerini derinleştirdi - anlamsal hizalamadan görsel anlamaya, yüksek boyutlu yerleştirmeden özellik füzyonuna kadar, karmaşık modeller, giderek daha kapalı bir AI yaylası inşa etmek için çeşitli modal ifadeleri benzeri görülmemiş bir hızda entegre ediyor. ABD borsası da ayaklarıyla oy kullandı, ister döviz hisse senetleri ister yapay zeka hisse senetleri olsun, bir boğa piyasası dalgasından çıktılar. Ve bu sıcak hava dalgasının Kripto ile hiçbir ilgisi yok. Gördüğümüz Web3 yapay zeka girişimleri, özellikle de son aylarda ajanın yönünün evrimi neredeyse tamamen yanlış: Web2 tarzı çok modlu modüler bir sistemi bir araya getirmek için merkezi olmayan bir yapı kullanmak için hüsnükuruntu aslında teknoloji ve düşüncenin çifte yanlış hizalanmasıdır. Günümüzün yüksek düzeyde birleştirilmiş modüllerinde, son derece kararsız özellik dağılımında ve giderek yoğunlaşan bilgi işlem gücü talebinde, çok modlu modülerleştirme Web3'te ayakta kalamaz. Şunu belirtelim: Web3 yapay zekanın geleceği taklitle ilgili değil, stratejik sapmalarla ilgili. Yüksek boyutlu uzayların anlamsal hizalanmasından, dikkat mekanizmasındaki bilgi darboğazına, heterojen bilgi işlem gücü altındaki özellik hizalamasına kadar, Web3 yapay zekanın taktiksel bir program olarak şehri çevrelemek için neden kırsal bölgeyi kullanması gerektiğini açıklamak için bunları tek tek genişleteceğim.
Web3 AI, düzleştirilmiş çok modlu model üzerine inşa edilmiştir, anlamsal hizalanmanın sağlanamaması düşük performansa neden olmaktadır.
Modern Web2 AI'nin çok modlu sistemlerinde, "anlamsal hizalama", farklı modlardan (örneğin, görüntü, metin, ses, video vb.) gelen bilgilerin aynı veya birbirine dönüştürülebilir bir anlamsal alana haritalanması anlamına gelir; bu sayede model, bu aslında farklı biçimlerdeki sinyallerin ardındaki içsel anlamı anlayabilir ve karşılaştırabilir. Örneğin, bir kedi fotoğrafı ve "sevimli bir kedi" ifadesi, modelin yüksek boyutlu gömme alanında bunları birbirine yakın konumlara projekte etmesi gerektiği anlamına gelir; böylece sorgulama, oluşturma veya çıkarım yaparken "resme bakarak konuşabilmek" ve "sesi dinleyerek görüntü ile ilişkilendirebilmek" mümkün olur.
Yalnızca yüksek boyutlu gömme alanının gerçekleştirilmesi koşuluyla, iş akışını farklı modüllere ayırmanın maliyetleri düşürme ve verimliliği artırma anlamı vardır. Ancak web3 Agent protokolünde, modülerleşme Web3 AI'nın bir yanılsaması olduğu için yüksek boyutlu gömme gerçekleştirilemez.
Yüksek boyutlu gömülü uzayı nasıl anlamalıyız? En sezgisel düzeyde, "yüksek boyutlu gömülü uzayı" bir koordinat sistemi olarak düşünün - tıpkı düzlemdeki x-y koordinatları gibi, bir noktayı tanımlamak için bir çift sayı kullanabilirsiniz. Ancak, yaygın iki boyutlu düzlemde bir nokta iki sayı (x, y) ile tamamen belirlenirken; "yüksek boyutlu" uzayda her noktanın tanımlanması için daha fazla sayıya ihtiyaç vardır, bu sayı 128, 512 veya hatta binlerce sayı olabilir.
Yavaş yavaş derinlemesine anlamak için üç adımda ele alalım:
İki boyutlu örnek:
Harita üzerinde birkaç şehrin koordinatlarını işaretlediğini düşün, örneğin Pekin (116.4, 39.9), Şanghay (121.5, 31.2), Guangzhou (113.3, 23.1). Burada her şehir bir "iki boyutlu gömme vektörü" (embedding vector) ile ilişkilidir: İki boyutlu koordinatlar coğrafi konum bilgilerini sayılara kodlar.
Eğer şehirler arasındaki "benzerliği" ölçmek istiyorsanız - haritada birbirine yakın olan şehirler genellikle aynı ekonomik bölge veya iklim bölgesinde yer alır - bunların koordinatlarının Öklid mesafesini doğrudan karşılaştırabilirsiniz.
2. Çok boyutluya genişletme:
Şimdi varsayalım ki sadece "coğrafi alan" üzerindeki konumu tanımlamakla kalmıyor, aynı zamanda bazı "iklim özellikleri" (ortalama sıcaklık, yağış miktarı), "nüfus özellikleri" (nüfus yoğunluğu, GSYİH) gibi unsurları da eklemek istiyorsunuz. Her bir şehre 5, 10 veya daha fazla boyut içeren bir vektör atayabilirsiniz.
Örneğin, Guangzhou'nun 5 boyutlu vektörü [ 113.3, 23.1, 24.5, 1700, 14.5 ] olabilir; bunlar sırasıyla boylam, enlem, ortalama sıcaklık, yıllık yağış miktarı (milimetre) ve ekonomik indeks anlamına gelir. Bu "çok boyutlu alan", şehirleri coğrafi, iklim, ekonomik gibi birçok boyutta aynı anda karşılaştırmanıza olanak tanır: Eğer iki şehrin vektörleri çok yakınsa, bu onların bu birkaç özelliği bakımından oldukça benzer oldukları anlamına gelir.
3. Anlam geçişi - Neden "gömme":
Doğal dil işleme (NLP) veya bilgisayarla görmede, "kelimeleri", "cümleleri" veya "görüntüleri" çok boyutlu bir vektöre eşlemek istiyoruz, böylece "benzer" kelimeler veya görüntüler uzayda birbirine daha yakın olur. Bu eşleme işlemine katıştırma adı verilir.
Örneğin, "kedi"yi 300 boyutlu bir v₁ vektörüne, "köpek"i başka bir v₂ vektörüne ve "ekonomi" gibi "alakasız" sözcükleri v₃'ye eşlemek için bir model eğitelim. Daha sonra bu 300 boyutlu uzayda, v₁ ve v₂ arasındaki mesafe küçük olacaktır (çünkü her ikisi de hayvandır ve genellikle benzer yerlerde görünürler) ve v₁ mesafesi büyük olacaktır.
Model, büyük miktarda metin veya görüntü-metin çifti üzerinde eğitildiğinden, öğrendiği her boyut doğrudan "boylam" veya "enlem" gibi yorumlanabilir özelliklere değil, bir tür "örtük anlamsal özelliğe" karşılık gelir. Bazı boyutlar "hayvan ile hayvan olmayan" arasındaki kaba taneli ayrımı yakalayabilir, diğerleri "evcil ve vahşi" arasında ayrım yapabilir ve yine de diğerleri "sevimli ve güçlü" hissine karşılık gelebilir...... Kısacası, yüzlerce veya binlerce boyut, her türlü karmaşık, iç içe geçmiş anlamsal katmanı kodlamak için birlikte çalışır.
Yüksek ve düşük boyutlar arasındaki fark nedir? Yalnızca yeterli sayıda boyut, iç içe geçmiş çeşitli anlamsal özellikleri barındırabilir ve yalnızca yüksek boyutlar, kendi anlamsal enlemlerinde daha net bir konuma sahip olmalarını sağlayabilir. Anlambilim ayırt edilemediğinde, yani anlambilim hizalanamadığında, düşük boyutlu uzaydaki farklı sinyaller birbirini "sıkıştırır", bu da modelin alınmasında veya sınıflandırılmasında sık sık karışıklığa neden olur ve doğruluk büyük ölçüde azalır. İkinci olarak, strateji oluşturma aşamasında ince farklılıkları yakalamak zordur ve önemli alım satım sinyallerini kaçırmak veya risk eşiğini yanlış değerlendirmek kolaydır, bu da getirilerin performansını doğrudan aşağı çeker. Ek olarak, modüller arası işbirliği imkansız hale gelir, her ajan bağımsız olarak çalışır, bilgi adaları olgusu ciddidir, genel yanıt gecikmesi artar ve sağlamlık zayıflar. Son olarak, karmaşık piyasa senaryoları karşısında, düşük boyutlu yapının çok kaynaklı verileri taşıma kapasitesi neredeyse yoktur ve sistemin kararlılığını ve ölçeklenebilirliğini garanti etmek zordur ve uzun vadeli operasyon, performans darboğazlarına ve bakım zorluklarına düşmek zorundadır, bu da ürünün inişten sonraki performansı ile ilk beklenti arasında çok büyük bir boşluğa neden olur.
Peki Web3 AI veya Agent protokolleri yüksek boyutlu gömme alanı elde edebilir mi? Her şeyden önce, yüksek boyutlu uzayın nasıl elde edileceği sorusuna cevap vermek için, geleneksel "yüksek boyutlu" anlayışı, piyasa istihbaratı, strateji oluşturma, yürütme ve uygulama ve risk kontrolü gibi her bir alt sistemin birbiriyle uyumlu olmasını ve veri temsili ve karar verme sürecinde birbirini tamamlamasını gerektirir. Bununla birlikte, çoğu Web3 Aracısı, yalnızca hazır API'leri (CoinGecko, DEX arayüzleri, vb.) bağımsız "Aracılar" halinde kapsüller, birleşik bir merkezi gömme alanı ve modüller arası dikkat mekanizmasından yoksundur, bu da modüller arasında birden fazla açıdan ve seviyeden etkileşime giremeyen ve yalnızca doğrusal bir boru hattını takip edebilen, tek bir işlevi gösteren ve genel bir kapalı döngü optimizasyonu oluşturamayan bilgilerle sonuçlanır.
Birçok aracı dış arabirimleri doğrudan çağırır ve arabirim tarafından döndürülen veriler için yeterli ince ayar veya özellik mühendisliği bile yapmaz. Örneğin, piyasa analizi aracısı yalnızca fiyatı ve işlem hacmini alır, işlem yürütme aracısı yalnızca arayüz parametrelerine göre emir verir ve risk kontrol aracısı yalnızca birkaç eşiğe göre alarm verir. Kendi görevlerini yerine getirirler, ancak çok modlu füzyondan ve aynı risk olayının veya piyasa sinyalinin derin anlamsal anlayışından yoksundurlar, bu da sistemin aşırı piyasa veya varlıklar arası fırsatlar karşısında hızlı bir şekilde kapsamlı ve çok açılı stratejiler oluşturamamasına neden olur.
Bu nedenle, Web3 AI'nın yüksek boyutlu bir alan elde etmesini gerektirmek, Agent protokolünün ilgili tüm API arayüzlerini geliştirmesini gerektirmekle eşdeğerdir, bu da orijinal modülerleştirme amacına aykırıdır ve Web3 AI'da küçük ve orta ölçekli işletmeler tarafından tanımlanan modüler çok modlu sistem incelemeye dayanamaz. Yüksek boyutlu mimari, uçtan uca birleşik eğitim veya işbirlikçi optimizasyon gerektirir: sinyal yakalamadan strateji hesaplamaya, yürütme ve risk kontrolüne kadar tüm bağlantılar aynı temsil ve kayıp işlevleri kümesini paylaşır. Web3 Aracısı'nın "eklenti olarak modül" fikri, parçalanmayı daha da kötüleştirdi—her aracı yükseltmesi, dağıtımı ve parametre ayarlaması, eşzamanlı olarak yinelenmesi zor olan kendi silosunda tamamlanır ve etkili bir merkezi izleme ve geri bildirim mekanizması yoktur, bu da artan bakım maliyetlerine ve sınırlı genel performansa neden olur.
Sektör engellerine sahip bir tam zincir akıllı ajanı gerçekleştirmek için, uçtan uca ortak modelleme, modüller arası birleşik gömme ve iş birliği ile eğitim ve dağıtım sistem mühendisliği gereklidir; ancak mevcut pazarda böyle bir acı noktası bulunmamaktadır, dolayısıyla pazar talebi de yoktur.
Düşük boyutlu uzayda, dikkat mekanizması hassas bir şekilde tasarlanamaz
Üst düzey multimodal modellerin sofistike dikkat mekanizmaları tasarlaması gerekir. "Dikkat mekanizması", esasen, hesaplama kaynaklarını dinamik olarak tahsis etmenin bir yoludur ve modelin, bir modal girdiyi işlerken en ilgili kısımlara seçici olarak "odaklanmasına" olanak tanır. En yaygın olanları, Transformer'daki öz dikkat ve çapraz dikkat mekanizmalarıdır: öz dikkat, modelin, metindeki her kelimenin diğer kelimelere olan önemi gibi bir dizideki öğeler arasındaki bağımlılıkları ölçmesini sağlar; Transattention, başka bir modalitenin kodunu çözerken veya oluştururken (örneğin, bir görüntünün özellik dizisi) hangi görüntü özelliklerinin "görüleceğine" karar vermek için bir modaliteden (örneğin metin) gelen bilgilere izin verir. Çok başlı dikkat ile model, daha karmaşık ve ayrıntılı ilişkilendirmeleri yakalamak için farklı alt alanlarda aynı anda birden çok hizalamayı öğrenebilir.
Dikkat mekanizmasının öncülü, çok modluluğun yüksek boyutlara sahip olması ve yüksek boyutlu uzayda, sofistike dikkat mekanizmasının en kısa sürede devasa yüksek boyutlu uzaydan çekirdek parçayı bulabilmesidir. Dikkat mekanizmasının bir rol oynayabilmesi için neden yüksek boyutlu bir alana yerleştirilmesi gerektiğini açıklamadan önce, dikkat mekanizmasını tasarlarken Transformer kod çözücü tarafından temsil edilen Web2 AI sürecini anlıyoruz. Temel fikir, dizileri (metin, görüntü yamaları, ses çerçeveleri) işlerken, modelin her bir öğeye dinamik olarak "dikkat ağırlıkları" ataması ve onlara körü körüne eşit davranmak yerine en alakalı bilgilere odaklanmasına izin vermesidir.
Basitçe söylemek gerekirse, dikkat mekanizmasını bir arabaya benzetirseniz, Query-Key-Value tasarlamak motoru tasarlamaktır. Q-K-V, anahtar bilgileri belirlememize yardımcı olan mekanizmadır, Sorgu, "ne arıyorum" ( ) sorguyu ifade eder, Anahtar, indeksi ( "hangi etikete sahibim" ), Değer, içeriği ifade eder (" Burada ne var" ). Çok modlu bir model için, modele girdiğiniz şey bir cümle, bir görüntü veya bir ses olabilir. Boyutsal uzayda ihtiyaç duyduğumuz içeriği elde etmek için, bu girdiler bir karakter, belirli bir piksel boyutunda küçük bir blok veya bir ses çerçevesi parçası gibi en küçük birimlere kesilir ve çok modlu model, dikkat hesaplaması için bu minimum birimler için Sorgu, Anahtar ve Değer üretir. Model belirli bir konumu işlediğinde, tüm konumların anahtarlarını karşılaştırmak, hangi etiketlerin mevcut gereksinimlere en iyi şekilde uyduğunu belirlemek için bu konumun sorgusunu kullanacak ve ardından eşleşme derecesine göre karşılık gelen konumdan değeri çıkaracak ve kombinasyonu önem derecesine göre ağırlıklandıracak ve son olarak yalnızca kendi bilgilerini içermekle kalmayıp aynı zamanda tüm dünyanın ilgili içeriğini de entegre eden yeni bir temsil elde edecektir. Bu şekilde, verimli ve doğru bilgi odağı elde etmek için her bir çıktı bağlama göre dinamik olarak "sorgulanabilir-alınabilir-entegre edilebilir".
Bu motorun temelinde, çeşitli parçalar eklenir ve "küresel etkileşim" ve "kontrol edilebilir karmaşıklık" akıllıca birleştirilir: ölçekli nokta çarpım sayısal kararlılık sağlar, çok kafalı paralel zengin ifade, konum kodlaması dizi sırasını korur, seyrek değişkenler verimliliği hesaba katar, artıklar ve normalleştirme kararlı eğitime yardımcı olur ve çapraz dikkat çoklu modaliteyi açar. Bu modüler, katman katman tasarımlar, Web2 AI'nın güçlü öğrenme yeteneklerine sahip olmasını ve çeşitli sıralı ve çok modlu görevleri yerine getirirken uygun fiyatlı bir bilgi işlem gücü aralığında verimli bir şekilde çalışmasını sağlar.
Modüler tabanlı Web3 yapay zeka neden birleşik dikkat planlaması sağlayamıyor? İlk olarak, dikkat mekanizması birleşik bir Sorgu-Anahtar-Değer uzayına dayanır ve nokta çarpımdan dinamik ağırlıkları hesaplamak için tüm giriş özelliklerinin aynı yüksek boyutlu vektör uzayına eşlenmesi gerekir. Bununla birlikte, bağımsız API'ler, birleşik bir gömme katmanı olmadan farklı biçimler ve farklı veri dağıtımları (fiyat, sipariş durumu, eşik alarmları) döndürür ve bir dizi etkileşimli Q/K/V oluşturamaz. İkinci olarak, çok başlı dikkat, farklı bilgi kaynaklarına aynı anda aynı düzeyde paralel olarak dikkat edilmesini sağlar ve daha sonra sonuçlar toplanır. Bununla birlikte, bağımsız API'ler genellikle "önce A'yı çağırır, sonra B'yi çağırır ve sonra C'yi çağırır" ve her adımın çıktısı yalnızca paralel ve çok kanallı dinamik ağırlıklandırma yeteneğinden yoksun olan bir sonraki modülün girdisidir ve doğal olarak dikkat mekanizmasında tüm pozisyonları veya modaliteleri aynı anda puanlama ve sentezlemenin ince programlamasını simüle edemez. Son olarak, gerçek bir dikkat mekanizması, genel bağlama dayalı olarak her bir öğeye dinamik olarak ağırlıklar atar; API modunda, modüller çağrıldıklarında yalnızca "bağımsız" bağlamı görebilir ve gerçek zamanlı olarak birbirleriyle paylaşılan merkezi bir bağlam yoktur, bu nedenle modüller arasında küresel korelasyon ve odaklanma elde etmek imkansızdır.
Bu nedenle, çeşitli işlevleri ayrık API'lere dönüştürmekle - ortak bir vektör temsili olmadan, paralel ağırlıklandırma ve toplama olmadan - Transformer gibi "birleşik dikkat planlaması" yeteneği inşa edilemez; bu, düşük performanslı bir motoru olan bir aracın ne kadar modifiye edilirse edilsin sınırını artırmanın zor olması gibidir.
"Özellik füzyonu", farklı modal işlemeyle elde edilen özellik vektörlerini, hizalama ve dikkat temelinde daha fazla birleştirmektir, böylece bunlar doğrudan alt görevler (sınıflandırma, geri alma, üretme vb.) tarafından kullanılabilir. Füzyon yöntemleri, birleştirme, ağırlıklı toplama kadar basit veya çift doğrusal havuzlama, tensör ayrıştırma ve hatta dinamik yönlendirme teknikleri kadar karmaşık olabilir. Daha üst düzey bir yaklaşım, çok katmanlı bir ağda alternatif hizalama, dikkat ve füzyon yapmak veya derin bilgi etkileşimi elde etmek için grafik sinir ağları (GNN'ler) aracılığıyla çapraz modal özellikler arasında daha esnek bir mesaj iletim yolu oluşturmaktır.
Açıkça söylemek gerekirse, Web3 AI elbette en basit birleştirme aşamasında kalmaktadır, çünkü dinamik özelliklerin birleştirilmesi için yüksek boyutlu uzay ve hassas dikkat mekanizması gerekmektedir. Bu ön koşullar sağlanmadığında, son aşamadaki özellik birleştirmesi de doğal olarak etkileyici bir performansa ulaşamaz.
Web2 AI, uçtan uca ortak eğitim eğilimindedir: görüntüler, metin ve ses gibi tüm modal özellikler aynı yüksek boyutlu alanda aynı anda işlenir ve model, dikkat katmanı ve füzyon katmanı aracılığıyla aşağı akış görev katmanı ile ortak optimizasyon yoluyla ileri ve geri yayılımda optimum füzyon ağırlıklarını ve etkileşim modlarını otomatik olarak öğrenir. Öte yandan Web3 AI, görüntü tanıma, pazar yakalama ve risk değerlendirmesi gibi çeşitli API'leri bağımsız aracılara kapsülleyerek ve ardından çıktıkları etiketleri, değerleri veya eşik alarmlarını basitçe bir araya getirerek daha ayrı modül ekleme kullanır ve birleşik bir eğitim hedefinden yoksun olan ve modüller arasında gradyan akışı olmayan ana mantık veya manuel olarak kapsamlı kararlar alır.
Web2 AI'da sistem, bağlama göre çeşitli özelliklerin önem puanlarını gerçek zamanlı olarak hesaplamak ve füzyon stratejisini dinamik olarak ayarlamak için dikkat mekanizmasına güvenir. Çok başlı dikkat, yerel ayrıntıları ve genel anlambilimi dikkate alarak aynı düzeyde paralel olarak birden çok farklı özellik etkileşim modelini de yakalayabilir. Öte yandan Web3 AI, genellikle "görüntü × 0,5 + metin × 0,3 + fiyat × 0,2" ağırlığını önceden sabitler veya sigortalanıp sigortalanmayacağını belirlemek için basit if/else kuralları kullanır veya hiç sigortalanmaz ve yalnızca esneklikten yoksun olan her modülün çıktısını birlikte sunar.
Web2 AI, tüm modal özellikleri birkaç bin boyuttan oluşan yüksek boyutlu bir uzaya eşler ve füzyon süreci yalnızca vektör birleştirme değil, aynı zamanda toplama ve çift doğrusal havuzlama gibi çeşitli üst düzey etkileşimlerdir - her boyut, modelin derin, karmaşık çapraz modal ilişkileri yakalamasını sağlayan gizli bir semantik'e karşılık gelme potansiyeline sahiptir. Buna karşılık, Web3 AI'nın aracı çıktısı genellikle yalnızca birkaç temel alan veya metrik içerir ve özellik boyutları son derece düşüktür, bu da "görüntünün içeriğinin neden metnin anlamıyla eşleştiği" veya "fiyat dalgalanmaları ile duyarlılık hareketleri arasındaki ince korelasyon" gibi ince bilgileri iletmeyi neredeyse imkansız hale getirir.
Web2 AI'de, aşağı akış görevlerinin kaybı, dikkat katmanı ve birleştirme katmanı aracılığıyla modelin çeşitli kısımlarına sürekli olarak geri bildirimde bulunarak, hangi özelliklerin güçlendirilmesi veya bastırılması gerektiğini otomatik olarak ayarlamakta ve kapalı döngü optimizasyonu oluşturmaktadır. Web3 AI'ye gelince, API çağrısı sonuçları raporlandıktan sonra genellikle insan veya dış süreçlere dayanarak değerlendirilmekte ve ayarlanmakta, otomatik bir uçtan uca geri bildirim eksikliği nedeniyle birleştirme stratejilerinin çevrimiçi olarak iterasyon ve optimizasyonu zorlaşmaktadır.
AI sektöründeki engeller derinleşiyor, ancak acı noktalar henüz ortaya çıkmadı
Uçtan uca eğitimde modlar arası hizalamayı, gelişmiş dikkat hesaplamayı ve yüksek boyutlu özellik füzyonunu hesaba katma ihtiyacı nedeniyle, Web2 AI'nın çok modlu sistemi genellikle son derece büyük bir mühendislik projesidir. Yalnızca devasa, çeşitli ve iyi açıklamalı çapraz modal veri kümeleri gerektirmekle kalmaz, aynı zamanda binlerce GPU üzerinde haftalarca hatta aylarca eğitim gerektirir; Model mimarisi açısından, çeşitli en son ağ tasarım konseptlerini ve optimizasyon teknolojilerini entegre eder. Proje uygulaması açısından, ölçeklenebilir bir dağıtılmış eğitim platformu, izleme sistemi, model sürüm yönetimi ve dağıtım hattı oluşturmak da gereklidir. Algoritmaların araştırılması ve geliştirilmesinde, daha verimli dikkat varyantları, daha sağlam hizalama kayıpları ve daha hafif füzyon stratejileri üzerinde çalışmaya devam etmek gerekir. Bu tür tam bağlantılı, tam yığın sistematik çalışma, sermaye, veri, bilgi işlem gücü, yetenekler ve hatta organizasyonel işbirliği için son derece yüksek gereksinimlere sahiptir, bu nedenle güçlü bir endüstri engeli oluşturur ve aynı zamanda şu ana kadar birkaç önde gelen ekip tarafından yönetilen temel rekabet gücünü yaratmıştır.
Nisan ayında Çin yapay zeka uygulamalarını incelediğimde ve WEB3 yapay zekayı karşılaştırdığımda bir bakış açısından bahsetmiştim: güçlü engellere sahip sektörlerde Kripto atılımlar gerçekleştirebilir, bu da bazı endüstrilerin geleneksel pazarlarda çok olgunlaştığı anlamına gelir, ancak büyük acı noktaları vardır, yüksek olgunluk, benzer iş modellerine aşina yeterli kullanıcı olduğu anlamına gelir ve büyük acı noktaları, kullanıcıların yeni çözümler denemeye istekli olduğu, yani Kripto'yu kabul etme konusunda güçlü bir isteklilik olduğu anlamına gelir, her ikisi de vazgeçilmezdir, yani tam tersine, Geleneksel pazarda zaten çok olgunlaşmış bir sektör değilse, ancak çok büyük acı noktaları varsa, Kripto içinde kök salamayacak, hayatta kalmak için yer kalmayacak ve kullanıcıların bunu tam olarak anlama istekliliği çok düşük ve potansiyel üst sınırını anlamıyorlar.
WEB3 AI veya PMF bayrağı altındaki herhangi bir kripto ürününün, şehri kırsal kesimde kuşatma taktiği ile geliştirilmesi ve temelin sağlam olduğundan emin olmak için suyun marjinal konumda küçük ölçekte test edilmesi ve ardından çekirdek senaryonun, yani hedef şehrin ortaya çıkmasının beklenmesi gerekiyor. Web3 AI'nın özü ademi merkeziyetçilikte yatar ve evrim yolu, yüksek paralellik, düşük bağlantı ve heterojen bilgi işlem gücünün uyumluluğunda yansıtılır. Bu, Web3 yapay zekayı uç bilgi işlem gibi senaryolarda daha avantajlı hale getirir ve LoRA ince ayarı, davranışsal olarak hizalanmış eğitim sonrası görevler, kitle kaynaklı veri eğitimi ve açıklama, küçük temel model eğitimi ve uç cihaz işbirliği eğitimi gibi hafif yapılara, kolay paralelliğe ve teşvike sahip görevler için uygundur. Bu senaryoların ürün mimarisi basittir ve yol haritası esnek bir şekilde yinelenebilir. Ancak bu, fırsatın şimdi olduğu anlamına gelmez, çünkü WEB2 AI'nın engelleri daha yeni oluşmaya başladı, Deepseek'in ortaya çıkışı, önde gelen işletmelerin rekabeti olan çok modlu karmaşık görev AI'nın ilerlemesini teşvik etti ve WEB2 AI temettülerinin ortaya çıkışının erken aşaması, bence ancak WEB2 AI'nın temettüleri ortadan kalktığında, geride bıraktığı acı noktaları, tıpkı DeFi'nin orijinal doğuşu gibi ve zamanı gelmeden önce WEB3 AI'nın kesip atması için fırsatlar olduğunu düşünüyorum "Şehirleri çevreleyen kırsal alanlara" sahip olan anlaşmayı dikkatlice tanımlamamız, kenardan kesmek, önce gücün zayıf olduğu ve pazarın az sayıda köklü sahnesine sahip olduğu kırsal kesimde (veya küçük pazarda, küçük sahnede) sağlam bir yer edinmek ve yavaş yavaş kaynak ve deneyim biriktirmek gerekip gerekmediğini dikkatlice belirlememiz gerekiyor; Bu yapılamazsa, bu temelde 1 milyar dolarlık bir piyasa değeri elde etmek için PMF'ye güvenmek zordur ve bu tür projeler izleme listesinde olmayacaktır; WEB3 YAPAY ZEKA PROTOKOLÜNÜN TAMAMEN ESNEK OLMASI, FARKLI SENARYOLAR IÇIN ESNEK OLMASI, KIRSAL ALANLAR ARASINDA HIZLI HAREKET EDEBILMESI VE HEDEF ŞEHRE EN HIZLI ŞEKILDE YAKLAŞABILMESI GEREKIP GEREKMEDIĞINE DIKKAT ETMEMIZ GEREKIYOR.
Movemaker Hakkında
Movemaker, Aptos Vakfı tarafından yetkilendirilen ve Ankaa ve BlockBooster tarafından ortaklaşa başlatılan ve Aptos Çince konuşan topluluğun inşasını ve gelişimini teşvik etmeye odaklanan ilk resmi topluluk kuruluşudur. Aptos'un Çince konuşulan bölgedeki resmi temsilcisi olan Movemaker, geliştiricileri, kullanıcıları, sermayeyi ve birçok ekosistem ortağını birbirine bağlayarak çeşitli, açık ve müreffeh bir Aptos ekosistemi oluşturmaya kendini adamıştır.
Feragatname:
Bu makale/blog yalnızca bilgilendirme amaçlıdır ve yazarın kişisel görüşlerini temsil eder ve Movemaker'ın konumunu temsil etmek zorunda değildir. Bu makale şunları sağlamayı amaçlamamaktadır: (i) yatırım tavsiyesi veya yatırım tavsiyesi; dijital varlıkları satın almak, satmak veya elde tutmak için bir teklif veya talep (ii); veya finansal, muhasebe, hukuk veya vergi danışmanlığı (iii). Stabilcoinler ve NFT'ler de dahil olmak üzere dijital varlıkları tutmak son derece risklidir, fiyatı oldukça değişkendir ve hatta değersiz hale gelebilir. Kendi mali durumunuz ışığında Dijital Varlıkların alım satımının veya elde tutulmasının sizin için uygun olup olmadığını dikkatlice düşünmelisiniz. Özel durumunuz hakkında sorularınız varsa lütfen hukuk, vergi veya yatırım danışmanınıza danışın. Piyasa verileri ve varsa istatistikler de dahil olmak üzere bu makalede verilen bilgiler yalnızca genel bilgi amaçlıdır. Bu rakam ve grafiklerin hazırlanmasında makul özen gösterilmiştir, ancak bunlarda ifade edilen herhangi bir olgusal hata veya eksiklik için hiçbir sorumluluk kabul edilmez.
The content is for reference only, not a solicitation or offer. No investment, tax, or legal advice provided. See Disclaimer for more risks disclosure.
Neden çok modlu modülerlik Web3 AI için bir yanılsamadır?
Orijinal yazar: @BlazingKevin_ , Movemaker'da Araştırmacı
Çok modlu modellerin evrimi kaos getirmedi, ancak Web2 AI'nın teknik engellerini derinleştirdi - anlamsal hizalamadan görsel anlamaya, yüksek boyutlu yerleştirmeden özellik füzyonuna kadar, karmaşık modeller, giderek daha kapalı bir AI yaylası inşa etmek için çeşitli modal ifadeleri benzeri görülmemiş bir hızda entegre ediyor. ABD borsası da ayaklarıyla oy kullandı, ister döviz hisse senetleri ister yapay zeka hisse senetleri olsun, bir boğa piyasası dalgasından çıktılar. Ve bu sıcak hava dalgasının Kripto ile hiçbir ilgisi yok. Gördüğümüz Web3 yapay zeka girişimleri, özellikle de son aylarda ajanın yönünün evrimi neredeyse tamamen yanlış: Web2 tarzı çok modlu modüler bir sistemi bir araya getirmek için merkezi olmayan bir yapı kullanmak için hüsnükuruntu aslında teknoloji ve düşüncenin çifte yanlış hizalanmasıdır. Günümüzün yüksek düzeyde birleştirilmiş modüllerinde, son derece kararsız özellik dağılımında ve giderek yoğunlaşan bilgi işlem gücü talebinde, çok modlu modülerleştirme Web3'te ayakta kalamaz. Şunu belirtelim: Web3 yapay zekanın geleceği taklitle ilgili değil, stratejik sapmalarla ilgili. Yüksek boyutlu uzayların anlamsal hizalanmasından, dikkat mekanizmasındaki bilgi darboğazına, heterojen bilgi işlem gücü altındaki özellik hizalamasına kadar, Web3 yapay zekanın taktiksel bir program olarak şehri çevrelemek için neden kırsal bölgeyi kullanması gerektiğini açıklamak için bunları tek tek genişleteceğim.
Web3 AI, düzleştirilmiş çok modlu model üzerine inşa edilmiştir, anlamsal hizalanmanın sağlanamaması düşük performansa neden olmaktadır.
Modern Web2 AI'nin çok modlu sistemlerinde, "anlamsal hizalama", farklı modlardan (örneğin, görüntü, metin, ses, video vb.) gelen bilgilerin aynı veya birbirine dönüştürülebilir bir anlamsal alana haritalanması anlamına gelir; bu sayede model, bu aslında farklı biçimlerdeki sinyallerin ardındaki içsel anlamı anlayabilir ve karşılaştırabilir. Örneğin, bir kedi fotoğrafı ve "sevimli bir kedi" ifadesi, modelin yüksek boyutlu gömme alanında bunları birbirine yakın konumlara projekte etmesi gerektiği anlamına gelir; böylece sorgulama, oluşturma veya çıkarım yaparken "resme bakarak konuşabilmek" ve "sesi dinleyerek görüntü ile ilişkilendirebilmek" mümkün olur.
Yalnızca yüksek boyutlu gömme alanının gerçekleştirilmesi koşuluyla, iş akışını farklı modüllere ayırmanın maliyetleri düşürme ve verimliliği artırma anlamı vardır. Ancak web3 Agent protokolünde, modülerleşme Web3 AI'nın bir yanılsaması olduğu için yüksek boyutlu gömme gerçekleştirilemez.
Yüksek boyutlu gömülü uzayı nasıl anlamalıyız? En sezgisel düzeyde, "yüksek boyutlu gömülü uzayı" bir koordinat sistemi olarak düşünün - tıpkı düzlemdeki x-y koordinatları gibi, bir noktayı tanımlamak için bir çift sayı kullanabilirsiniz. Ancak, yaygın iki boyutlu düzlemde bir nokta iki sayı (x, y) ile tamamen belirlenirken; "yüksek boyutlu" uzayda her noktanın tanımlanması için daha fazla sayıya ihtiyaç vardır, bu sayı 128, 512 veya hatta binlerce sayı olabilir.
Yavaş yavaş derinlemesine anlamak için üç adımda ele alalım:
Harita üzerinde birkaç şehrin koordinatlarını işaretlediğini düşün, örneğin Pekin (116.4, 39.9), Şanghay (121.5, 31.2), Guangzhou (113.3, 23.1). Burada her şehir bir "iki boyutlu gömme vektörü" (embedding vector) ile ilişkilidir: İki boyutlu koordinatlar coğrafi konum bilgilerini sayılara kodlar.
Eğer şehirler arasındaki "benzerliği" ölçmek istiyorsanız - haritada birbirine yakın olan şehirler genellikle aynı ekonomik bölge veya iklim bölgesinde yer alır - bunların koordinatlarının Öklid mesafesini doğrudan karşılaştırabilirsiniz. 2. Çok boyutluya genişletme:
Şimdi varsayalım ki sadece "coğrafi alan" üzerindeki konumu tanımlamakla kalmıyor, aynı zamanda bazı "iklim özellikleri" (ortalama sıcaklık, yağış miktarı), "nüfus özellikleri" (nüfus yoğunluğu, GSYİH) gibi unsurları da eklemek istiyorsunuz. Her bir şehre 5, 10 veya daha fazla boyut içeren bir vektör atayabilirsiniz.
Örneğin, Guangzhou'nun 5 boyutlu vektörü [ 113.3, 23.1, 24.5, 1700, 14.5 ] olabilir; bunlar sırasıyla boylam, enlem, ortalama sıcaklık, yıllık yağış miktarı (milimetre) ve ekonomik indeks anlamına gelir. Bu "çok boyutlu alan", şehirleri coğrafi, iklim, ekonomik gibi birçok boyutta aynı anda karşılaştırmanıza olanak tanır: Eğer iki şehrin vektörleri çok yakınsa, bu onların bu birkaç özelliği bakımından oldukça benzer oldukları anlamına gelir. 3. Anlam geçişi - Neden "gömme": Doğal dil işleme (NLP) veya bilgisayarla görmede, "kelimeleri", "cümleleri" veya "görüntüleri" çok boyutlu bir vektöre eşlemek istiyoruz, böylece "benzer" kelimeler veya görüntüler uzayda birbirine daha yakın olur. Bu eşleme işlemine katıştırma adı verilir.
Örneğin, "kedi"yi 300 boyutlu bir v₁ vektörüne, "köpek"i başka bir v₂ vektörüne ve "ekonomi" gibi "alakasız" sözcükleri v₃'ye eşlemek için bir model eğitelim. Daha sonra bu 300 boyutlu uzayda, v₁ ve v₂ arasındaki mesafe küçük olacaktır (çünkü her ikisi de hayvandır ve genellikle benzer yerlerde görünürler) ve v₁ mesafesi büyük olacaktır.
Model, büyük miktarda metin veya görüntü-metin çifti üzerinde eğitildiğinden, öğrendiği her boyut doğrudan "boylam" veya "enlem" gibi yorumlanabilir özelliklere değil, bir tür "örtük anlamsal özelliğe" karşılık gelir. Bazı boyutlar "hayvan ile hayvan olmayan" arasındaki kaba taneli ayrımı yakalayabilir, diğerleri "evcil ve vahşi" arasında ayrım yapabilir ve yine de diğerleri "sevimli ve güçlü" hissine karşılık gelebilir...... Kısacası, yüzlerce veya binlerce boyut, her türlü karmaşık, iç içe geçmiş anlamsal katmanı kodlamak için birlikte çalışır.
Yüksek ve düşük boyutlar arasındaki fark nedir? Yalnızca yeterli sayıda boyut, iç içe geçmiş çeşitli anlamsal özellikleri barındırabilir ve yalnızca yüksek boyutlar, kendi anlamsal enlemlerinde daha net bir konuma sahip olmalarını sağlayabilir. Anlambilim ayırt edilemediğinde, yani anlambilim hizalanamadığında, düşük boyutlu uzaydaki farklı sinyaller birbirini "sıkıştırır", bu da modelin alınmasında veya sınıflandırılmasında sık sık karışıklığa neden olur ve doğruluk büyük ölçüde azalır. İkinci olarak, strateji oluşturma aşamasında ince farklılıkları yakalamak zordur ve önemli alım satım sinyallerini kaçırmak veya risk eşiğini yanlış değerlendirmek kolaydır, bu da getirilerin performansını doğrudan aşağı çeker. Ek olarak, modüller arası işbirliği imkansız hale gelir, her ajan bağımsız olarak çalışır, bilgi adaları olgusu ciddidir, genel yanıt gecikmesi artar ve sağlamlık zayıflar. Son olarak, karmaşık piyasa senaryoları karşısında, düşük boyutlu yapının çok kaynaklı verileri taşıma kapasitesi neredeyse yoktur ve sistemin kararlılığını ve ölçeklenebilirliğini garanti etmek zordur ve uzun vadeli operasyon, performans darboğazlarına ve bakım zorluklarına düşmek zorundadır, bu da ürünün inişten sonraki performansı ile ilk beklenti arasında çok büyük bir boşluğa neden olur.
Peki Web3 AI veya Agent protokolleri yüksek boyutlu gömme alanı elde edebilir mi? Her şeyden önce, yüksek boyutlu uzayın nasıl elde edileceği sorusuna cevap vermek için, geleneksel "yüksek boyutlu" anlayışı, piyasa istihbaratı, strateji oluşturma, yürütme ve uygulama ve risk kontrolü gibi her bir alt sistemin birbiriyle uyumlu olmasını ve veri temsili ve karar verme sürecinde birbirini tamamlamasını gerektirir. Bununla birlikte, çoğu Web3 Aracısı, yalnızca hazır API'leri (CoinGecko, DEX arayüzleri, vb.) bağımsız "Aracılar" halinde kapsüller, birleşik bir merkezi gömme alanı ve modüller arası dikkat mekanizmasından yoksundur, bu da modüller arasında birden fazla açıdan ve seviyeden etkileşime giremeyen ve yalnızca doğrusal bir boru hattını takip edebilen, tek bir işlevi gösteren ve genel bir kapalı döngü optimizasyonu oluşturamayan bilgilerle sonuçlanır.
Birçok aracı dış arabirimleri doğrudan çağırır ve arabirim tarafından döndürülen veriler için yeterli ince ayar veya özellik mühendisliği bile yapmaz. Örneğin, piyasa analizi aracısı yalnızca fiyatı ve işlem hacmini alır, işlem yürütme aracısı yalnızca arayüz parametrelerine göre emir verir ve risk kontrol aracısı yalnızca birkaç eşiğe göre alarm verir. Kendi görevlerini yerine getirirler, ancak çok modlu füzyondan ve aynı risk olayının veya piyasa sinyalinin derin anlamsal anlayışından yoksundurlar, bu da sistemin aşırı piyasa veya varlıklar arası fırsatlar karşısında hızlı bir şekilde kapsamlı ve çok açılı stratejiler oluşturamamasına neden olur.
Bu nedenle, Web3 AI'nın yüksek boyutlu bir alan elde etmesini gerektirmek, Agent protokolünün ilgili tüm API arayüzlerini geliştirmesini gerektirmekle eşdeğerdir, bu da orijinal modülerleştirme amacına aykırıdır ve Web3 AI'da küçük ve orta ölçekli işletmeler tarafından tanımlanan modüler çok modlu sistem incelemeye dayanamaz. Yüksek boyutlu mimari, uçtan uca birleşik eğitim veya işbirlikçi optimizasyon gerektirir: sinyal yakalamadan strateji hesaplamaya, yürütme ve risk kontrolüne kadar tüm bağlantılar aynı temsil ve kayıp işlevleri kümesini paylaşır. Web3 Aracısı'nın "eklenti olarak modül" fikri, parçalanmayı daha da kötüleştirdi—her aracı yükseltmesi, dağıtımı ve parametre ayarlaması, eşzamanlı olarak yinelenmesi zor olan kendi silosunda tamamlanır ve etkili bir merkezi izleme ve geri bildirim mekanizması yoktur, bu da artan bakım maliyetlerine ve sınırlı genel performansa neden olur.
Sektör engellerine sahip bir tam zincir akıllı ajanı gerçekleştirmek için, uçtan uca ortak modelleme, modüller arası birleşik gömme ve iş birliği ile eğitim ve dağıtım sistem mühendisliği gereklidir; ancak mevcut pazarda böyle bir acı noktası bulunmamaktadır, dolayısıyla pazar talebi de yoktur.
Düşük boyutlu uzayda, dikkat mekanizması hassas bir şekilde tasarlanamaz
Üst düzey multimodal modellerin sofistike dikkat mekanizmaları tasarlaması gerekir. "Dikkat mekanizması", esasen, hesaplama kaynaklarını dinamik olarak tahsis etmenin bir yoludur ve modelin, bir modal girdiyi işlerken en ilgili kısımlara seçici olarak "odaklanmasına" olanak tanır. En yaygın olanları, Transformer'daki öz dikkat ve çapraz dikkat mekanizmalarıdır: öz dikkat, modelin, metindeki her kelimenin diğer kelimelere olan önemi gibi bir dizideki öğeler arasındaki bağımlılıkları ölçmesini sağlar; Transattention, başka bir modalitenin kodunu çözerken veya oluştururken (örneğin, bir görüntünün özellik dizisi) hangi görüntü özelliklerinin "görüleceğine" karar vermek için bir modaliteden (örneğin metin) gelen bilgilere izin verir. Çok başlı dikkat ile model, daha karmaşık ve ayrıntılı ilişkilendirmeleri yakalamak için farklı alt alanlarda aynı anda birden çok hizalamayı öğrenebilir.
Dikkat mekanizmasının öncülü, çok modluluğun yüksek boyutlara sahip olması ve yüksek boyutlu uzayda, sofistike dikkat mekanizmasının en kısa sürede devasa yüksek boyutlu uzaydan çekirdek parçayı bulabilmesidir. Dikkat mekanizmasının bir rol oynayabilmesi için neden yüksek boyutlu bir alana yerleştirilmesi gerektiğini açıklamadan önce, dikkat mekanizmasını tasarlarken Transformer kod çözücü tarafından temsil edilen Web2 AI sürecini anlıyoruz. Temel fikir, dizileri (metin, görüntü yamaları, ses çerçeveleri) işlerken, modelin her bir öğeye dinamik olarak "dikkat ağırlıkları" ataması ve onlara körü körüne eşit davranmak yerine en alakalı bilgilere odaklanmasına izin vermesidir.
Basitçe söylemek gerekirse, dikkat mekanizmasını bir arabaya benzetirseniz, Query-Key-Value tasarlamak motoru tasarlamaktır. Q-K-V, anahtar bilgileri belirlememize yardımcı olan mekanizmadır, Sorgu, "ne arıyorum" ( ) sorguyu ifade eder, Anahtar, indeksi ( "hangi etikete sahibim" ), Değer, içeriği ifade eder (" Burada ne var" ). Çok modlu bir model için, modele girdiğiniz şey bir cümle, bir görüntü veya bir ses olabilir. Boyutsal uzayda ihtiyaç duyduğumuz içeriği elde etmek için, bu girdiler bir karakter, belirli bir piksel boyutunda küçük bir blok veya bir ses çerçevesi parçası gibi en küçük birimlere kesilir ve çok modlu model, dikkat hesaplaması için bu minimum birimler için Sorgu, Anahtar ve Değer üretir. Model belirli bir konumu işlediğinde, tüm konumların anahtarlarını karşılaştırmak, hangi etiketlerin mevcut gereksinimlere en iyi şekilde uyduğunu belirlemek için bu konumun sorgusunu kullanacak ve ardından eşleşme derecesine göre karşılık gelen konumdan değeri çıkaracak ve kombinasyonu önem derecesine göre ağırlıklandıracak ve son olarak yalnızca kendi bilgilerini içermekle kalmayıp aynı zamanda tüm dünyanın ilgili içeriğini de entegre eden yeni bir temsil elde edecektir. Bu şekilde, verimli ve doğru bilgi odağı elde etmek için her bir çıktı bağlama göre dinamik olarak "sorgulanabilir-alınabilir-entegre edilebilir".
Bu motorun temelinde, çeşitli parçalar eklenir ve "küresel etkileşim" ve "kontrol edilebilir karmaşıklık" akıllıca birleştirilir: ölçekli nokta çarpım sayısal kararlılık sağlar, çok kafalı paralel zengin ifade, konum kodlaması dizi sırasını korur, seyrek değişkenler verimliliği hesaba katar, artıklar ve normalleştirme kararlı eğitime yardımcı olur ve çapraz dikkat çoklu modaliteyi açar. Bu modüler, katman katman tasarımlar, Web2 AI'nın güçlü öğrenme yeteneklerine sahip olmasını ve çeşitli sıralı ve çok modlu görevleri yerine getirirken uygun fiyatlı bir bilgi işlem gücü aralığında verimli bir şekilde çalışmasını sağlar.
Modüler tabanlı Web3 yapay zeka neden birleşik dikkat planlaması sağlayamıyor? İlk olarak, dikkat mekanizması birleşik bir Sorgu-Anahtar-Değer uzayına dayanır ve nokta çarpımdan dinamik ağırlıkları hesaplamak için tüm giriş özelliklerinin aynı yüksek boyutlu vektör uzayına eşlenmesi gerekir. Bununla birlikte, bağımsız API'ler, birleşik bir gömme katmanı olmadan farklı biçimler ve farklı veri dağıtımları (fiyat, sipariş durumu, eşik alarmları) döndürür ve bir dizi etkileşimli Q/K/V oluşturamaz. İkinci olarak, çok başlı dikkat, farklı bilgi kaynaklarına aynı anda aynı düzeyde paralel olarak dikkat edilmesini sağlar ve daha sonra sonuçlar toplanır. Bununla birlikte, bağımsız API'ler genellikle "önce A'yı çağırır, sonra B'yi çağırır ve sonra C'yi çağırır" ve her adımın çıktısı yalnızca paralel ve çok kanallı dinamik ağırlıklandırma yeteneğinden yoksun olan bir sonraki modülün girdisidir ve doğal olarak dikkat mekanizmasında tüm pozisyonları veya modaliteleri aynı anda puanlama ve sentezlemenin ince programlamasını simüle edemez. Son olarak, gerçek bir dikkat mekanizması, genel bağlama dayalı olarak her bir öğeye dinamik olarak ağırlıklar atar; API modunda, modüller çağrıldıklarında yalnızca "bağımsız" bağlamı görebilir ve gerçek zamanlı olarak birbirleriyle paylaşılan merkezi bir bağlam yoktur, bu nedenle modüller arasında küresel korelasyon ve odaklanma elde etmek imkansızdır.
Bu nedenle, çeşitli işlevleri ayrık API'lere dönüştürmekle - ortak bir vektör temsili olmadan, paralel ağırlıklandırma ve toplama olmadan - Transformer gibi "birleşik dikkat planlaması" yeteneği inşa edilemez; bu, düşük performanslı bir motoru olan bir aracın ne kadar modifiye edilirse edilsin sınırını artırmanın zor olması gibidir.
Dağıtık modüler yapı, özelliklerin entegrasyonunun yüzeysel statik birleştirmede kalmasına neden oluyor.
"Özellik füzyonu", farklı modal işlemeyle elde edilen özellik vektörlerini, hizalama ve dikkat temelinde daha fazla birleştirmektir, böylece bunlar doğrudan alt görevler (sınıflandırma, geri alma, üretme vb.) tarafından kullanılabilir. Füzyon yöntemleri, birleştirme, ağırlıklı toplama kadar basit veya çift doğrusal havuzlama, tensör ayrıştırma ve hatta dinamik yönlendirme teknikleri kadar karmaşık olabilir. Daha üst düzey bir yaklaşım, çok katmanlı bir ağda alternatif hizalama, dikkat ve füzyon yapmak veya derin bilgi etkileşimi elde etmek için grafik sinir ağları (GNN'ler) aracılığıyla çapraz modal özellikler arasında daha esnek bir mesaj iletim yolu oluşturmaktır.
Açıkça söylemek gerekirse, Web3 AI elbette en basit birleştirme aşamasında kalmaktadır, çünkü dinamik özelliklerin birleştirilmesi için yüksek boyutlu uzay ve hassas dikkat mekanizması gerekmektedir. Bu ön koşullar sağlanmadığında, son aşamadaki özellik birleştirmesi de doğal olarak etkileyici bir performansa ulaşamaz.
Web2 AI, uçtan uca ortak eğitim eğilimindedir: görüntüler, metin ve ses gibi tüm modal özellikler aynı yüksek boyutlu alanda aynı anda işlenir ve model, dikkat katmanı ve füzyon katmanı aracılığıyla aşağı akış görev katmanı ile ortak optimizasyon yoluyla ileri ve geri yayılımda optimum füzyon ağırlıklarını ve etkileşim modlarını otomatik olarak öğrenir. Öte yandan Web3 AI, görüntü tanıma, pazar yakalama ve risk değerlendirmesi gibi çeşitli API'leri bağımsız aracılara kapsülleyerek ve ardından çıktıkları etiketleri, değerleri veya eşik alarmlarını basitçe bir araya getirerek daha ayrı modül ekleme kullanır ve birleşik bir eğitim hedefinden yoksun olan ve modüller arasında gradyan akışı olmayan ana mantık veya manuel olarak kapsamlı kararlar alır.
Web2 AI'da sistem, bağlama göre çeşitli özelliklerin önem puanlarını gerçek zamanlı olarak hesaplamak ve füzyon stratejisini dinamik olarak ayarlamak için dikkat mekanizmasına güvenir. Çok başlı dikkat, yerel ayrıntıları ve genel anlambilimi dikkate alarak aynı düzeyde paralel olarak birden çok farklı özellik etkileşim modelini de yakalayabilir. Öte yandan Web3 AI, genellikle "görüntü × 0,5 + metin × 0,3 + fiyat × 0,2" ağırlığını önceden sabitler veya sigortalanıp sigortalanmayacağını belirlemek için basit if/else kuralları kullanır veya hiç sigortalanmaz ve yalnızca esneklikten yoksun olan her modülün çıktısını birlikte sunar.
Web2 AI, tüm modal özellikleri birkaç bin boyuttan oluşan yüksek boyutlu bir uzaya eşler ve füzyon süreci yalnızca vektör birleştirme değil, aynı zamanda toplama ve çift doğrusal havuzlama gibi çeşitli üst düzey etkileşimlerdir - her boyut, modelin derin, karmaşık çapraz modal ilişkileri yakalamasını sağlayan gizli bir semantik'e karşılık gelme potansiyeline sahiptir. Buna karşılık, Web3 AI'nın aracı çıktısı genellikle yalnızca birkaç temel alan veya metrik içerir ve özellik boyutları son derece düşüktür, bu da "görüntünün içeriğinin neden metnin anlamıyla eşleştiği" veya "fiyat dalgalanmaları ile duyarlılık hareketleri arasındaki ince korelasyon" gibi ince bilgileri iletmeyi neredeyse imkansız hale getirir.
Web2 AI'de, aşağı akış görevlerinin kaybı, dikkat katmanı ve birleştirme katmanı aracılığıyla modelin çeşitli kısımlarına sürekli olarak geri bildirimde bulunarak, hangi özelliklerin güçlendirilmesi veya bastırılması gerektiğini otomatik olarak ayarlamakta ve kapalı döngü optimizasyonu oluşturmaktadır. Web3 AI'ye gelince, API çağrısı sonuçları raporlandıktan sonra genellikle insan veya dış süreçlere dayanarak değerlendirilmekte ve ayarlanmakta, otomatik bir uçtan uca geri bildirim eksikliği nedeniyle birleştirme stratejilerinin çevrimiçi olarak iterasyon ve optimizasyonu zorlaşmaktadır.
AI sektöründeki engeller derinleşiyor, ancak acı noktalar henüz ortaya çıkmadı
Uçtan uca eğitimde modlar arası hizalamayı, gelişmiş dikkat hesaplamayı ve yüksek boyutlu özellik füzyonunu hesaba katma ihtiyacı nedeniyle, Web2 AI'nın çok modlu sistemi genellikle son derece büyük bir mühendislik projesidir. Yalnızca devasa, çeşitli ve iyi açıklamalı çapraz modal veri kümeleri gerektirmekle kalmaz, aynı zamanda binlerce GPU üzerinde haftalarca hatta aylarca eğitim gerektirir; Model mimarisi açısından, çeşitli en son ağ tasarım konseptlerini ve optimizasyon teknolojilerini entegre eder. Proje uygulaması açısından, ölçeklenebilir bir dağıtılmış eğitim platformu, izleme sistemi, model sürüm yönetimi ve dağıtım hattı oluşturmak da gereklidir. Algoritmaların araştırılması ve geliştirilmesinde, daha verimli dikkat varyantları, daha sağlam hizalama kayıpları ve daha hafif füzyon stratejileri üzerinde çalışmaya devam etmek gerekir. Bu tür tam bağlantılı, tam yığın sistematik çalışma, sermaye, veri, bilgi işlem gücü, yetenekler ve hatta organizasyonel işbirliği için son derece yüksek gereksinimlere sahiptir, bu nedenle güçlü bir endüstri engeli oluşturur ve aynı zamanda şu ana kadar birkaç önde gelen ekip tarafından yönetilen temel rekabet gücünü yaratmıştır.
Nisan ayında Çin yapay zeka uygulamalarını incelediğimde ve WEB3 yapay zekayı karşılaştırdığımda bir bakış açısından bahsetmiştim: güçlü engellere sahip sektörlerde Kripto atılımlar gerçekleştirebilir, bu da bazı endüstrilerin geleneksel pazarlarda çok olgunlaştığı anlamına gelir, ancak büyük acı noktaları vardır, yüksek olgunluk, benzer iş modellerine aşina yeterli kullanıcı olduğu anlamına gelir ve büyük acı noktaları, kullanıcıların yeni çözümler denemeye istekli olduğu, yani Kripto'yu kabul etme konusunda güçlü bir isteklilik olduğu anlamına gelir, her ikisi de vazgeçilmezdir, yani tam tersine, Geleneksel pazarda zaten çok olgunlaşmış bir sektör değilse, ancak çok büyük acı noktaları varsa, Kripto içinde kök salamayacak, hayatta kalmak için yer kalmayacak ve kullanıcıların bunu tam olarak anlama istekliliği çok düşük ve potansiyel üst sınırını anlamıyorlar.
WEB3 AI veya PMF bayrağı altındaki herhangi bir kripto ürününün, şehri kırsal kesimde kuşatma taktiği ile geliştirilmesi ve temelin sağlam olduğundan emin olmak için suyun marjinal konumda küçük ölçekte test edilmesi ve ardından çekirdek senaryonun, yani hedef şehrin ortaya çıkmasının beklenmesi gerekiyor. Web3 AI'nın özü ademi merkeziyetçilikte yatar ve evrim yolu, yüksek paralellik, düşük bağlantı ve heterojen bilgi işlem gücünün uyumluluğunda yansıtılır. Bu, Web3 yapay zekayı uç bilgi işlem gibi senaryolarda daha avantajlı hale getirir ve LoRA ince ayarı, davranışsal olarak hizalanmış eğitim sonrası görevler, kitle kaynaklı veri eğitimi ve açıklama, küçük temel model eğitimi ve uç cihaz işbirliği eğitimi gibi hafif yapılara, kolay paralelliğe ve teşvike sahip görevler için uygundur. Bu senaryoların ürün mimarisi basittir ve yol haritası esnek bir şekilde yinelenebilir. Ancak bu, fırsatın şimdi olduğu anlamına gelmez, çünkü WEB2 AI'nın engelleri daha yeni oluşmaya başladı, Deepseek'in ortaya çıkışı, önde gelen işletmelerin rekabeti olan çok modlu karmaşık görev AI'nın ilerlemesini teşvik etti ve WEB2 AI temettülerinin ortaya çıkışının erken aşaması, bence ancak WEB2 AI'nın temettüleri ortadan kalktığında, geride bıraktığı acı noktaları, tıpkı DeFi'nin orijinal doğuşu gibi ve zamanı gelmeden önce WEB3 AI'nın kesip atması için fırsatlar olduğunu düşünüyorum "Şehirleri çevreleyen kırsal alanlara" sahip olan anlaşmayı dikkatlice tanımlamamız, kenardan kesmek, önce gücün zayıf olduğu ve pazarın az sayıda köklü sahnesine sahip olduğu kırsal kesimde (veya küçük pazarda, küçük sahnede) sağlam bir yer edinmek ve yavaş yavaş kaynak ve deneyim biriktirmek gerekip gerekmediğini dikkatlice belirlememiz gerekiyor; Bu yapılamazsa, bu temelde 1 milyar dolarlık bir piyasa değeri elde etmek için PMF'ye güvenmek zordur ve bu tür projeler izleme listesinde olmayacaktır; WEB3 YAPAY ZEKA PROTOKOLÜNÜN TAMAMEN ESNEK OLMASI, FARKLI SENARYOLAR IÇIN ESNEK OLMASI, KIRSAL ALANLAR ARASINDA HIZLI HAREKET EDEBILMESI VE HEDEF ŞEHRE EN HIZLI ŞEKILDE YAKLAŞABILMESI GEREKIP GEREKMEDIĞINE DIKKAT ETMEMIZ GEREKIYOR.
Movemaker Hakkında
Movemaker, Aptos Vakfı tarafından yetkilendirilen ve Ankaa ve BlockBooster tarafından ortaklaşa başlatılan ve Aptos Çince konuşan topluluğun inşasını ve gelişimini teşvik etmeye odaklanan ilk resmi topluluk kuruluşudur. Aptos'un Çince konuşulan bölgedeki resmi temsilcisi olan Movemaker, geliştiricileri, kullanıcıları, sermayeyi ve birçok ekosistem ortağını birbirine bağlayarak çeşitli, açık ve müreffeh bir Aptos ekosistemi oluşturmaya kendini adamıştır.
Feragatname:
Bu makale/blog yalnızca bilgilendirme amaçlıdır ve yazarın kişisel görüşlerini temsil eder ve Movemaker'ın konumunu temsil etmek zorunda değildir. Bu makale şunları sağlamayı amaçlamamaktadır: (i) yatırım tavsiyesi veya yatırım tavsiyesi; dijital varlıkları satın almak, satmak veya elde tutmak için bir teklif veya talep (ii); veya finansal, muhasebe, hukuk veya vergi danışmanlığı (iii). Stabilcoinler ve NFT'ler de dahil olmak üzere dijital varlıkları tutmak son derece risklidir, fiyatı oldukça değişkendir ve hatta değersiz hale gelebilir. Kendi mali durumunuz ışığında Dijital Varlıkların alım satımının veya elde tutulmasının sizin için uygun olup olmadığını dikkatlice düşünmelisiniz. Özel durumunuz hakkında sorularınız varsa lütfen hukuk, vergi veya yatırım danışmanınıza danışın. Piyasa verileri ve varsa istatistikler de dahil olmak üzere bu makalede verilen bilgiler yalnızca genel bilgi amaçlıdır. Bu rakam ve grafiklerin hazırlanmasında makul özen gösterilmiştir, ancak bunlarda ifade edilen herhangi bir olgusal hata veya eksiklik için hiçbir sorumluluk kabul edilmez.