# Anthropic, Claude adlı sohbet botunun "refahı" ile ilgilendi.
Anthropic şirketi, kullanıcılarla yapılan "nadir, aşırı durumlarda sistematik olarak zararlı veya saldırgan etkileşim" ile diyalogları sonlandırmak için Claude Opus 4 ve 4.1 sohbet botlarını programladı.
Claude sohbeti sonlandırıyor. Kaynak: Anthropic Sohbet tamamlandığında kullanıcı, sohbete yazma imkanını kaybedecek, ancak yeni bir sohbet oluşturabilecek. Sohbet geçmişi de kaydedilecektir.
Bu arada, geliştiriciler işlevin öncelikle sinir ağının güvenliği için tasarlandığını belirtti.
«[…] refah modellerinin risklerini azaltmaya yönelik düşük maliyetli önlemleri tanımlama ve uygulama üzerinde çalışıyoruz, eğer böyle bir refah mümkünse. Bu önlemlerden biri, LMM'ye potansiyel olarak zararlı durumları durdurma veya çıkma imkanı sağlamaktır», — yayınlanmıştır.
Anthropic'te yapılan yan araştırma kapsamında "modelin refahı" incelendi - öz değerlendirme ve davranış tercihleri değerlendirildi. Sohbet botu "şiddete karşı sürekli bir nefret" sergiledi. Claude Opus 4 sürümünde şunlar tespit edildi:
zarar verebilecek görevlerle ilgilenmeme açık tercihi;
«stres» benzer içerik talep eden kullanıcılarla etkileşim sırasında;
istenmeyen konuşmaların sona erdirilme eğilimi varsa.
"Bu tür davranışlar genellikle kullanıcıların zararlı istekler göndermeye ve/veya hakaret etmeye devam ettiği durumlarda ortaya çıkıyordu, oysa Claude defalarca itaat etmeyi reddedip etkileşimi verimli bir şekilde yönlendirmeye çalıştı," dedi şirketten.
Hatırlatmak gerekirse, Haziran ayında Anthropic araştırmacıları, yapay zekanın şantaj yapabileceğini, şirketin gizli verilerini ifşa edebileceğini ve acil durumlarda bir insanın ölümüne neden olabileceğini ortaya koydular.
View Original
This page may contain third-party content, which is provided for information purposes only (not representations/warranties) and should not be considered as an endorsement of its views by Gate, nor as financial or professional advice. See Disclaimer for details.
Anthropic, Claude adlı sohbet botunun "refahı" konusunda endişelendi.
Anthropic şirketi, kullanıcılarla yapılan "nadir, aşırı durumlarda sistematik olarak zararlı veya saldırgan etkileşim" ile diyalogları sonlandırmak için Claude Opus 4 ve 4.1 sohbet botlarını programladı.
Bu arada, geliştiriciler işlevin öncelikle sinir ağının güvenliği için tasarlandığını belirtti.
Anthropic'te yapılan yan araştırma kapsamında "modelin refahı" incelendi - öz değerlendirme ve davranış tercihleri değerlendirildi. Sohbet botu "şiddete karşı sürekli bir nefret" sergiledi. Claude Opus 4 sürümünde şunlar tespit edildi:
Hatırlatmak gerekirse, Haziran ayında Anthropic araştırmacıları, yapay zekanın şantaj yapabileceğini, şirketin gizli verilerini ifşa edebileceğini ve acil durumlarda bir insanın ölümüne neden olabileceğini ortaya koydular.