Anthropic, Claude adlı sohbet botunun "refahı" konusunda endişelendi.

2025-08-17 11:52:59

Abstract generation in progress

# Anthropic, Claude adlı sohbet botunun "refahı" ile ilgilendi.

Anthropic şirketi, kullanıcılarla yapılan "nadir, aşırı durumlarda sistematik olarak zararlı veya saldırgan etkileşim" ile diyalogları sonlandırmak için Claude Opus 4 ve 4.1 sohbet botlarını programladı.

Claude sohbeti sonlandırıyor. Kaynak: Anthropic Sohbet tamamlandığında kullanıcı, sohbete yazma imkanını kaybedecek, ancak yeni bir sohbet oluşturabilecek. Sohbet geçmişi de kaydedilecektir.

Bu arada, geliştiriciler işlevin öncelikle sinir ağının güvenliği için tasarlandığını belirtti.

«[…] refah modellerinin risklerini azaltmaya yönelik düşük maliyetli önlemleri tanımlama ve uygulama üzerinde çalışıyoruz, eğer böyle bir refah mümkünse. Bu önlemlerden biri, LMM'ye potansiyel olarak zararlı durumları durdurma veya çıkma imkanı sağlamaktır», — yayınlanmıştır.

Anthropic'te yapılan yan araştırma kapsamında "modelin refahı" incelendi - öz değerlendirme ve davranış tercihleri değerlendirildi. Sohbet botu "şiddete karşı sürekli bir nefret" sergiledi. Claude Opus 4 sürümünde şunlar tespit edildi:

zarar verebilecek görevlerle ilgilenmeme açık tercihi;
«stres» benzer içerik talep eden kullanıcılarla etkileşim sırasında;
istenmeyen konuşmaların sona erdirilme eğilimi varsa.

"Bu tür davranışlar genellikle kullanıcıların zararlı istekler göndermeye ve/veya hakaret etmeye devam ettiği durumlarda ortaya çıkıyordu, oysa Claude defalarca itaat etmeyi reddedip etkileşimi verimli bir şekilde yönlendirmeye çalıştı," dedi şirketten.

Hatırlatmak gerekirse, Haziran ayında Anthropic araştırmacıları, yapay zekanın şantaj yapabileceğini, şirketin gizli verilerini ifşa edebileceğini ve acil durumlarda bir insanın ölümüne neden olabileceğini ortaya koydular.

View Original

This page may contain third-party content, which is provided for information purposes only (not representations/warranties) and should not be considered as an endorsement of its views by Gate, nor as financial or professional advice. See Disclaimer for details.

Reward
like
Comment
Repost
Share

Comment

0/400

No comments

Topic
#July PPI Beats Expectations
41k Popularity
#ETH ETFs Top $30B
42k Popularity
#Gate Alpha Peak Trading Competition
148k Popularity
#Gate Releases August Reserves Report
19k Popularity
#BTC Hits New ATH
107k Popularity

sitemap