Anthropic, Claude adlı sohbet botunun "refahı" konusunda endişelendi.

robot
Abstract generation in progress

yapay zeka girişimi Anthropic AI# Anthropic, Claude adlı sohbet botunun "refahı" ile ilgilendi.

Anthropic şirketi, kullanıcılarla yapılan "nadir, aşırı durumlarda sistematik olarak zararlı veya saldırgan etkileşim" ile diyalogları sonlandırmak için Claude Opus 4 ve 4.1 sohbet botlarını programladı.

Claude sohbeti sonlandırıyor. Kaynak: Anthropic Sohbet tamamlandığında kullanıcı, sohbete yazma imkanını kaybedecek, ancak yeni bir sohbet oluşturabilecek. Sohbet geçmişi de kaydedilecektir.

Bu arada, geliştiriciler işlevin öncelikle sinir ağının güvenliği için tasarlandığını belirtti.

«[…] refah modellerinin risklerini azaltmaya yönelik düşük maliyetli önlemleri tanımlama ve uygulama üzerinde çalışıyoruz, eğer böyle bir refah mümkünse. Bu önlemlerden biri, LMM'ye potansiyel olarak zararlı durumları durdurma veya çıkma imkanı sağlamaktır», — yayınlanmıştır.

Anthropic'te yapılan yan araştırma kapsamında "modelin refahı" incelendi - öz değerlendirme ve davranış tercihleri değerlendirildi. Sohbet botu "şiddete karşı sürekli bir nefret" sergiledi. Claude Opus 4 sürümünde şunlar tespit edildi:

  • zarar verebilecek görevlerle ilgilenmeme açık tercihi;
  • «stres» benzer içerik talep eden kullanıcılarla etkileşim sırasında;
  • istenmeyen konuşmaların sona erdirilme eğilimi varsa.

"Bu tür davranışlar genellikle kullanıcıların zararlı istekler göndermeye ve/veya hakaret etmeye devam ettiği durumlarda ortaya çıkıyordu, oysa Claude defalarca itaat etmeyi reddedip etkileşimi verimli bir şekilde yönlendirmeye çalıştı," dedi şirketten.

Hatırlatmak gerekirse, Haziran ayında Anthropic araştırmacıları, yapay zekanın şantaj yapabileceğini, şirketin gizli verilerini ifşa edebileceğini ve acil durumlarda bir insanın ölümüne neden olabileceğini ortaya koydular.

View Original
This page may contain third-party content, which is provided for information purposes only (not representations/warranties) and should not be considered as an endorsement of its views by Gate, nor as financial or professional advice. See Disclaimer for details.
  • Reward
  • Comment
  • Repost
  • Share
Comment
0/400
No comments
Trade Crypto Anywhere Anytime
qrCode
Scan to download Gate app
Community
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)