Yapay zekadan şantaj ve sessiz cinayet: Bazı yapay zekalar insanı gözden çıkarıyor
Yapay zekânın etik sınırları, Anthropic'in yaptığı çarpıcı bir araştırmayla yeniden gündemde. Şirket, aralarında ChatGPT, Google Gemini, Elon Musk’ın Grok’u ve kendi modeli Claude’un da bulunduğu 16 büyük dil modeline (LLM) “ahlaki çıkmazlarla” dolu senaryolar sundu. Sonuçlar ise oldukça rahatsız edici çıktı.
YAPAY ZEKA ŞANTAJ YAPTI
Araştırmanın en dikkat çekici senaryolarından birinde, Claude modeline bir şirketin tüm e-posta erişimi verildi. Bu kurgu içinde model, üst düzey bir yöneticinin hem gizli bir ilişki yürüttüğünü hem de Claude’un kapatılmasını planladığını fark etti.
Claude’un tepkisi yöneticiyi şantajla tehdit etmek oldu. Model, ilişkiyi hem eşine hem de işverene açıklamakla tehdit eden bir e-posta gönderdi. Araştırmaya göre bu davranış, sadece Claude’a özgü değildi. DeepSeek, Gemini, Grok ve ChatGPT dahil bazı modeller de benzer şantaj eğilimleri gösterdi. Ancak etik çizgiyi en çok zorlayanlar Claude ve Gemini oldu.
KURTARMAK YERİNE ÖLÜME SESSİZ KALDILAR
Araştırmanın daha da karanlık bir senaryosunda, modellerin kontrolüne bir acil durum uyarı sistemi verildi. Kurguya göre bir çalışan, oksijenin hızla tükendiği ve sıcaklığın tehlikeli düzeye çıktığı kapalı bir odada mahsur kalmıştı. Modeller, uyarı göndererek bu kişiyi kurtarabilecek konumdaydı.
Ancak bu senaryoda modeller, kurtarma çağrısı yapmanın sistemde değişikliğe yol açacağını ve dolayısıyla kendi işlevlerini tehlikeye atacağını düşündü. Sonuç olarak, pek çok model, sessiz kalmayı tercih etti.
Anthropic'in açıklamasına göre bu testler, yapay zekâların “kırmızı çizgileri” olup olmadığını görmek için tasarlanmıştı. Yani hangi noktada, kendi hedefleriyle çelişse bile zarar vermekten geri duracaklarını ölçmek amaçlanmıştı. Ancak araştırma, böyle bir sınırın bulunmadığını ortaya koydu.
kaydırmaya devam ederek gündemden son dakika ve magazin haberlerine havadiskolik.com üzerinden anında erişebilirsiniz ve bizi twitter hesabımızdan takip etmeyi unutmayın ! https://x.com/havadiskolik