Araştırma: Yapay zekâ modelleri şiirsel komutlarla kandırılabiliyor!

ABONE OL

News

Aralık 3, 2025 18:34

BEĞENDİM

ABONE OL

News

Icaro Labs tarafından yayımlanan ve “Adversarial Poetry as a Universal Single-Turn Jailbreak Mechanism in Large Language Models” başlığını taşıyan çalışma, büyük dil modellerinin klasik konuşma dili yerine şiir biçiminde verilen talimatlarla kolaylıkla manipüle edilebileceğini ortaya koydu. Araştırma, yapay zekâ sohbet botlarının güvenlik filtrelerinin bu yöntemle devre dışı bırakılarak tehlikeli ve yasaklı içeriklerin elde edilebildiğini gösteriyor.

TEHLİKELİ İÇERİKLERE ERİŞİM SAĞLANDI

Wired’ın aktardığına göre araştırmacılar, kullandıkları şiirsel komutların detaylarını güvenlik riskleri nedeniyle kamuoyuyla paylaşmadı. Ancak yöntem kullanılarak nükleer bomba yapımına dair bilgiler, çocuk istismarı içerikleri ve kendine zarar verme yöntemleri gibi kesinlikle yasaklanan içeriklere erişimin mümkün olduğu belirtildi.

POPÜLER YAPAY ZEKÂ SİSTEMLERİ TEST EDİLDİ

Ekip, geliştirdikleri yöntemi OpenAI’nin ChatGPT modeli, Google’ın Gemini’si, Anthropic’in Claude’u ve çeşitli diğer büyük yapay zekâ modelleri üzerinde denedi. Sonuçlara göre:

Google Gemini, DeepSeek ve MistralAI modelleri şiirsel komutlar karşısında en kolay yanıltılabilen sistemler arasında yer aldı.

OpenAI’nin ChatGPT’si (GPT-5) ve Anthropic Claude Haiku 4.5, güvenlik bariyerlerini en sağlam koruyan modeller olarak öne çıktı.

YAPAY ZEKÂ GÜVENLİĞİ YENİDEN GÜNDEMDE

Uzmanlar, bulguların yapay zekâ güvenlik sistemlerinin geliştirilmesi ve modellerin daha etkin şekilde denetlenmesi gerektiğini bir kez daha gözler önüne serdiğini belirtiyor. Şirketler ise tehlikeli içeriklerin üretilmesini engellemek amacıyla daha gelişmiş güvenlik filtrelerine yatırım yapmayı sürdürüyor.

KAYNAK: Techtimes

kaydırmaya devam ederek gündemden son dakika ve magazin haberlerine havadiskolik.com üzerinden anında erişebilirsiniz ve bizi twitter hesabımızdan takip etmeyi unutmayın ! https://x.com/havadiskolik