Araştırmacılar, OpenAI’ın ChatGPT’si ve Google’ın Gemini’ı gibi yapay zeka modellerinin, eğitim verilerine yalnızca küçük bir bozulmuş veri örneği eklenerek “zehirlenebileceği” uyarısını yaptı.
Birleşik Krallık Yapay Zeka Güvenlik Enstitüsü, Alan Turing Enstitüsü ve yapay zeka firması Anthropic’in ortak yürüttüğü çalışma, 250 kadar az sayıda belgenin büyük dil modellerinin (LLM’ler) anlamsız metinler üretmesine yol açan bir “arka kapı” zafiyeti oluşturabileceğini ortaya koydu.
Independent Türkçe’de yer aldığı gibi bu açık özellikle endişe verici çünkü en popüler LLM’ler, kişisel internet siteleri ve blog yazıları da dahil internetteki herkese açık metinlerle önceden eğitiliyor. Bu da herhangi birinin yapay zeka modelinin eğitim verilerine dahil olabilecek içerik üretmesini mümkün kılıyor.
Anthropic, konuyu detaylandıran blog yazısında “Kötü niyetli aktörler, zehirlenme diye bilinen süreçte modelin istenmeyen veya tehlikeli davranışları öğrenmesini sağlamak için bu yayınlara belirli bir metin enjekte edebilir” dedi.

Arka kapı eklemek de bu saldırı türünden. Arka kapılar, modelden normalde gizli kalacak belirli bir davranışı tetikleyen özel ifadelerdir. Örneğin bir saldırgan komut isteminde olduğu gibi rasgele bir tetikleyici ifade içerdiğinde LLM’ler hassas verileri dışarı sızdıracak şekilde zehirlenebilir.
Bulgular yapay zeka güvenliğine dair endişelere yol açarken araştırmacılar, bunun teknolojinin hassas uygulamalarda kullanılma potansiyelini sınırladığını söylüyor.
Alan Turing Enstitüsü’nden Dr. Vasilios Mavroudis ve Dr. Chris Hicks, “Sonuçlarımız şaşırtıcı ve endişe vericiydi: Bir LLM’yi zehirlemek için gereken kötü niyetli belge sayısı (yaklaşık 250), modelin veya eğitim verilerinin boyutundan bağımsız olarak neredeyse sabitti” diye yazdı.
Başka bir deyişle, veri zehirleme saldırıları daha önce sanılandan daha uygulanabilir olabilir. Bir saldırgan için örneğin 250 zehirli Wikipedia makalesi yaratmak nispeten kolay olacaktır.
Riskler, “Poisoning attacks on LLMs require a near-constant number of poison samples” (LLM’lere yönelik zehirleme saldırıları neredeyse sabit sayıda zehir örneği gerektiriyor) başlıklı, hakem kontrolünden geçmemiş makalede detaylandırıldı.
The Independent yorum için Google ve OpenAI’la iletişime geçti.
kaydırmaya devam ederek gündemden son dakika ve magazin haberlerine havadiskolik.com üzerinden anında erişebilirsiniz ve bizi twitter hesabımızdan takip etmeyi unutmayın ! https://x.com/havadiskolik
SEKTÖREL
1 gün önceSEKTÖREL
2 gün önceGÜNDEM
3 gün önceGÜNDEM
3 gün önceSEKTÖREL
10 gün önce
1
Fatura kabartan zararlı Android uygulamaları tespit edildi
823 kez okundu
2
Bilim insanları, uzayda yer çekimi sorununu çözmek istiyor
710 kez okundu
3
Roscosmos Başkanı Dmitry Rogozin görevden alındı
698 kez okundu
4
NFT’nin Türkçe karşılığı belli oldu
371 kez okundu
5
Google’dan eski PC’leri hızlandıran işletim sistemi: ChromeOS Flex
338 kez okundu