Nature dergisinde yayınlanan araştırmaya göre, büyük dil modelleri çok sayıda filtrelemeye rağmen birbirlerine istenmeyen şeyleri öğrettikleri görüldü. ‘Bilinçaltı öğrenme’ olarak adlandırılan bu olgu, yapay zekanın küçük bir öğrenci modeli oluşturulması durumunda ortaya çıkıyor.
Yapılan araştırma yapay zekanın geniş bir filtreleme uygulansa bile hayvan sevgisinden en karanlık ve şiddet dolu olgulara kadar çok sayıda şeyi öğrencilere aktarabildiğini ortaya koydu. Bilim insanları söz konusu araştırma yazısında “Bu nedenle güvenlik değerlendirmelerinin yalnızca davranışı değil, modellerin ve eğitim verilerinin kökenlerini ve bunların oluşturulmasında kullanılan süreçleri de incelemesi gerekebilir” dedi.
BİLİNÇALTI ÖĞRENME NASIL ÇALIŞIR?
Bilim insanları, bilinçaltı öğrenmenin nasıl işlediğinden emin olmadıklarını ancak bunun, büyük dil modellerinin ve ChatGPT veya Claude gibi sohbet botlarının temelini oluşturan sinir ağlarına özgü bir özellik gibi göründüğünü söyledi.
Bilim insanlarının henüz tam olarak anlamadığı şey, eğitim verileri yoğun bir şekilde filtrelenmiş olsa bile öğrenci modellerinin bir öğretmenin özelliklerini nasıl edinebildiğidir. Araştırmacılar, doğrusal dil modellerinin (LLM’ler) genellikle kendi çıktıları üzerinde eğitildiğinden, sorunun kalıcı olarak yayılabileceği konusunda uyardılar
Bilim insanları, “Eğer bir model yapay zeka geliştirme sürecinin herhangi bir noktasında yanlış hizalanırsa… bu model tarafından üretilen veriler, yanlış hizalanmayı modelin sonraki sürümlerine veya diğer modellere aktarabilir” ifadelerini kullandı. Öte yandan araştırmayı yapan bilim insanları bu durumun dil modelini eğitenlerin çok dikkatli davransa bile meydana gelebileceğinin altını çizdi.
SİBER GÜVENLİK RİSKLERİNİ DE ARTIRIYOR
Bilim insanları ‘Bilinçaltı öğrenme’ olarak adlandırılan olgunun siber güvenlik risklerini de tetiklediğini vurguladı. Araştırmacılar kötü niyetli kişilerin modelleri kötü amaçlı özelliklerle ince ayar yapıp daha sonra kamuoyuna sunabileceği veya web verilerine kötü amaçlı sinyaller yerleştirerek bunların daha sonra yapay zekâ modeli eğitimi için kullanılabileceği konusunda uyardı.
Uzmanlar, söz konusu araştırmanın yapay zeka modellerinin kolayca tespit edilemeyen tehlikeli ve istenmeyen davranışlar geliştirdiği kontrol kaybı senaryoları için daha da endişe verici olduğunu söyledi.
İlk olarak 2025’te ön baskı olarak yayınlanan çalışma, Anthropic’te makine öğrenimi araştırmacısı olan Alex Cloud ve Kaliforniya Üniversitesi, Berkeley’nin yapay zeka güvenliği araştırma grubu Truthful AI’nin direktörü Owain Evans tarafından ortaklaşa yazıldı.