Yapay zekâ ile üretilen bilgiler kusursuz değildir. Hatta çoğu zaman sandığımız kadar sağlam da değildir. Yanlış yapabilir, eksik bırakabilir. Daha önemlisi, eksik bıraktığını kabul edemez.
Boşluk gördüğünde onu doldurur. İlgili, ilintili, örüntülü gibi ifadelerle süslenmiş olabilir ama adı konulduğunda yapılan şey uydurmadır.
Bugün iyimser ya da kötümser bir tahminle, bir yapay zekâ çıktısında yaklaşık yüzde 10 civarında bir uydurma payı olduğunu varsayalım. Bu bilgi bir insanın eline geçtiğinde mesele büyümez. İnsan aklı şüphe eder, kontrol eder, düzeltir ya da kullanmaz. Bir süzgeç vardır.
Sorun, bu bilgiyi bir başka yapay zekâ kullandığında başlar.
Diyelim ki ikinci bir model yeni bir içerik üretirken 10 farklı kaynaktan yararlanıyor. Bu kaynaklardan yalnızca biri daha önce bir yapay zekâ tarafından üretilmiş ve dolaşıma girmiş olsun. İlk yüzde 10’luk uydurma, ikinci metne en az yüzde 1 olarak sızar. Buna ikinci modelin kendi üretimindeki yaklaşık yüzde 10’luk sapmayı eklediğinizde oran yüzde 11’e çıkar.
Üçüncü model devreye girdiğinde tablo daha da bulanır. Kendi yüzde 10’u, ilk kaynaktan gelen yüzde 1, ikinci kaynaktan gelen yüzde 1,1… Uydurma oranı yüzde 12,1 olur. Dördüncüde 10 artı 1 artı 1,1 artı 1,21 derken yüzde 13,32’ye ulaşır. Beşincide yüzde 14,63. Hesap ilerledikçe rakamlar da büyür. Onuncu üretimde yüzde 23,58. On beşincide yüzde 37,97. Yirmincide yüzde 61,16. Yirmi beşinci nesilde yüzde 98,5.
Bileşik faiz gibi işler bu süreç. Hata da faiz gibi katlanır.
İşte buna yapay zekâ yamyamlığı deniyor.
Son yıllarda bu kavram hem araştırmacılar hem sektör tarafından sıkça dile getiriliyor. Yeni nesil büyük modeller eğitilirken internetten toplanan veriler kullanılıyor. Fakat internet artık eski internet değil. Makalelerin, cevapların, kodların, sosyal medya içeriklerinin önemli bir bölümü başka yapay zekâların ürünü. Yani sistem kendi türünün ürettiklerini yiyerek besleniyor.
Bu döngü birkaç nesil devam ettiğinde model collapse denilen bozunma süreci başlıyor. Gerçek dünyanın nadir, köşede kalmış, düşük olasılıklı verileri silinmeye başlıyor. Çıktılar giderek birbirine benziyor. Daha tekdüze, daha klişe, daha yüzeysel. İlk aşamada kültürel çeşitlilik kayboluyor. İlerleyen aşamada anlamın kendisi zayıflıyor.
Her yeni model, öncekinin hatalarını devralıyor. Üstüne kendi hatalarını ekliyor. Birikim sessiz ama acımasız. Başlangıçta yüzde 10 gibi görünen bir sapma, 20–25 nesil sonra teorik olarak yüzde 90’ın üzerine çıkabiliyor. Matematiksel hesaplar ve deneysel çalışmalar bu ihtimali gösteriyor.
Bu yüzden birçok şirket artık sentetik veriyi dikkatle filtreliyor. Yapay üretim her haliyle ham madde kabul edilmiyor. Kalite seçiliyor, insan denetimi devreye sokuluyor, mümkün olduğunca insan tarafından üretilmiş ve doğrulanmış taze veri aranıyor. İnternet yapay içerikle doldukça “temiz insan verisi” daha da kıymetli hale geliyor.
Yapay zekâ güçlü bir araç. Fakat kendi çıktılarıyla beslenip kendi hatalarını çoğaltmaya başladığında ortaya tuhaf bir döngü çıkıyor. Kendi kuyruğunu yiyen bir sistem gibi. Bu döngü kırılmazsa bilginin kalitesi uzun vadede ciddi biçimde düşebilir. Bugün verilen mücadele tam olarak bu riski kontrol altında tutma çabasıdır.