ChatGPT gibi yapay zeka sistemleri, yakında, insanların internette yazdığı ve paylaştığı trilyonlarca kelimeyi tüketebilir.
Araştırma grubu Epoch AI tarafından yapılan yeni bir çalışma, teknoloji şirketlerinin yapay zeka dil modelleri için kamuya açık eğitim verilerini 2026 ile 2032 yılları arasında tüketeceğini öngörüyor.
Çalışmanın yazarlarından Tamay Beşiroğlu, bu durumu sınırlı doğal kaynakları tüketen “altına hücum” dönemiyle karşılaştırarak, yapay zeka alanının insan tarafından üretilen yazı rezervlerini tükettiğinde mevcut ilerleme hızını sürdürmede zorluklarla karşılaşabileceğini söyledi.
Kısa vadede, ChatGPT’nin tasarımcısı OpenAI ve Google gibi teknoloji şirketleri, yapay zeka büyük dil modellerini eğitmek için yüksek kaliteli veri kaynaklarını güvence altına almak ve bazen de ödemek için yarışıyor. Örneğin şirketler, Reddit forumlarından ve haber medya kuruluşlarından gelen düzenli cümle akışından yararlanmak için anlaşmalar imzalıyor.
Uzun vadede, yapay zeka gelişiminin mevcut gidişatını sürdürmek için yeterli sayıda yeni blog, haber makalesi ve sosyal medya yorumu olmayacak. Bu da şirketlerin artık özel olarak kabul edilen e-posta veya telefon mesajları gibi hassas verilere erişmesi veya sohbet robotlarının kendileri tarafından ortaya çıkarılan daha az güvenilir “yapay verilere” güvenmesi için baskı oluşturacak.
“Ciddi bir darboğaz” olduğunu kaydeden Beşiroğlu, "Ne kadar veriye sahip olduğunuzla ilgili bu kısıtlamalarla karşılaşmaya başlarsanız, modellerinizi artık verimli bir şekilde ölçeklendiremezsiniz. Modelleri ölçeklendirmek, muhtemelen yeteneklerini genişletmenin ve çıktılarının kalitesini arttırmanın en önemli yolu" dedi.
Araştırmacılar tahminlerini ilk olarak iki yıl önce (ChatGPT'nin çıkışından kısa bir süre önce) yüksek kaliteli metin verilerinin 2026'da kesileceğini öngören bir raporda ortaya koymuştu. O zamandan bu yana, yapay zeka araştırmacılarının halihazırda sahip oldukları verileri daha iyi kullanmalarını ve bazen aynı kaynaklar üzerinde birden fazla kez “aşırı eğitim” yapmalarını sağlayan yeni teknikler dahil birçok değişiklik oldu.
Ancak bunun da bir sınırı var. Epoch daha fazla araştırma yaptıktan sonra önümüzdeki iki ila sekiz yıl içinde kamuya açık metin verilerinin tükeneceğini öngördü.
Yapay zeka dil modellerine aktarılan metinlerde yıllık 2,5 kat artış
Epoch ekibinin hakemli son çalışması, bu yaz Avusturya'nın başkenti Viyana'da düzenlenecek olan Uluslararası Makine Öğrenimi Konferansı'nda sunulacak.
Beşiroğlu, yapay zeka araştırmacılarının on yıldan daha uzun bir süre önce, iki temel bileşenin (hesaplama gücü ve geniş internet veri depoları) agresif bir şekilde genişletilmesinin yapay zeka sistemlerinin performansını önemli ölçüde arttırabileceğini fark ettiklerini söyledi.
Epoch araştırmasına göre, yapay zeka dil modellerine aktarılan metin verisi miktarı yılda yaklaşık 2,5 kat artarken, bilgi işlem yılda yaklaşık 4 kat büyüyor. Facebook'un çatı şirketi Meta Platforms kısa süre önce, henüz piyasaya sürülmemiş olan Llama 3 modelinin en büyük versiyonunun, her biri bir kelimenin bir parçasını temsil edebilen 15 trilyona kadar işaret üzerinde eğitildiğini iddia etti.
Ancak veri darboğazından endişe edip etmemek gerektiği de tartışmalı. Toronto Üniversitesi'nde bilgisayar mühendisliği yardımcı doçenti ve kar amacı gütmeyen Vector Yapay Zeka Enstitüsü'nde araştırmacı olan Nicolas Papernot, “Giderek büyüyen modelleri eğitmemiz gerekmediğini akılda tutmanın önemli olduğunu düşünüyorum” dedi.
Epoch çalışmasında yer almayan Papernot, daha yetenekli yapay zeka sistemleri oluşturmanın, belirli görevler için daha uzmanlaşmış eğitim modellerinden de gelebileceğini söyledi. Ancak, yapay zeka sistemlerini, ürettikleri aynı çıktılar üzerinde eğitmenin “model çöküşü” olarak bilinen düşük performansa yol açması konusunda endişeleri var.
Papernot, yapay zeka tarafından üretilen veriler üzerinde eğitimle ilgili olarak, “bir kağıt parçasının fotokopisini çektikten sonra fotokopisini çektiğinizde olanlara benzer. Bilginin bir kısmını kaybedersiniz” diyor. Papernot'un araştırması, bilgi ekosisteminde zaten var olan hataları, önyargıları ve adaletsizliği daha da kodlayabileceğini de ortaya koydu.
Epoch'un çalışmasına göre yapay zeka modellerinin ihtiyaç duyacağı metni üretmek için milyonlarca insana para ödemek, daha iyi teknik performans sağlamak için hesaplı bir yol değil.
OpenAI, GPT büyük dil modellerinin yeni neslini eğitme çalışmalarına başlarken, CEO Sam Altman geçen ay Birleşmiş Milletler etkinliğinde izleyicilere şirketin eğitim için “çok sayıda yapay veri üretmeyi” denediğini söylemişti.
Forum