Dev teknoloji firmaları üretken yapay zeka modellerini eğitmek amacıyla veri toplama yarışında

Google, Meta ve Microsoft destekli OpenAI gibi teknoloji devleri başlangıçta ChatGPT gibi insan yaratıcılığını taklit edebilen üretken yapay zeka modellerini eğitmek için internetten ücretsiz olarak toplanan veri yığınlarını kullanmıştı.

Photobucket, 2000'li yılların başında dünyanın bir numaralı görsel sitesiydi. Myspace ve Friendster gibi bir zamanların popüler hizmetlerinin medya omurgası olan site, 70 milyon kullanıcıya sahipti ve ABD çevrimiçi fotoğraf pazarının neredeyse yarısını oluşturuyordu.

Analitik internet veri izleme şirketi Similarweb'e göre bugün Photobucket'ı hala kullananların sayısı sadece 2 milyon. Ancak üretken yapay zeka devrimi, Photobucket’a yeni bir soluk getirebilir.

Colorado'da 40 çalışanı bulunan şirketi yöneten CEO Ted Leonard, Reuters haber ajansına verdiği demeçte, Photobucket'ın 13 milyar fotoğraf ve videosunu, üretken yapay zeka modellerini eğitmek için kullanılmak üzere ruhsatlandırmak amacıyla birden fazla teknoloji şirketiyle görüştüğünü söyledi.

Leonard, fotoğraf başına 5 sent ile 1 dolar arasında, video başına ise 1 dolardan fazla fiyatlandırma yaparak görüştüğünü, fiyatların hem alıcıya hem de aranan görüntü türlerine göre büyük ölçüde değiştiğini söyledi.

"Çok daha fazlasına ihtiyacımız var" diyen şirketlerle konuştuklarını belirten Leonard, bir alıcının bir milyardan fazla video istediğini, bunun da kendi platformunun sahip olduğundan daha fazla olduğunu söyledi.

Photobucket, ticari gizliliği gerekçe göstererek muhtemel müşterilerinin kimliğini açıklamayı reddetti.

Daha önce bildirilmeyen ve devam eden görüşmeler, şirketin milyarlarca dolar değerinde içeriğe sahip olabileceğini ve üretken yapay zeka teknolojisine hakim olma arzusuyla ortaya çıkan hareketli veri pazarına ilişkin ipuçları verebileceğini gösteriyor.

Google, Meta ve Microsoft destekli OpenAI gibi teknoloji devleri başlangıçta ChatGPT gibi insan yaratıcılığını taklit edebilen üretken yapay zeka modellerini eğitmek için internetten ücretsiz olarak toplanan veri yığınlarını kullanmıştı.

Şirketler, bu uygulama nedeniyle bir dizi telif hakkı sahibinin açtığı davalarla karşı karşıya olmalarına rağmen, bunu yapmanın hem yasal hem de etik olduğunu ileri sürmüştü.

İlgili Haberler Musk'ın Grok-1.5 yapay zekalı sohbet robotu önümüzdeki hafta kullanıma sunulacak

Unutulan verilerin gizli ticareti

Bu teknoloji şirketleri aynı zamanda, ödeme duvarları ve giriş ekranları ardında saklı olan içerikler için sessizce ödeme yapıyor. Bu durum, sohbet kayıtlarından sosyal medya uygulamalarında uzun süredir unutulmuş kişisel fotoğraflara kadar her türlü verinin gizli ticaretinin yapılmasına yol açıyor.

Hukuk firması Klaris Law'dan Edward Klaris, yapay zeka eğitimi için fotoğraf, film ve kitap arşivlerini ruhsatlamak üzere içerik sahiplerine her biri on milyonlarca dolar değerinde anlaşmalar konusunda danışmanlık yapıyor. Klaris, "Şu anda özel koleksiyonları olan telif hakkı sahiplerine yönelmek için bir telaş var" diyor.

Reuters, aralarında ilgili şirketlerin mevcut ve eski yöneticileri, avukatlar ve danışmanların da bulunduğu, yapay zeka veri anlaşmaları hakkında bilgi sahibi 30'dan fazla kişiyle görüşerek bu yeni gelişen pazarın ilk derinlemesine incelemesini yaptı.

Haber ajansı böylelikle satın alınan içerik türlerini, fiyatları ve kişisel verilerin sahiplerinin bilgisi veya açık rızası olmadan yapay zeka modellerine girme riskiyle ilgili ortaya çıkan endişeleri detaylandırdı.

OpenAI, Google, Meta, Microsoft, Apple ve Amazon, Reuters’ın bu değerlendirmesi için belirli veri anlaşmaları ve tartışmaları hakkında yorum yapmayı reddetti.

Ancak Microsoft ve Google, Reuters'e veri gizliliği hükümlerini içeren tedarikçi davranış kurallarına atıfta bulundu.

Google, bir ihlal tespit etmesi halinde bir tedarikçiyle olan anlaşmasını "feshetmeye kadar varabilecek şekilde derhal harekete geçeceğini" de kaydetti.

Birçok büyük pazar araştırması firması, şirketlerin genellikle anlaşmalarını açıklamadığı kapalı yapay zeka veri pazarının büyüklüğünü tahmin etmeye bile başlamadıklarını söylüyor.

Business Research Insights gibi bunu yapan araştırmacılar, pazarın şu anda kabaca 2,5 milyar dolar olduğunu ve on yıl içinde 30 milyar dolara yakın büyüyebileceğini tahmin ediyor.

Üretken veriye hücum

Büyük üretken yapay zeka "temel" modellerinin üreticileri, yoğun bilgi işlem gücü gerektiren ve genellikle tamamlanması aylar süren "eğitim" olarak bilinen bir süreç olan sistemlerine besledikleri büyük miktarda içerikler hakkında, hesap vermek için artan baskıyla karşı karşıya.

Teknoloji şirketleri, "kamuya açık" olarak tanımladıkları kar amacı gütmeyen Common Crawl tarafından sağlananlar gibi ücretsiz toplanmış internet sayfası verilerinden oluşan geniş arşivleri kullanamazlarsa, teknolojinin maliyet açısından elverişsiz olacağını söylüyor.

Ancak bu yaklaşımları telif hakkı davalarına ve yasal düzenlemelere yol açtı.

Buna karşılık, yapay zeka modeli üreticileri, hem içerik sahipleriyle anlaşmalar yaparak hem de talebi karşılamak için ortaya çıkan veri tüccarları aracılığıyla risklerden korunmaya çalışarak veri tedarik zincirlerini güvence altına almaya başladılar.

Örneğin, ChatGPT'nin 2022'nin sonlarında piyasaya sürülmesinden sonraki aylarda Meta, Google, Amazon ve Apple gibi şirketler, görsel sağlayıcısı Shutterstock ile kütüphanesindeki yüz milyonlarca görsel, video ve müzik dosyasını eğitim için kullanmak üzere anlaşmalar yaptı.

Shutterstock'un Mali İşler Müdürü Jarrod Yahes Reuters'a yaptığı açıklamada, büyük teknoloji firmalarıyla yapılan anlaşmaların başlangıçta 25 milyon ila 50 milyon dolar arasında değiştiğini, ancak daha sonra çoğunun arttırıldığını söyledi. Yahes, daha küçük teknoloji oyuncularının da aynı yolu izlediğini ve son iki ayda yeni bir "faaliyet furyası" yaşandığını kaydetti.

Yahes bireysel sözleşmeler hakkında yorum yapmayı reddetti. Apple anlaşması ve diğer anlaşmaların büyüklüğü daha önce kamuoyuna açıklanmamıştı.

Podcast'ler, kısa biçimli videolar ve dijital asistanlarla etkileşimler gibi gerçek dünya içeriğinin haklarını güvence altına alan ve aynı zamanda sıfırdan özel görseller ve ses örnekleri üretmek için kısa süreli sözleşmeli çalışanlardan oluşan ağlar kuran, yapay zeka veri firmaları endüstrisi de ortaya çıkıyor.

Reuters'a konuşan Seattle merkezli Defined.ai'ın kurucusu CEO Daniela Braga; Google, Meta, Apple, Amazon ve Microsoft gibi çeşitli şirketlere veri lisansladıklarını söyledi.

Ücretler alıcıya ve içerik türüne göre değişiyor. Ancak Braga, şirketlerin genellikle görüntü başına 1 ila 2 dolar, kısa video başına 2 ila 4 dolar ve daha uzun filmlerin saati başına 100 ila 300 dolar ödemeye istekli olduklarını, metin için piyasa fiyatının kelime başına 0,001 dolar olduğunu anlattı.

Braga, en hassas işlem gerektiren müstehcen görüntülerin de 5 ila 7 dolar arasında olduğunu kaydetti.

Defined.ai'nin bu kazançları içerik sağlayıcılarla paylaştığını söyleyen Braga, veri kümelerini "etik kaynaklı" olarak pazarladıklarını, çünkü verilerini kullandıkları kişilerden onay aldıklarını ve kişisel olarak tanımlayıcı bilgileri çıkardıklarını da sözlerine ekledi.

Firmanın tedarikçilerinden biri olan Brezilya merkezli bir girişimci, kaynak sağladığı fotoğraf, podcast ve tıbbi verilerin sahiplerine toplam anlaşma tutarının yaklaşık yüzde 20 ila 30'unu ödediğini söyledi.

Your browser doesn’t support HTML5

Devletler yapay zekanın kurallarını belirlemek için ne yapıyor?

Aşırı şiddet içeren görüntülerin tedariki

Şirketinin adının açıklanmaması koşuluyla konuşan tedarikçi, portföyündeki en pahalı görüntülerin, teknoloji şirketleri tarafından yasaklanan aşırı şiddet gibi içerikleri engelleyen yapay zeka sistemlerini eğitmek için kullanılanlar olduğunu söyledi.

Tedarikçi, bu talepleri yerine getirmek için, genellikle Güney Amerika ve Afrika'da bu görüntülerin dağıtımının daha yaygın olduğu yerlerde, çoğunlukla polis, serbest foto muhabirleri ve tıp öğrencilerinden suç mahalli, çatışma ve ameliyat görüntüleri elde ettiğini söyledi.

Tedarikçi Ekim ayında savaşın başlamasından bu yana Gazze'deki serbest fotoğrafçılardan ve çatışmaların başlangıcında İsrail'den bazı görüntüler aldığını söyledi.

Tedarikçi, şirketinin, rahatsız edici olan görüntüleri anonimleştirmek ve açıklama eklemek için kanlı görüntülere alışkın hemşireleri işe aldığını da anlattı.