Gelecekte herkes sesini klonlayabilecek

0
23

Yapay zeka kullanarak sesinizi klonlamak hem sıkıcı hem de basittir: Neredeyse olgunlaşmış ve halka açılmaya hazır bir teknolojinin ayırt edici özellikleri.

Tek yapmanız gereken bir mikrofona 30 dakika kadar konuşmak, bir senaryoyu olabildiğince dikkatli bir şekilde okumak (benim durumumda: David Attenborough belgeselinden gelen ses). Titremelerinizi ve mırıldanmalarınızı yeniden kaydetmek için düzinelerce kez başlatıp durdurduktan sonra, ortaya çıkan ses dosyalarını işlenmek üzere göndereceksiniz ve birkaç saat içinde sesinizin bir kopyasının hazır ve beklemede olduğu söylenecek. Ardından, bir sohbet kutusuna istediğiniz herhangi bir şeyi yazabilirsiniz ve AI klonunuz, arkadaşlarınızı ve ailenizi bile kandırmak için gerçekçi ses ile en azından birkaç dakika boyunca size geri söyleyecektir. Böyle bir hizmetin var olduğu gerçeği birçokları için haber olabilir ve bu teknolojiye kolay erişimin yaratacağı etkiyi tam olarak değerlendirmeye başladığımıza inanmıyorum.

Ses klonları mükemmel değil ama hızla gelişiyorlar

Konuşma sentezi çalışmaları, makine öğrenimindeki gelişmeler sayesinde son yıllarda büyük ölçüde iyileşti. Daha önce, en gerçekçi sentetik sesler, bir insan seslendirme sanatçısının sesini kaydederek, konuşmalarını bileşen seslere bölerek ve bunları yeni kelimeler oluşturmak için bir fidye notundaki harfler gibi birleştirerek yaratılıyordu. Artık sinir ağları, sıfırdan konuşan birinin ham sesini oluşturmak için hedef seslerinin sıralanmamış verileri üzerinde eğitilebilir. Nihai sonuçlar, daha hızlı, daha kolay ve önyükleme yapmak için daha gerçekçi. Makineyi doğrudan çıkarırken kalite kesinlikle mükemmel değil (manuel ince ayar bunu iyileştirebilir), ancak yalnızca yakın gelecekte daha iyi hale gelecekler.

Bu klonları yapmak için özel bir sos yok, bu da düzinelerce girişimin zaten benzer hizmetler sunduğu anlamına geliyor. Yalnızca Google “AI ses sentezi” veya “AI ses derin sahtekarlıkları” ve Resemble.AI ve Respeecher gibi yalnızca konuşma sentezine odaklanan uzman mağazalardan temin edilebilen ve aynı zamanda daha büyük şirketlere entegre edilen teknolojinin ne kadar yaygın olduğunu göreceksiniz. Veritone (teknolojinin reklam repertuarının bir parçası olduğu) ve Descript (podcast’leri düzenlemek için yaptığı yazılımda kullanan) gibi platformlar.

Anthony Bourdain’in derin sesi tartışmalara neden oldu

Bu ses klonları geçmişte sadece bir yenilikti, bu Joe Rogan sahtekarlığı gibi tek seferlik sahte olarak göründüler, ancak ciddi projelerde kullanılmaya başlıyorlar. Temmuz ayında, şef Anthony Bourdain hakkında bir belgesel, yaratıcıların, Bourdain’in bir mektupta yazdığı “konuşan” satırların sesini oluşturmak için AI kullandıklarını açıklamasıyla tartışmalara yol açtı. (Özellikle, yaratıcılar varlığını ortaya çıkarana kadar çok az insan deepfake’i fark etti.) Ve Ağustos ayında, startup Sonantic, aktör Val Kilmer’in yapay zeka ses klonunu yarattığını duyurdu. gırtlak kanseri tedavisi hakkında. Bu örnekler aynı zamanda bu teknolojinin bazı sosyal ve etik boyutlarını da çerçeveliyor. Bourdain’in kullanım durumu birçok kişi tarafından sömürücü olarak nitelendirilirken (özellikle kullanımı filmde açıklanmadığı için), Kilmer’in çalışması genel olarak övüldü ve teknoloji, diğer çözümlerin sağlayamadığı şeyleri sağladığı için övüldü.

Ünlülerin seslerini klonlayarak ve kiralayarak gelirlerini en az çabayla artırmak isteyeceğini uman şirketlerle birlikte, ünlülerin ses klonlama uygulamaları önümüzdeki birkaç yıl içinde en çok öne çıkan uygulamalar olacak gibi görünüyor. Bir şirket olan Veritone, bu yılın başlarında böyle bir hizmet başlattı ve etkileyicilerin, sporcuların ve aktörlerin bir stüdyoya gitmek zorunda kalmadan onaylar ve radyo kimlikleri gibi şeyler için AI seslerini lisanslamasına izin vereceğini söyledi. Veritone Başkan Yardımcısı Sean King, “Bunun bir dizi farklı endüstri için ne anlama geldiği konusunda gerçekten heyecanlıyız çünkü birinin sesinin ve onu kullanabilmenin ve bunu genişletebilmenin en zor yanı kişinin zamanıdır,” Bir, The Vergecast’e söyledi. “Yaptığımız işte sınırlayıcı faktör bir kişi olur.”

Etkileyenler, aktörler ve ünlüler seslerini minimum çabayla kiralayabilirler.

Bu tür uygulamalar henüz yaygın değil (ya da yaygınsa çok konuşulmuyor), ancak ünlülerin para kazanması için bariz bir yol gibi görünüyor. Örneğin Bruce Willis, Rusya’daki cep telefonu reklamlarında görsel bir deepfake olarak kullanılması için resminin lisansını zaten aldı. Anlaşma, evden hiç çıkmadan para kazanmasını sağlarken, reklam şirketi sonsuz derecede dövülebilir bir oyuncu (ve özellikle, Willis’in çok daha genç bir versiyonu, Zor Ölüm günlerinden hemen sonra) alır. Bu tür görsel ve işitsel klonlar, ünlü işler için ekonominin ölçeklerini hızlandırabilir ve şöhretlerinden yararlanmalarına izin verebilir – kendilerinin bir simülakrını kiralamaktan mutlu oldukları sürece.

Burada ve şimdi, ses sentezi teknolojisi, ABD firması Descript tarafından oluşturulan aynı isimli podcast düzenleme yazılımı gibi araçlara zaten yerleştirildi. Şirketin “Overdub” özelliği, bir podcast yayıncısının seslerinin bir AI klonunu oluşturmasına olanak tanır, böylece yapımcılar seslerinde hızlı değişiklikler yapabilir ve programın transkripsiyona dayalı düzenlemesini tamamlayabilir. Descript CEO’su Andrew Mason’ın The Vergecast’e söylediği gibi: “Descript’teki kelimeleri silip onun sesi silmesini sağlayamazsınız, kelimeleri yazabilirsiniz ve bu sesinizde ses üretecektir.”

Podcast düzenleme yazılımı Descript, konuşma metni gibi düzenlemek için AI ses klonlarını kullanır. Resim: Açıklama

Descript’in Overdub özelliğini kendim denediğimde, kullanımı kesinlikle yeterince kolaydı – yukarıda bahsedildiği gibi, eğitim verilerini kaydetmek biraz angaryaydı. (Yapay zekayı göndermek için önceden kaydedilmiş çok sayıda sese sahip olan meslektaşım ve düzenli Verge podcast sunucusu Ashley Carman için çok daha kolaydı.) Overdub tarafından yapılan ses klonları kesinlikle kusursuz değil. Tonlarında tuhaf bir uğultu var ve dizeleri duygu ve vurgu ile gerçekten şarj etme yeteneğinden yoksunlar, ama aynı zamanda kesinlikle sizsiniz. Ses klonumu ilk kullandığımda gerçekten tekinsiz bir andı. Bu son derece kişisel şeyin – sesimin – teknoloji tarafından bu kadar hızlı ve kolay bir şekilde kopyalanabileceği hakkında hiçbir fikrim yoktu. Gelecekle buluşmak gibiydi ama aynı zamanda garip bir şekilde tanıdıktı. Sonuçta, hayat zaten dijital aynalarla dolu – çeşitli biçimlerde “sizi” somutlaştırması gereken avatarlar ve sosyal medya beslemeleriyle – öyleyse neden karışıma bir konuşma otomatı eklemiyorsunuz?

Sesimi klonlamak gelecekle buluşmak gibi geldi

Kendi sesinizin bir klonunu duymanın ilk şoku, insan seslerinin gereksiz olduğu anlamına gelmez. Ne münasebet. Küçük bir manuel düzenleme ile ses derin sahtekarlıklarının kalitesini kesinlikle iyileştirebilirsiniz, ancak otomatik formlarında, profesyonellerden aldığınız tonlama ve tonlama aralığının yakınında hiçbir yere ulaşamazlar. Ses sanatçısı ve anlatıcı Andia Winslow’un The Vergecast’e söylediği gibi, AI sesleri ezberci sesli çalışma için – dahili mesajlaşma sistemleri, otomatik kamu duyuruları ve benzerleri için – faydalı olabilirken, birçok kullanım durumunda insanlarla rekabet edemezler. Winslow, “Büyük şeyler, nefes ve yaşam gerektiren şeyler için bu şekilde gitmeyecek çünkü kısmen bu markalar işe aldıkları ünlülerle çalışmaktan hoşlanıyor,” dedi Winslow.

Ancak bu teknoloji genel halk için ne anlama geliyor? Teknolojiden yararlanacak kadar ünlü olmayan ve gelişimi tarafından profesyonel olarak tehdit edilmeyen bizler için mi? Eh, potansiyel uygulamalar çeşitlidir. Karakter oluşturma ekranının bir ses klonu oluşturma seçeneği içerdiği bir video oyunu hayal etmek zor değil, bu yüzden oyuncu oyundaki tüm diyalogları konuşuyormuş gibi geliyor. Ya da ebeveynler için, çocukların yanında değilken bile yatmadan önce hikayeler okuyabilmeleri için seslerini kopyalamalarına izin veren bir uygulama olabilir. Bu tür uygulamalar günümüz teknolojisiyle yapılabilir, ancak hızlı klonların ortalama kalitesi onları zor bir satış haline getirecektir.

Potansiyel tehlikeler de var. Dolandırıcılar, şirketleri hesaplarına para aktarmaları için kandırmak için ses klonlarını zaten kullandılar ve diğer kötü niyetli kullanımlar kesinlikle ufkun hemen ötesinde pusuda bekliyor. Örneğin, bir lise öğrencisinin bir sınıf arkadaşını gizlice ses klonunu oluşturmak için kaydettiğini, ardından o kişinin sesini taklit ederek bir öğretmene kötü sözlerle başlarını belaya soktuğunu hayal edin. Siyasal yanlış bilgilendirme endişelerinin büyük ölçüde yersiz olduğu, ancak teknolojinin rıza dışı pornografi yaratarak büyük zarar verdiği durumlarda, görsel derin sahtekarlıkların kullanımı bir şeyse, en büyük tehditler bu tür olaylardır.

Yine de kesin olan bir şey var: Gelecekte, isterlerse herkes kendi AI ses klonunu oluşturabilecek. Ancak bu dijital sesler korosunun izleyeceği senaryo henüz yazılmadı.

CEVAP VER

Lütfen yorumunuzu giriniz!
Lütfen isminizi buraya giriniz