D-ID, fotoğrafları özel, fotogerçekçi videolara dönüştürmenin bir yolu olan ‘Konuşan Portre’yi başlattı – TechCrunch

0
23

Teknolojisi, klasik aile fotoğraflarını gerçeğe yakın hareketli portrelere dönüştüren sansasyonel MyHeritage uygulamasını güçlendiren şirket, teknolojisinin yeni bir uygulamasıyla geri döndü: Hareketsiz fotoğrafları, istediğinizi söyleyebilen ultra gerçekçi videolara dönüştürmek.

D-ID’nin Konuşan Portreleri, son birkaç yılda manşetlere çıkan kötü şöhretli “deepfake”ler gibi görünebilir, ancak altında yatan teknoloji aslında oldukça farklıdır ve temel işlevler için herhangi bir eğitim gerekli değildir.

Aslında 2018’de TechCrunch Battlefield’da çok farklı bir odakla (karıştırılmış yüz tanıma teknolojisi) çıkış yapan D-ID, yeni Konuşma Portreleri ürününü TechCrunch Disrupt 2021’de canlı olarak tanıttı. Şirket, yeni konuşmasını kullanmak da dahil olmak üzere bir dizi kullanım örneği gösterdi. çeşitli duyguları ifade edebilen çok dilli bir TV sunucusu yaratma teknolojisi; müşteri destek etkileşimleri için sanal sohbet robotu kişilikleri oluşturma; mesleki gelişim kullanımı için eğitim kursları geliştirmek; ve etkileşimli konuşma video reklam kioskları oluşturma.

Hem bu yeni ürün hem de D-ID’nin MyHeritage ile ortaklığı, ikinci şirketin uygulamasının kısa bir süreliğine Apple’ın App Store listelerinin zirvesini ele geçirmesine neden oldu, açıkçası şirketin ilk odak noktasından büyük sapmalar. Geçen yılın Mayıs ayına kadar, D-ID hala önceki yaklaşımına dayanarak fon sağlıyordu, ancak MyHeritage ile ortaklığı Şubat ayında başladı, ardından GoodTrust ile benzer bir anlaşma ve ardından Warner Bros. Hayranların kendilerini fragmanına sokmalarına izin veren Hugh Jackman filmi “Reminiscence”.

D-ID’nin pivotu, çoğundan daha dramatik görünebilir, ancak teknik açıdan, fotoğraflara hayat vermeye yönelik yeni odağı, kimlik gizleme yazılımından çok uzak değil. D-ID CEO’su ve kurucu ortağı Gil Perry, şirketin yeni yönü seçtiğini çünkü bu tür uygulamalar söz konusu olduğunda çok büyük bir adreslenebilir pazarın olduğu açıktı.

Warner Bros. gibi büyük isim müşterileri ve nispeten bilinmeyen bir markanın App Store’a hakim bir uygulaması bu değerlendirmeyi destekliyor gibi görünüyor. Ancak Konuşan Portreler, hem büyük hem de küçük müşterilere yöneliktir ve herkesin bir kaynak görüntüden tam HD video, ayrıca kaydedilmiş konuşma veya yazılı metin oluşturmasına olanak tanır. D-ID, ürünü İngilizce, İspanyolca ve Japonca desteğiyle piyasaya sürüyor, ancak müşterilerin bu diller için destek talep etmesi nedeniyle gelecekte başka diller de eklemeyi planlıyor.

D-ID, yalnızca tek bir hareketsiz görüntü kullanılarak oluşturulabilen, hareketli bir kafaya sahip ancak diğer parçalar sabit kalan bir “Tek Portre” dahil olmak üzere iki temel Konuşan Portre kategorisi sunar. Bu, yalnızca fotoğraftaki mevcut arka planla da çalışacaktır.

Biraz daha esrarengiz bir gerçeklik için, şirket tarafından sağlanan yönergeleri izleyerek, istenen karakterin 10 dakikalık bir eğitim videosunun gönderilmesini gerektiren bir “Eğitimli Karakter” seçeneği var. Bu, özel, değiştirilebilir bir arka planda çalışabilme avantajına sahiptir ve karakterin vücudu ve elleri için önceden ayarlanmış bazı animasyon seçeneklerine sahiptir.

Ne kadar gerçekçi olabileceğini anlamak için aşağıdaki eğitimli karakter yöntemi kullanılarak oluşturulmuş bir Konuşan Portre haber spikeri örneğine göz atın:

Perry’nin bugün Disrupt’ta bize canlı olarak gösterdiği demo, kendisinin bir çocukken çekilmiş fotoğrafından oluşturuldu. Fotoğraf, Gil’in Konuşan Portre versiyonunun şu anki ve genç benliği arasındaki etkileşim sırasında söylediklerinin senaryosunu da seslendiren bir tür insan kuklacı tarafından gerçekleştirilen yüz ifadeleriyle eşleştirildi. Aşağıdaki animasyonlu fotoğrafta konuşmacının ifadelerinin nasıl yansıtıldığına dair bir video görebilirsiniz:

Açıkçası, istediğiniz herhangi bir satırı ikna edici bir şekilde sunabilen tek bir fotoğraftan foto-gerçekçi videolar oluşturma yeteneği biraz tüyler ürpertici bir olasılık. Deepfake’lerin etiği hakkında geniş kapsamlı tartışmaların yanı sıra, yapay zekanın gerçekçi, ancak yapay sonuçlar ürettiğinde parmak izi vermeye ve belirlemeye yönelik endüstri çabalarını zaten gördük.

Perry, Disrupt’ta D-ID’nin “kötüye değil, iyiye kullanıldığından emin olmaya istekli” olduğunu ve bunu başarmak için Ekim ayının sonunda ortaklarıyla birlikte bir taahhütte bulunacaklarını söyledi. Konuşan Portreler gibi teknolojileri kullanmak söz konusu olduğunda “şeffaflık ve rıza” taahhütlerini ana hatlarıyla belirtin. Söz konusu taahhüdün amacı, “kullanıcıların ne gördükleri konusunda kafalarının karışmamasını ve ilgili kişilerin onay vermesini” sağlamaktır.

D-ID, bu tür bir teknolojinin kötüye kullanımı konusunda kullanım koşulları ve kamuoyundaki konumu konusunda güvence vermek isterken, Perry “bunu tek başına yapamayacağını” söylüyor, bu yüzden ekosistemdeki diğerlerini güçlerini birleştirmeye çağırıyor. istismarı önleme çabaları.

CEVAP VER

Lütfen yorumunuzu giriniz!
Lütfen isminizi buraya giriniz