OpenAI, Görüntüleri Oluşturan ve Sınıflandıran DALL · E ve CLIP AI Modellerini Açıkladı

0
3

OpenAI, metninizden görüntüler oluşturabilen ve görsellerinizi sırasıyla kategorilere ayırabilen iki yeni üretken AI modeli olan DALL-E ve CLIP’i duyurdu. DALL · E, “avokado şeklindeki bir koltuk gibi” veya “üstte bir eskizle aynı kedi gibi” gibi, kendisine beslenen en çılgın metin ve resim açıklamalarından görüntüler oluşturabilen bir sinir ağıdır. alt”. CLIP, çeşitli görüntü türlerinde daha doğru, verimli ve esnek olması amaçlanan görüntü sınıflandırması için yeni bir eğitim yöntemi kullanır.

ABD merkezli AI şirketinden Üretken Önceden Eğitilmiş Transformer 3 (GPT-3) modelleri, görüntüler ve insan benzeri metinler oluşturmak için derin öğrenmeyi kullanır. DALL · E, metin girişine bağlı olarak çeşitli – ve bazen gerçeküstü – görüntüler oluşturmak üzere eğitildiği için hayal gücünüzün vahşi olmasına izin verebilirsiniz. Ancak model, DALL-E’nin kendi görsellerini oluşturmak için Web’den görüntüler sağladığından beri telif hakları sorunlarıyla ilgili sorular da gündeme getirdi.

AI illustrator DALL · E, ilginç görüntüler oluşturur

DALL · E adı, önceden tahmin edebileceğiniz gibi, sürrealist sanatçı Salvador Dali ve Pixar’ın WALL · E’nin bir portmanteau’sudur. DALL · E, ilginç görüntüler oluşturmak için metin ve görüntü girişlerini kullanabilir. Örneğin, “bir köpeği gezdiren bir tütü içinde bebek daikon turpunun bir illüstrasyonu” veya “arptan yapılmış bir salyangoz” oluşturabilir. DALL · E, yalnızca sıfırdan görüntüler oluşturmak için değil, aynı zamanda mevcut herhangi bir görüntüyü metin veya görüntü komut istemiyle tutarlı bir şekilde yeniden oluşturmak için de eğitilmiştir.

Metin istemi için görsel sonuçları ‘harptan yapılmış bir salyangoz’

OpenAI tarafından sunulan GPT-3, dil girdisini kullanarak çeşitli metin oluşturma görevlerini gerçekleştirebilen bir derin öğrenme dil modelidir. GPT-3, tıpkı bir insan gibi bir hikaye yazabilir. DALL · E için, San Francisco merkezli AI laboratuvarı, metni görüntülerle değiştirerek ve yapay zekayı yarı bitmiş görüntüleri tamamlaması için eğiterek bir Görüntü GPT-3 oluşturdu.

DALL · E, hayvanların veya insan özelliklerine sahip nesnelerin resimlerini çizebilir ve ilgisiz öğeleri mantıklı bir şekilde birleştirerek tek bir resim oluşturabilir. Görsellerin başarı oranı, metnin ne kadar iyi ifade edildiğine bağlı olacaktır. DALL · E, başlık, görüntünün açıkça belirtilmeyen belirli bir ayrıntı içermesi gerektiğini ima ettiğinde genellikle “boşlukları doldurabilir”. Örneğin, ‘kaplumbağadan yapılmış bir zürafa’ veya ‘avakado şeklindeki bir koltuk’ metni size tatmin edici bir çıktı verecektir.

Metin ve resimleri bir araya getirmek

CLIP (Kontrastlı Dil-Görüntü Ön eğitimi), doğal dile dayalı olarak doğru görüntü sınıflandırması yapabilen bir sinir ağıdır. Görüntüleri “filtrelenmemiş, çok çeşitli ve oldukça gürültülü verilerden” farklı kategorilere daha doğru ve verimli bir şekilde sınıflandırmaya yardımcı olur. CLIP’i farklı kılan, görsel sınıflandırma için mevcut modellerin çoğunun yaptığı gibi, küratörlü bir veri setinden görüntüleri tanımamasıdır. CLIP, İnternette bulunan çok çeşitli doğal dil denetimi konusunda eğitilmiştir. Böylece CLIP, bir veri kümesindeki etiketli tek bir kelimeden ziyade, bir resimde ne olduğunu ayrıntılı bir açıklamadan öğrenir.

CLIP, tanınacak görsel kategorilerin adları sağlanarak herhangi bir görsel sınıflandırma karşılaştırmasına uygulanabilir. OpenAI bloguna göre CLIP, GPT-2 ve GPT-3’ün “zero-shot” yeteneklerine benzer.

DALL · E ve CLIP gibi modeller, önemli toplumsal etki potansiyeline sahiptir. OpenAI ekibi, bu modellerin belirli meslekler üzerindeki ekonomik etki, model çıktılarındaki önyargı potansiyeli ve bu teknolojinin ima ettiği uzun vadeli etik zorluklar gibi toplumsal meselelerle nasıl ilişkili olduğunu analiz edeceklerini söylüyor.

Görüntüleri doğrudan İnternet’ten alan DALL · E gibi üretken bir yapay zeka modeli, çeşitli telif hakkı ihlallerinin önünü açabilir. DALL · E, İnternette mevcut bir görüntünün herhangi bir dikdörtgen bölgesini yeniden oluşturabilir. Ve insanlar bozuk görüntülerin atıfları ve telif hakları hakkında tweet atıyorlar.

Birincisi, bu görüntülerin telif hakkını kimin elinde bulundurduğuna ilişkin telif hakkı davalarını dört gözle bekliyorum (çoğu durumda cevap “kimse, onlar kamu malı” olmalıdır). https://t.co/ML4Hwz7z8m

– Mike Masnick (@mmasnick) 5 Ocak 2021

2021’in en heyecan verici teknoloji lansmanı ne olacak? Bunu, Apple Podcasts, Google Podcasts veya RSS aracılığıyla abone olabileceğiniz, bölümü indirebileceğiniz veya aşağıdaki oynat düğmesine basabileceğiniz haftalık teknoloji podcastimiz Orbital’de tartıştık.

CEVAP VER

Lütfen yorumunuzu giriniz!
Lütfen isminizi buraya giriniz