Skip to main content

Alibaba, fotoğrafları videoya dönüştürüp seslendirebilen yapay zekâ aracı EMO’yu tanıttı.

OpenAI’ın yeni metinden video oluşturan yapay zekâ modeli Sora’yı tanıtmasından kısa bir süre sonra Alibaba’dan fotoğraflara hayat veren “EMO” adlı yeni bir yapay zekâ aracı geldi.

Çinli e-ticaret devi Alibaba’nın bünyesinde yer alan “Institute for Intelligent Computing” adlı bir kuruluş, geliştirdiği yeni yapay zekâ video oluşturucu hakkında bir makale yayımladı. Emote Portrait Alive’ın kısaltması olan EMO adlı yapay zekâ aracı, herhangi bir fotoğrafı videoya dönüştürüp bu videoları seslendirebiliyor.

Alibaba, yeni yapay zekâ aracını tanıtmak için GitHub’a bazı demo videoları koydu. Bunlar arasında, OpenAI’ın yapay zekâ modeli Sora’nın ürettiği ve yağmurda Tokyo’da dolaşmasıyla ünlenen kadının Dua Lipa’nın “Don’t Start Now” şarkısını söylediği bir video da yer alıyor.

Paylaşılan bilgilere göre EMO sayesinde, fotoğraftaki kişileri istenilen sese uygun ağız hareketleriyle birlikte konuşturmak mümkün. Konuşturmanın yanı sıra fotoğrafta yer alan kişiye şarkı da söyletilebiliyor, hatta yapay zekâ ile oluşturulan bir görseldeki karakterlere de hayat verilebiliyor. EMO, ağız hareketlerini ve yüz ifadelerini bir şarkıyla mükemmel şekilde senkronize ederek portreleri canlı şarkı videolarına dönüştürüyor. Sistemin her uzunlukta video üretebildiğini de belirtelim.

arXiv’de yer alan makalede ayrıntılı olarak açıklanan EMO, yapay zekâ uzmanları için uzun süredir devam eden bir zorluk olan ses odaklı video üretiminde bir atılımı temsil ediyor. Makalede yer alan bilgilere göre; Alibaba araştırmacıları bu modeli devasa bir veri seti kullanarak eğitti. Bu veri setinde konuşmalar, filmler, televizyon şovları ve şarkı performansları gibi çeşitli kaynaklardan alınan 250 saatten fazla konuşma videosu yer alıyor.

Araştırma makalesinde belirtilen testler, EMO’nun video kalitesi ve duyguları aktarma yeteneği açısından mevcut en iyi sistemleri önemli ölçüde aştığını gösteriyor. Kullanıcı çalışmalarında dahi, EMO tarafından üretilen videolar, rakiplerinden daha doğal ve etkileyici bulundu.

Kaynak: EMO: Alibaba researchers breathe life into portraits with new AI tool – Interesting Engineering