Microsoft araştırmacıları, bir sesi yalnızca 3 saniye dinleyebilen ve ardından bu sesi duygusal ton ve akustik dahil taklit ederek istediğinizi söyleyebilen VALL-E adlı yeni bir metinden konuşmaya yapay zekâ modeli sundu.
60 bin saatlik İngilizce konuşma konusunda eğitilen VALL-E, bulunduğu ortama göre ses tonunu değiştirebiliyor. Ses bir telefondan kayıt edilmiş şekilde geliyorsa, VALL-E orijinal sesin bulunduğu ortamı koruyarak sesler üretiyor ve aksan konusunda da oldukça başarılı. VALL-E’nin taklit ettiği sesler orijinaliyle neredeyse aynı olsa da bazı sesler robotik olabiliyor.
Tabii bazı endişeler de var. Tıpkı deepfake teknolojisinde olduğu gibi VALL-E ile sahte ses kayıtları oluşturulabilir. Bu da dolandırıcılık potansiyelinin artmasına neden olabilir. Örneğin bir dolandırıcı sizi üç saniyeliğine telefona alabilirse, sesinizi çalabilir ve onunla başkalarını arayabilir.
Surprised there isn’t more chatter around VALL-E
This new model by @Microsoft can generate speech in any voice after only hearing a 3s sample of that voice 🤯
Demo → https://t.co/GgFO6kWKha pic.twitter.com/JY88vf4lYc
— Steven Tey (@steventey) January 9, 2023
Microsoft VALL-E ekibinin tanıtım sayfasının sonuna eklediği etik beyanı şöyle: “Bu çalışmadaki deneyler, model kullanıcısının hedef konuşmacı olduğu ve konuşmacı tarafından onaylandığı varsayımı altında gerçekleştirilmiştir. Bununla birlikte, model görünmeyen konuşmacılara genelleştirildiğinde, konuşmacının değişikliği yürütmeyi kabul etmesini ve sistemin düzenlenen konuşmayı algılamasını sağlamak için protokol dahil olmak üzere ilgili bileşenlere konuşma düzenleme modelleri eşlik etmelidir.”
DALL-E, ChatGPT, çeşitli deepfake algoritmaları gibi yaratıcı yapay zekâların yükselişi, son birkaç aydır bir dönüm noktasındaymış gibi hissettiriyor, laboratuvarlardan çıkıp gerçek dünyaya girmeye başlıyor. Tüm bunlar fırsatlar ve riskleri de beraberinde getiriyor.
Kaynak: Microsoft’s new VALL-E AI can capture your voice in 3 seconds – New Atlas
Yorumlar