Skip to main content

OpenAI’ın metinden konuşmaya yapay zekâ modeli Voice Engine, sadece 15 saniyelik bir ses kaydı ile insan sesini klonlayabiliyor.

OpenAI, metinden video oluşturan yapaya zekâ modeli Sora’nın ardından şimdi de ses klonlama aracı Voice Engine’a yönelik ilk izlenimleri ve sonuçlarını paylaştı. 15 saniyelik bir ses kaydını dinleyerek herhangi bir sesi klonlayabilen ve bunu çok doğal bir şekilde yapan Voice Engine, bunun yanı sıra metinleri de sese çevirebiliyor.

Şirketin blog yazısında aktardığına göre insan sesini gerçekçi olarak taklit eden Voice Engine, 2022 yılından beri test edilen Voice Engine, insan sesini gerçekçi olarak taklit ediyor ve girilen metinleri sesli ve doğal tonlarda okuyabiliyor. Bu klonlanan seslerin farklı dillere çevrilebildiğini de belirtelim.

OpenAI’ın blog yazısında paylaştığı örneklere bakıldığında, Voice Engine’ın klonladığı sesin orijinaline çok yakın olduğunu görüyoruz.

OpenAI’a göre bu teknoloji, okuma yardımının yanı sıra içerik çevirisi ve konuşma bozuklukları bulunan kişilere yardım konusunda oldukça yararlı.

Voice Engine, genel kullanıma henüz sunulmadı. OpenAI, bunun ana nedeninin böyle bir klonlama teknolojisinin getireceği riskler olduğunu ifade ediyor. Bunlar arasında; deepfake, dolandırıcılık, kimlik hırsızlığı, dezenformasyon yer alıyor. OpenAI, bu teknolojinin “özellikle seçim yılında akla ilk gelen ciddi risklere” sahip olduğunu kabul ediyor.

Paylaşılan bilgilere göre Voice Engine, kötü amaçlar için kullanılmaması adına çok kısıtlı bir grup tarafından test ediliyor. Hatta teste katılan kişiler OpenA’ın başka bir kişinin rızası veya yasal hakkı olmadan taklit edilmesini yasaklayan kullanım politikalarını kabul etti.

OpenAI, ürünün minimum düzeyde riskle piyasaya sürülmesini sağlamak için “hükümet, medya, eğlence, eğitim, sivil toplum ve ABD’li ve uluslararası ortaklardan” gelen geri bildirimleri birleştirdiğini söylüyor.

Kaynak: OpenAI says it can clone a voice from just 15 seconds of audio – engadget