Hatırlarsanız Apple’ın WWDC 2024’te bir dizi yapay zekâ özelliğini piyasaya sürmesinin beklendiğini sizlere aktarmıştık. Görünen o ki, Apple’ın ReALM adlı yapay zekâ sistemi WWDC 2024’e damga vuracak.
Apple araştırmacıları, sesli asistanların komutları anlama ve bunlara yanıt verme biçimini kökten değiştirmeyi amaçlayan ReALM (Reference Resolution As Language Modeling) adlı bir yapay zekâ sistemi geliştirdi.
VentureBeat’in haberine göre, Apple araştırmacıları konuya ilişkin bir makale yayımladı. Bu araştırma makalesinde Apple, büyük dil modellerinin referans çözümlemesini nasıl ele aldığına ilişkin ReALM adlı yeni bir sistemin ana hatlarını çiziyor.
Makalede aktarılan bilgilere göre ReALM adlı bu sistem, ekrandaki varlıklara yapılan “bu” veya “şu” gibi belirsiz referansları/atıfları anlayabiliyor. Ayrıca konuşma ve arka plan bağlamını da anlayabiliyor. Bunun sonucunda, cihazlarla daha sezgisel ve doğal bir şekilde etkileşim kurabiliyor.
Referans çözümlemesi, doğal dil anlayışının önemli bir parçası ve kullanıcıların zamirleri ve diğer dolaylı referansları konuşma sırasında karışıklık olmadan kullanmalarına olanak tanıyor. Dijital asistanlar için bu yetenek, tarih boyunca çok çeşitli sözlü ipuçlarını ve görsel bilgileri yorumlama ihtiyacıyla sınırlı olan önemli bir zorluk olmuştur.
Apple’ın ReALM sistemi, karmaşık referans çözümleme sürecini saf bir dil modelleme problemine dönüştürerek bu sorunu çözmeye çalışıyor. Bunu yaparken ekranda gösterilen görsel öğelere yapılan göndermeleri kavrayarak bu anlayışı konuşma akışına entegre edebiliyor.
ReALM, metinsel temsilleri kullanarak bir ekranın görsel düzenini yeniden oluşturuyor. Bu, ekranın içeriğini ve yapısını yakalayan bir metin formatı oluşturmak için ekrandaki varlıkları ve konumlarını ayrıştırmayı içeriyor. Apple araştırmacıları, bu stratejinin referans çözümleme görevleri için dil modellerinin özel ince ayarıyla bir araya getirildiğinde, OpenAI’ın GPT-4’ünün yetenekleri de dahil olmak üzere geleneksel yöntemlerden önemli ölçüde daha iyi performans gösterdiğini buldu.
ReALM, kullanıcıların kesin ve ayrıntılı talimatlara ihtiyaç duymadan, ekranlarında o anda görüntülenenlere göre dijital asistanlarla çok daha verimli bir şekilde etkileşim kurmasını sağlayabilir. Bu da, sürücülerin araç kullanırken bilgi-eğlence sistemlerinde gezinmesine yardımcı olmak veya dolaylı etkileşimin daha kolay ve daha doğru bir yolunu sağlayarak engelli kullanıcılara yardımcı olmak gibi çeşitli ortamlarda sesli asistanları çok daha kullanışlı hale getirme potansiyeline sahip.
Kaynak: Apple Researchers Reveal New AI System That Can Beat GPT-4 – MacRumors
Yorumlar