Apple ve Cornell Üniversitesi bünyesinde çalışan araştırmacılar Ekim ayında, sorgular için görüntülerin bölgelerini kullanabilen “Ferret” adlı açık kaynaklı çok modlu (multimodal) büyük dil modelini (LLM) sessiz sedasız hayata geçirdi.
Bir araştırma sürümü olarak yayına alınan ve tanıtımı için herhangi bir duyuru yapılmayan Ferret’in kodu 30 Ekim’de Ferret-Bench ile birlikte yayımlandı ve kontrol noktası (checkpoint) sürümleri 14 Aralık’ta tanıtıldı.
Ferret’in açık kaynak olarak yayımlanması ticari olmayan bir lisans altında gerçekleştirildiğinden mevcut haliyle ticarileştirilemiyor. Ancak bu modelin gelecekteki bir Apple ürününde veya hizmetinde bir şekilde kullanılma olasılığı bulunuyor.
Apple AI/ML araştırma bilimcisi Zhe Gan tarafından Ekim ayında atılan bir tweet, Ferret’in kullanımını, bir görüntüdeki “herhangi bir şeyi herhangi bir yerde herhangi bir ayrıntı düzeyinde atıfta bulunabilen ve temellendirebilen” bir sistem olarak açıklıyor. Bunu ayrıca bir görüntüdeki herhangi bir bölge şeklini kullanarak da yapabiliyor.
🚀🚀Introducing Ferret, a new MLLM that can refer and ground anything anywhere at any granularity.
📰https://t.co/gED9Vu0I4y
1⃣ Ferret enables referring of an image region at any shape
2⃣ It often shows better precise understanding of small image regions than GPT-4V (sec 5.6) pic.twitter.com/yVzgVYJmHc— Zhe Gan (@zhegan4) October 12, 2023
Daha basit bir ifadeyle model, bir görüntü üzerine çizilen bir bölgeyi inceleyebiliyor, bir sorguda kullanıcının kullanabileceği öğeleri belirleyebiliyor, onu tanımlayabiliyor ve tespit edilen öğenin etrafına bir sınırlayıcı kutu çizebiliyor. Daha sonra tanımlanan öğeyi bir sorgunun parçası olarak kullanabiliyor ve daha sonra buna tipik bir şekilde yanıt verebiliyor.
Örneğin, herhangi bir görseldeki bir hayvanın görüntüsü vurgulanıp Ferret’e hayvanın ne olduğu sorulduğunda, model canlının türünü ve kullanıcının bir gruptaki tek bir hayvana atıfta bulunup bulunmadığını belirleyebiliyor. Ardından daha fazla yanıt sunmak için görüntüde tespit edilen diğer öğelerin bağlamını kullanabiliyor. Öte yandan Ferret’ın 80 GB belleğe sahip 8 A100 GPU üzerinde eğitildiği belirtiliyor.
Kaynak: Apple’s ‘Ferret’ is a new open-source machine learning model – Apple Insider
Yorumlar