Küresel teknoloji şirketi Yandex, büyük dil modellerinin (Large Language Model-LLM) eğitimi için yeni ve açık kaynaklı bir yöntem olan YaFSDP’yi tanıttı.
Yandex’in açıklamasına göre YaFSDP şu anda GPU iletişimini geliştirmek ve LLM eğitiminde bellek kullanımını azaltmak için halka açık en etkili yöntemi simgeliyor. Yöntem, mimariye ve parametre sayısına bağlı olarak FSDP’ye kıyasla yüzde 26’ya varan hızlanma sunuyor. YaFSDP kullanımıyla LLM’lerin eğitim süresinin azaltılması, GPU kaynaklarında yüzde 20’ye varan tasarruf sağlanıyor.
Yandex, YaFSDP’yi dünya çapındaki LLM geliştiricilerinin ve yapay zekâ meraklılarının kullanımına açtı. YaFSDP metoduna Github üzerinden ücretsiz olarak erişilebiliyor. Metod, LLM eğitim verimliliğini artırmak isteyen ML mühendislerinin ve dünya genelindeki tüm şirketlerin kullanımına açık.
Yandex’te kıdemli geliştirici olarak görev alan ve YaFSDP’nin arkasındaki ekibin parçası olan Mikhail Khruschev, Yandex’in şu anda YaFSDP’nin çok yönlülüğünü genişletmek için çeşitli model mimarileri ve parametre boyutları üzerinde aktif olarak deney yaptığını belirterek, “LLM eğitimindeki gelişmelerimizi küresel ML topluluğuyla paylaşmaktan, dünya genelindeki araştırmacılar ve geliştiriciler için erişilebilirliğin ve verimliliğin artmasına katkıda bulunmaktan heyecan duyuyoruz” dedi.
YaFSDP’nin avantajları
Yandex’in paylaştığı bilgilere göre YaFSDP, öğrenme hızını ve performansını optimize ederek dünya çapındaki yapay zekâ geliştiricilerinin modellerini eğitirken daha az bilgi işlem gücü ve GPU kaynağı kullanmalarına yardımcı oluyor. Örneğin, 70 milyar parametreli bir modeli içeren ön eğitim senaryosunda, YaFSDP kullanmak yaklaşık 150 GPU kaynağına denk tasarruf sağlama potansiyeline sahip bulunuyor. Bu da sanal GPU sağlayıcısına veya platformuna bağlı olarak ayda kabaca 500 bin ilâ 1,5 milyon dolar tasarruf anlamına geliyor.
YaFSDP eğitim verimliliği
Yandex; YaFSDP’nin FSDP’nin geliştirilmiş bir versiyonu olduğunu, ön eğitim, hizalama ve ince ayar gibi LLM eğitiminin iletişim ağırlıklı aşamalarında FSDP yöntemine kıyasla daha iyi performans gösterdiğini belirtiyor.
Yandex’in verdiği bilgilere göre, YaFSDP’nin Llama 2 ve Llama 3 üzerinde gösterdiği nihai hızlanma, Llama 2 70B ve Llama 3 70B üzerinde sırasıyla yüzde 21 ve yüzde 26’ya ulaşarak eğitim hızında önemli gelişmeler olduğunu ortaya koyuyor. Mikhail Khruschev, “YaFSDP, 13 ilâ 70 milyar parametre arasında değişen modellerde etkileyici sonuçlar gösterdi ve özellikle 30 ilâ 70 milyar aralığında güçlü bir performans sergiledi. YaFSDP, şu an LLaMA mimarisine dayalı yaygın olarak kullanılan açık kaynaklı modeller arasında en uygun olanıdır” diyor.
Yandex’in sunduğu ilk açık kaynaklı araç YaFSDP değil. Şirket daha önce ML topluluğu arasında popüler hale gelen CatBoost, YTsaurus, AQLM ve Petals gibi başka araçlar da paylaşmıştı.
Yorumlar