Yandex, öneri sistemleri için açık veri seti Yambda’yı yayınladı

Yandex, teklif sistemleri alanındaki araştırmaları desteklemek maksadıyla, müzik akış servisi Yandex Music’teki 5 milyar anonimleştirilmiş kullanıcı etkileşimini içeren açık bilgi seti Yandex Music Billion-Interactions Dataset (Yambda) ismiyle erişime açtı.
Şirketten yapılan açıklamaya nazaran, Yambda, teklif sistemlerinin kullanıldığı e-ticaret, toplumsal ağlar ve kısa görüntü platformları üzere alanlarda algoritmaların test edilmesi için kozmik bir ölçüt sunuyor. Araştırmacılar, bu data setiyle yeni teklif algoritmalarını geliştirme ve test etme imkânı bulurken; sonlu bilgiyle çalışan teşebbüsler de eserlerini ölçeklendirmeden evvel sistemlerini Yambda ile test edebiliyor.
Yandex Öneri Sistemleri Başkanı Nikolai Savushkin, öneri sistemlerinin tabiatı gereği hassas datalar içerdiğine dikkat çekerek, “Sektör başkanları güç kazanılan araçları ve dataları paylaştığında, yükselen bir dalga tesiri yaratır. Araştırmacılar gerçek dünya ölçütlerine kavuşur, startuplar yalnızca teknoloji devlerinin erişebildiği kaynaklara erişir ve kullanıcılar da daha düzgün bir kullanım tecrübesinin keyfini çıkarır” tabirlerini kullandı.
Gerçek dünya şartları için gerçekçi testler
Veri seti, teklif modellerinin vakit bağlamında kıymetlendirilmesine imkân tanıyan Küresel Temporal Split (GTS) formülüyle yapılandırıldı. Böylelikle test ve eğitim dataları ortasında zamansal kopukluklar yaşanmadan, gerçek dünya senaryolarına daha yakın bir modelleme yapılabiliyor.
Yambda, üç farklı boyutta (yaklaşık 5 milyar, 500 milyon ve 50 milyon etkileşim) sunularak farklı ölçek ve hesaplama gereksinimlerine sahip araştırmacı ve geliştiricilere hitap ediyor. Data seti; Apache Parquet formatında, Spark, Hadoop, Pandas ve Polars üzere sistemlerle uyumlu olarak yayınlandı.
Gizliliğe büyük ehemmiyet verilen data setinde, tüm kullanıcı ve dinleme bilgileri anonimleştirildi ve sayısal tanımlayıcılarla değiştirildi.
Akademiden startuplara herkes için açık
Savushkin, teklif sistemlerinin yapay zeka alanındaki ilerlemelere karşın, büyük ölçekli açık bilgi setlerinin azlığı nedeniyle geride kaldığını vurguladı. Yambda’nın, bu boşluğu kapatarak akademik dünyayla dal ortasında bir köprü kurduğunu söz etti.
Veri setiyle birlikte sunulan temel modeller ortasında MostPop, DecayPop, ItemKNN, iALS, BPR, SANSA ve SASRec üzere metotlar yer alıyor. Bu modeller, araştırmacıların yeni algoritmalarını karşılaştırabilecekleri standartlar sağlıyor.