Yandex, öneri sistemleri için açık veri seti Yambda’yı yayınladı

Yandex, teklif sistemleri alanındaki araştırmaları desteklemek maksadıyla, müzik akış servisi Yandex Music’teki 5 milyar anonimleştirilmiş kullanıcı etkileşimini içeren açık bilgi seti Yandex Music Billion-Interactions Dataset (Yambda) ismiyle erişime açtı.

Şirketten yapılan açıklamaya nazaran, Yambda, teklif sistemlerinin kullanıldığı e-ticaret, toplumsal ağlar ve kısa görüntü platformları üzere alanlarda algoritmaların test edilmesi için kozmik bir ölçüt sunuyor. Araştırmacılar, bu data setiyle yeni teklif algoritmalarını geliştirme ve test etme imkânı bulurken; sonlu bilgiyle çalışan teşebbüsler de eserlerini ölçeklendirmeden evvel sistemlerini Yambda ile test edebiliyor.

Yandex Öneri Sistemleri Başkanı Nikolai Savushkin, öneri sistemlerinin tabiatı gereği hassas datalar içerdiğine dikkat çekerek, “Sektör başkanları güç kazanılan araçları ve dataları paylaştığında, yükselen bir dalga tesiri yaratır. Araştırmacılar gerçek dünya ölçütlerine kavuşur, startuplar yalnızca teknoloji devlerinin erişebildiği kaynaklara erişir ve kullanıcılar da daha düzgün bir kullanım tecrübesinin keyfini çıkarır” tabirlerini kullandı.

Gerçek dünya şartları için gerçekçi testler

Veri seti, teklif modellerinin vakit bağlamında kıymetlendirilmesine imkân tanıyan Küresel Temporal Split (GTS) formülüyle yapılandırıldı. Böylelikle test ve eğitim dataları ortasında zamansal kopukluklar yaşanmadan, gerçek dünya senaryolarına daha yakın bir modelleme yapılabiliyor.

Yambda, üç farklı boyutta (yaklaşık 5 milyar, 500 milyon ve 50 milyon etkileşim) sunularak farklı ölçek ve hesaplama gereksinimlerine sahip araştırmacı ve geliştiricilere hitap ediyor. Data seti; Apache Parquet formatında, Spark, Hadoop, Pandas ve Polars üzere sistemlerle uyumlu olarak yayınlandı.

Gizliliğe büyük ehemmiyet verilen data setinde, tüm kullanıcı ve dinleme bilgileri anonimleştirildi ve sayısal tanımlayıcılarla değiştirildi.

Akademiden startuplara herkes için açık

Savushkin, teklif sistemlerinin yapay zeka alanındaki ilerlemelere karşın, büyük ölçekli açık bilgi setlerinin azlığı nedeniyle geride kaldığını vurguladı. Yambda’nın, bu boşluğu kapatarak akademik dünyayla dal ortasında bir köprü kurduğunu söz etti.

Veri setiyle birlikte sunulan temel modeller ortasında MostPop, DecayPop, ItemKNN, iALS, BPR, SANSA ve SASRec üzere metotlar yer alıyor. Bu modeller, araştırmacıların yeni algoritmalarını karşılaştırabilecekleri standartlar sağlıyor.

İlginizi Çekebilir:İBB’nin spor alanındaki bazı ücretsiz hizmetleri bugünden itibaren paralı oldu
share Paylaş facebook pinterest whatsapp x print

Benzer İçerikler

THY’nin Peru uçuşları ne zaman başlayacak?
Çin’de borç krizindeki havayolu şirketi JoyAir, tüm uçuşlarını durdurdu
Tosyalı Holding 1.2 GW kapasiteli GES için GE Vernova ve İnogen ile imzayı attı
Arkeolojik tekstil ürünleri için özel cihaz geliştirildi
Özgür Özel DEM Parti ile görüştü: HSK seçimleri için Anayasa Mahkemesi’ne gidiyoruz
Ticaret Bakanı Bolat: Cari işlemler açığı tahminlerin dahi altına geriledi
Bahiscoma Giriş | © 2025 |