Tf-idf kullanarak sözcüklerin bir sözlüğü oluşturmaya çalışıyorum. Ancak sezgisel olarak mantıklı değil.Terim için Tf-idf arkasındaki sezgi
Tf-Idf'nin Ters Belge Sıklığı (Idf) bölümü bir terimin tüm korpusa göre alaka düzeyini hesaplarsa, bu, bazı önemli sözcüklerin daha düşük bir alaka düzeyine sahip olabileceğini ima eder.
Yasal belgelerden oluşan bir belgeye bakarsak, her belgede "Lisans" veya "Yasal" gibi bir terim olabilir. Idf nedeniyle, bu terimler için puan çok düşük olacak. Ancak, sezgisel olarak, bu terimler açıkça yasal terimler olduğu için daha yüksek bir puana sahip olmalıdır.
Terimler sözlüğü oluşturmak için tf-idf hatalı bir yaklaşım mıdır?
Tüm yasal şartlar için bir sözlük oluşturma satırı boyunca, bir dizi belge olarak bir belge kümesi kullanarak daha çok düşünüyordum. Ama haklısınız, bu şartlara zaten sahip olduğum ve yasal dokümanları yasal olmayanlardan ayıran daha yararlıdır. – jCoder
Tek yönlü TFxIDF yararlı olabilir * yasal şartları * yalıtmak *. Yasal olmayan belgelerin ayrı bir temelini oluşturun (Wikipedia makaleleri, yasal konuları kaldırmak için incelenir mi?) Ve IDF değerlerinizi bundan yaratın. Şimdi, yasal belgeler koleksiyonunuzun bir TFxIDF hesaplamasında bunu uygulayın. Sadece hukuki terimler yüksek bir IDF'ye sahip olacak ve bu nedenle de öne çıkacak, diğer taraftan tahtada yaygın olan ortak kelimeler düşük bir IDF'ye sahip olacak ve TF yüksek olsa bile dibe batma eğilimi gösterecektir. – tripleee
Nit seçim: IDF'nin 1/DF olarak tanımlandığı TF/DF veya TFxIDF'dir. – tripleee