2016-02-17 23 views
5

Tf-idf kullanarak sözcüklerin bir sözlüğü oluşturmaya çalışıyorum. Ancak sezgisel olarak mantıklı değil.Terim için Tf-idf arkasındaki sezgi

Tf-Idf'nin Ters Belge Sıklığı (Idf) bölümü bir terimin tüm korpusa göre alaka düzeyini hesaplarsa, bu, bazı önemli sözcüklerin daha düşük bir alaka düzeyine sahip olabileceğini ima eder.

Yasal belgelerden oluşan bir belgeye bakarsak, her belgede "Lisans" veya "Yasal" gibi bir terim olabilir. Idf nedeniyle, bu terimler için puan çok düşük olacak. Ancak, sezgisel olarak, bu terimler açıkça yasal terimler olduğu için daha yüksek bir puana sahip olmalıdır.

Terimler sözlüğü oluşturmak için tf-idf hatalı bir yaklaşım mıdır?

cevap

4

Evet, bu terimler yasal hükümlerdir. Bununla birlikte, TF/IDF, belirli bir alan adına uygun olup olmadığını değerlendirmeye çalışmamaktadır. Bu alandaki belgeleri kırmada size yardımcı olurlar. Her belgede legal gibi bir terim ortaya çıkarsa, bir sınıflandırıcının bu belgeleri birbirinden ayırmasına yardımcı olmaz. Ancak, yasal belgelerinizi rastgele bir dizi belge ile karıştırırsanız. Aniden son derece alakalı olduklarını keşfedecektiniz. Tam olarak, yasal belgelere ve diğer belgelere ayrı olarak söylemenize izin verecekleri için. Pratikte "tipik" durdurma sözcüklerini kaldırmak için daha tipik olarak kullanılırlar. Örneğin. Her belgede The bulunur ve hiçbir anlam ifade etmez.

TF/IDF'nin bir sözlük oluşturmak için iyi olup olmadığı, bu sözlükle daha sonra yapmak istediğiniz şeylere bağlıdır.

+0

Tüm yasal şartlar için bir sözlük oluşturma satırı boyunca, bir dizi belge olarak bir belge kümesi kullanarak daha çok düşünüyordum. Ama haklısınız, bu şartlara zaten sahip olduğum ve yasal dokümanları yasal olmayanlardan ayıran daha yararlıdır. – jCoder

+1

Tek yönlü TFxIDF yararlı olabilir * yasal şartları * yalıtmak *. Yasal olmayan belgelerin ayrı bir temelini oluşturun (Wikipedia makaleleri, yasal konuları kaldırmak için incelenir mi?) Ve IDF değerlerinizi bundan yaratın. Şimdi, yasal belgeler koleksiyonunuzun bir TFxIDF hesaplamasında bunu uygulayın. Sadece hukuki terimler yüksek bir IDF'ye sahip olacak ve bu nedenle de öne çıkacak, diğer taraftan tahtada yaygın olan ortak kelimeler düşük bir IDF'ye sahip olacak ve TF yüksek olsa bile dibe batma eğilimi gösterecektir. – tripleee

+0

Nit seçim: IDF'nin 1/DF olarak tanımlandığı TF/DF veya TFxIDF'dir. – tripleee