2016-03-30 32 views
1

Çok sayıda belgem var (analiz edilmiş bir metin alanı başlığıyla). Onlar Elasticsearch içinde endekslendi ve şimdi sadece herhangi bir sorgulama olmadan başlığı alanı içinde her dönem için TF frekansı ve ters belge frekans IDF terim almak gerekiyor. (sadece belgeleri indeksleme ve title alanındaki tüm terimlerin tersine çevrilmiş endeksini geri alma)Endekslenmiş belgeler için ters indeksi alma Elasticsearch içinde

Bu mümkün mü?

cevap

1

ES den bir terim matrisi elde etme hakkında tutorial yazdım. Bu TF'leri almayı değil, IDF'leri kapsamaktadır. Bu Python kullanarak ES 1.6.0 için yapıldı.

Daha fazla bilgi için TermVector API'a bir göz atmalısınız.

+0

TeşekkürlerAnimesh Pandey, peki ya jetonlar? Alanda * bir testçi * uyguladım *, her bir belge için ortaya çıkan belirteçleri kolayca alabilir miyim? –

+0

bunu da arıyorum. şimdi herhangi bir bilgi var mı? – osager

+0

Veya sadece kullanabilirsiniz: TF almak için _termvectors – mel

0
GET /YOUR_INDEX/YOUR_DOC_TYPE/YOUR_ID/_termvectors 
{ 
    "fields" : ["YOUR_FIELD"], 
    "term_statistics" : true, 
    "field_statistics" : true 
} 

Bu, belgenizdeki her sözcük için TF'yi alacaktır.