5

Varolan metin sınıflandırma (denetlenen) teknikleriyle, metindeki Adlandırılmış Öğeleri (NE) neden eğitim ve test etme özelliği olarak görmüyoruz? Bir özelliği olarak NE'leri kullanarak hassaslığı geliştirebileceğimizi düşünüyor musunuz?Metin kategorisindeki bir özellik olarak adlandırılmış varlıklar mı?

+0

Lütfen söylemeye çalıştığınız şey hakkında bir örnek verin. – Yavar

+0

demek istediğim, eğiteceğim ve test edeceğim her belge için, normal ile birlikte özellikler olarak NE sayısını (PERS = x, LOC = y, ORG = z) kullanırsam doğruluğu artırabilir mi? metin (belge) sınıflandırma özellikleri? – KillBill

+1

+1: İyi Soru – Yavar

cevap

1

Bu, üzerinde çalıştığınız etki alanına çok bağlıdır. Etki alanına göre özellikleri tanımlamanız gerekir. Sorunu sıralamak için öğrenmeye çalıştığınız bir arama motorunda söyleyin, dinamik bir sıralama yaratın, NE'ler size herhangi bir fayda sağlamayacaktır. Daha büyük ölçüde çalıştığınız alana ve ayrıca tanımlanmış çıktı kategorizasyon etiketlerine (denetlenen öğrenme) bağlıdır.

Artık Futbol veya Film veya Polictics ile ilgili belgelerin sınıflandırılması üzerinde çalışıyorsunuz. Bu durumda Adlandırılmış Varlıklar çalışabilir. Burada size bir örnek vereceğim, Belgeleri Futbol, ​​Film, Politika vb. Kategorilere ayıran bir Neural Network kullanıyorsunuz. Şimdi bir belgenin geldiğini söyleyin. "Lionel Messi" Sosyal Ağın "prömiyerine katılmak üzere davet edildi. Jesse Eisenberg, Andrew Garfield ve Justin Timberlake de dahil olmak üzere oyuncu kadrosundaydı. "Burada adlandırılan varlıklar (giriş özellikleri) ve film (çıkış tanımlı) arasındaki bağlantı daha güçlü olacak ve filmde bir belge olarak sınıflandırılacak. Başka bir örnek olarak, belgeselimiz "Tom Cruise," Son futbol oyunu "filminde Lionel Messi karakterini canlandırıyor. İşte buradaki avantaj, sinir ağınızın, bir aktör ve futbolcu bir araya geldiğinde öğrendiğini söylüyor. Bir belge, bir film olmasının yüksek olasılıktır.Aynı veriye ve eğitime bağlı olarak, başka bir yoldan da olabilir (ama bu, her şeyi öğrenen; geçmiş verileri görme)

Cevabım Bunu denemeyin, hiç kimse sizi varlık olarak adlandırılmış varlıklara sahip olmak için durduruyor. Çalışmakta olduğunuz etki alanı için yardımcı olabilir.

+0

Hey cevabınız için çok teşekkürler. Bu benim enerjimi artırdı :) Evet, dediğin gibi, beyzbol, futbol gibi oldukça dar bir alana odaklanıyorum. Benim endişem, geleneksel Dönem Frekansı (TF) temelli metin (belge) sınıflandırmasında bile, NE'leri dolaylı olarak kullanmıyor mu? terimleri kullanıyoruz ve NE'leri şartlar mı? – KillBill

+0

Diğer geleneksel yaklaşımlardan bir tanesi: http://www.miislita.com/information-retrieval-tutorial/lsi-keyword-research-fast-track-tutorial.pdf – Yavar

+0

Bu denetimsiz (kümelenme) öğrenme ve onlar özellik vektörünün boyutsallığını azaltmak için LSI kullanın. Burada NER'i birleştirmenin bir yolu görüyor musunuz? – KillBill