2016-04-01 28 views
0

Şu anki mezuniyet projem için çalışıyorum: Türkçe için Adlandırılmış Öğe Tanıma. Tanıtıcı, Kişisel İsimler ve Lokasyonlarla çalışırken (bazen yerler farklı dillerde olabilir, örneğin Taksim/İstanbul'daki Hilton Otelleri olabilir) tüm veri kümemde "Otel" eklemem gerekir. Otel, restoran veya alışveriş merkezi. Ancak Organizasyon Adı Etiketi'ne geldiğinde. Ben bantları, ürünler, şirket adlarının iyi bir veri kümesi bulmalıyız, ama bu veri kümesini stanford NLP aracındaAdlandırılmış Öğe Tanıma (Ner) - Kuruluş Adı Veritabanı

bulmak için nasıl anlamaya veya toplamak olamaz: http://nlp.stanford.edu:8080/ner/process

i Facebook, Nike, Adidas vb bunu yazdığınızda organizasyonu bulabilir. Yani bu organizasyon adı Dataset'in olması için herhangi bir yol var mı?

cevap

2

Bu kuruluş adları ile bir veri kaynağı ile ilgileniyorsanız. Kullanılabilir böyle

  • YAGO
  • BabelNet Sadece online erişim indirilemez
  • DBpedia

      olarak bilgi tabanları KB'leri birini kullanabilirsiniz.
    • FreeBase

    Hepsi bu örgütlerin ve daha adlara sahip , sadece kendi türlerini kullanarak kuruluşlarını ayıklamak için çaba gerekecektir. Örneğin, YAGO, olası varlıklara ve türlerine sahip indirilebilir bir dosyaya sahiptir. Onu filtreleyebilir ve olası tüm isimleri almak için hasMeaning verilerini kullanabilirsiniz. Yago ve BabelNet, NER veya Adlandırılmış Tarafsız Ayrılma Sistemi AIDA ve Babelfy için kullanılmıştır.

    AIDA, NER için kullanılabilecek olası varlık adlarının sağlam bir veri kümesi sunar.

  • +0

    Sayın Mohammed cevabınız için teşekkürler, Çok yardımcı. Yago kullanacağım çünkü güzel bir takımı var ve onları kolayca yönetebiliyorum. Tekrar teşekkürler. –

    +0

    Sizi bekliyoruz ... Yago'yu kullanacaksanız, bu olası isimleri kontrol edin .. göreviniz için daha güçlü hale getirir. –

    1

    bunları wikipedia'dan toplamaya çalışın. Onun büyük bir kaynağı. Wiki dökümlerinden belirli varlık türlerinin bilgilerini toplayan bir ayrıştırıcı yazabilirsiniz. Vikipedi, insanları, yerleri ve kuruluşları kategorize eden hiyerarşik bir yapıya sahiptir.

    +0

    Cevabınız için teşekkür ederiz, ancak Wikipedia'daki (vikipedi) Türk organizasyonu çok azdır. https://en.wikipedia.org/wiki/List_of_companies_of_Turkey.Ayrıca onları nasıl ayrıştıracağımı bilmiyorum ve sadece isimleri toplayacağım ve eğer işinizi kesintiye uğratmayacaksa gerçekten nasıl olduğunu bilmek istiyorum. Bana ipuçları verebilirsin. çöp kutusuna bakarsanız –

    +1

    tekrar teşekkür ederim, onun büyük bir xml dosyası. Her sayfa, özellikle şemadaki bir xml etiketidir. Her xml sayfa düzeyinde düğümün ilk 2 satırını okursanız, genellikle şöyle söyler: XYZ, ABC ya da kolayca yorumlayabileceğiniz bir metin yapan bir kuruluştur. Bir organizasyon listesi oluşturmanız gerekiyorsa, ingilizce çöplüğüne de bakabilirsiniz. https://en.wikipedia.org/wiki/Wikipedia:Database_download – roopalgarg

    +0

    Bu sorunun size cevap verdiğini düşünüyorsanız, bunu bir cevap olarak işaretleyebilirsiniz. – roopalgarg