2010-01-27 13 views
5

Metin lekeleri dışındaki adları filtrelemeye çalışıyorum. Şu anda sadece bir kelime listesi üretiyorum ve el ile filtreliyorum ama daha iyi bir yol arıyorum diye ~ 8k kelimelere sahibim. Bir sözlük alıp filtreleyebilirim ama bu, smith ve uçurum gibi isimleri caydırabilirdi.Uygun isimlerin listesi?

Benim ihtiyacım aşağıdakilerden biri geçerlidir: Ortak isimlerin

  • bir liste
  • da kelime
  • olmak olur bir isim listesi (ı> 5k en yaygın isimler gerekiyordu)

Aralarında bir şey buluyorum, ihtiyacım olan şeyi elde etmek için birleşik bir kara liste/beyaz liste yapabilirim.

+0

Hangi dilde ortak adlar? Ya da hangi ülkede, çünkü "Ali" Arapça bir isim olmasına rağmen ABD'de oldukça popülerdir. –

+0

@John, Olduğu gibi, çoğunlukla, İngilizce, ancak bundan sonra, hemen hemen her şey. "Ayrıca kelimeler" biti; İngilizce. – BCS

cevap

5

ABD Nüfus isim listesi: http://www.census.gov/genealogy/www/

neyse, size sorun üzerinde bir açı almak gerekir. değiştirildi URL değiştirildi, sayfa hareketiyle ilgili aşağıya yorum. Artık kimse HTTP 302'ye inanmıyor mu? Ben Quora bulunan bir yazı itibaren

+0

Bunu yapmalı. – BCS

+0

sayım biraz modası geçmiş olabilir ve aynı zamanda sadece sık isimleri de içerir, örneğin Barak male.first listesinde bulunamaz ve Bama Obama isminden ziyade Obama all.last dosyasında bulunamaz. yazılı metinlerde yaygın olarak haber kaynakları, bloglar, tweet'ler vs. – ScienceFriction

+1

Bu linke census.gov bir 404 yol açar. Bu, Nüfus Sayımı sitesinde yer alan şecere bilgilerinin yeni üst düzey evine benziyor: http://www.census.gov/genealogy/www/. – BrianC

2

:

, Carnegie Mellon Üniversitesi'nin NELL proje ağından özel adların büyük bir liste toplanmış ve türüne göre onları kategorize etmiştir. Şu adresten çevrimiçi olarak göz atabilir ve Resources & Data adresindeki verileri indirebilirsiniz. personUS, diyelim ki, sonuçlarını kazıma

Web Onların büyük sekme ile sınırlandırılmış CSV dosyasındaki "kişi" olarak etiketlenmiş cümleleri gelen isim listesini ayıklanması olan, yaptıklarından daha etkilidir görünüyor. Her iki şekilde de regex kullanacaksınız.