2011-11-18 15 views
6

Haber sınıflandırmasında bir proje yapıyorum. Temel olarak sistem, haber makalelerini önceden tanımlanmış konuya (örneğin, spor, politik, uluslararası) göre sınıflandıracaktır. Sistemi kurmak için sistemi eğitmek için ücretsiz veri setlerine ihtiyacım var. Şu ana kadar, birkaç saat sonra googling ve here arasındaki linklerden sonra bulabildiğim tek uygun veri setleri this'dur. Bu umarım yeterli olurken, daha fazlasını bulmaya çalışacağım.Haber Makalesi Veri Kümesi

Not veri setleri ve istediğim bir:

  1. tam haber makaleler,
  2. .txt biçimi değil, XML veya db

yılında

  • İngilizce olarak mı sadece başlık içeriyor Birisi bana yardım edebilir mi?

  • cevap

    0

    Yapabilir, bir arama yaptığınız bir Python/Perl/PHP betiği yazabilir, sonra cevapları bulduğunuzda regex ile öznitelikleri ayırabilirsiniz ... Bence en iyi seçenek. Kolay değil ama eğlenceli olmalı, sonunda bu veri setini bizimle paylaşabilirsiniz.

    +1

    Evet, veri kümesini bulmaya çalışıyorum çünkü projeyle meşgul olacağım, bu nedenle yapacakları şeyleri azaltmaya çalışıyorum. Ayrıca, Python/Perl/PHP'de bir komut dosyası yazmayı bilmiyorum. – Hearty

    1

    Reuters21578'u kullanmayı denediniz mi? Metin sınıflandırması için en yaygın veri kümesidir. SGML'de biçimlendirilmiştir, ancak bir txt biçimine ayrıştırmak ve dönüştürmek oldukça basittir.