2012-09-03 7 views
5

Kısa bir süre önce weka kullanmaya başladım ve Naive Bayes kullanarak tweet'leri pozitif veya negatif olarak sınıflandırmaya çalışıyorum. Bu yüzden etiket verdiğim tweet'lerle ve "pozitif" etiketli tweet'lerle bir test seti oluşturdum. Ben ayarlı testte tweets etiketleri değiştirirseniz "O zaman 6% 8Doğru sınıflandırılmış örneklerin anlamı weka

:

doğru sınıflandırılmış örnekleri: 69% 92 hatalı sınıflandırılmış örneklerini ben Naif Bayes ran, ben aşağıdaki sonuçlar elde negatif" ve yine Naif Bayes ran, sonuç ters çevrilmiş gibidir:

doğru sınıflandırılmış örneklerini: 6% 8 hatalı sınıflandırılmış örneklerini: 69% 92

Ben doğru sınıflandırılmış örnekleri Naif Bayes ve doğruluğunu göstermek düşündüm aynı hayır olmalı Test setindeki tweetlerin etiketleri önemlidir. Verilerimle ilgili bir sorun mu var veya doğru şekilde sınıflandırılmış örneklerin anlamını doğru anlamıyorum.

teşekkürler kez bir sürü

Nantia

cevap

5

test kümesi üzerindeki etiketleri gerçek doğru sınıflandırma olması gerekiyordu. Performans, sınıflandırıcıdan test setindeki her örnek için sınıflandırma hakkında en iyi tahminde bulunmasını isteyerek hesaplanır. Daha sonra tahmin edilen sınıflandırmalar doğruluğu belirlemek için gerçek sınıflandırmalarla karşılaştırılır. Bu nedenle, verdiğiniz 'doğru' değerleri çevirirseniz, sonuçlar da çevrilir.

+0

Hızlı cevaplar için çok teşekkürler @Junnux & Antimon! Test seti şu şekilde oluşturuldu: Programma bir arama terimi veriyorum, twitter api bu terimi içeren tweetleri döndürüyor, bu tweet'ler test setimi oluşturuyor ve Naive Bayes çalışıyor. Bu yüzden test seti için doğru etiketleri ekleyemiyorum. Sizi iyi anladıysam, bu durumda, test edicinin etiketlerinin sınıflandırıcılarının cevaplarını alabileceğim, ancak doğruluğu değerlendiremeyeceğim. Doğru anladım mı? – nadia

+0

Eğitim seti için en az etiketiniz olduğunu varsayarak haklısınız. Eğer buna sahip değilsen, yanlış yaklaşıyorsun. Naive Bayes, denetimli öğrenme için bir algoritmadır. Etiketiniz yoksa, aradığınız şey farklı bir algoritma seti gerektiren ve genellikle çok daha kötü sonuçlar veren __unsupervised__ öğrenmedir. Verilerinizi etiketlemek için bir yol bulmayı veya denetlenmeyen öğrenim için google'ı önerebilirim. – Antimony

+0

Evet, amacım denetimli öğrenmedir, bu yüzden eğitim setim için etiketlerim var. Tekrar çok teşekkürler! Birkaç şeyi çözmeme yardım ettin. :) – nadia

1

Eğitim setinize bağlı olarak, örneklerin% 69,92'si pozitif olarak sınıflandırılmıştır. Test seti için etiketler, yani doğru yanıtları, hepsi olumlu olduklarını gösterir, bu% 69,92 doğru yapar. Eğer test seti (ve dolayısıyla sınıflandırma) aynı ise, fakat doğru cevapları değiştirirseniz, elbette, doğru yüzde oranı da tam tersi olacaktır. Bir sınıflandırıcıyı değerlendirmek için test setinin gerçek etiketlerine ihtiyacınız olduğunu unutmayın. Aksi halde, sınıflandırıcının cevaplarını gerçek cevaplarla karşılaştıramazsınız. Bana yanlış anlamış olabilirsiniz. Görünmeyen veriler için etiketler alabilirsiniz, eğer istediğiniz şey buysa, ancak bu durumda sınıflandırıcı doğruluğunu değerlendiremezsiniz.