2011-02-04 20 views

cevap

5

Bir olasılıkla logaritması. Büyük bir eğitimli set ile, gerçek olasılıklar çok küçük sayılardır, bu yüzden logaritmaların karşılaştırması daha kolaydır. Teorik olarak, puanlar sonsuzdan sıfıra yakın sıfırdan negatif sonsuza kadar değişecektir. 10**score * 100.0 gerçek olasılığını verecektir, ki bu gerçekten maksimum bir farktır.

+1

+1 "Sınıflandırma" yöntemi için [kaynak] (http://classifier.rubyforge.org/classes/Classifier/Bayes.src/M000041.html) 'yi kontrol ettim ve doğru yoldasınız. –

+0

Bu mantıklı, ancak hala gerçek olasılık formülü ile mücadele ediyorum. Setim için tipik bir skor -8.84 gibi bir şey. Yani 10 * (- 8.84) * 100 = 840. Hala bir şeyi özlüyorum. –

+1

10,8 ile çarpıldı gibi görünüyor. "-8.84" gücüne 10 değerini yükseltmelisin. –

4

Aslında b'nin temel olduğu tipik bir naif bayes sınıflandırıcısının olasılığını hesaplamak için, b^puanı/(1 + b^puanıdır). Bu ters logittir (http://en.wikipedia.org/wiki/Logit) Ancak, NBC'nin bağımsızlık varsayımları dikkate alındığında, bu puanlar çok yüksek veya çok düşük olma eğilimindedir ve bu şekilde hesaplanan olasılıklar sınırlarda birikecektir. . Bir sıralama setindeki skorları hesaplamak ve skor ile olasılık arasındaki ilişki için daha iyi bir his elde etmek için skorda doğru (1 veya 0) lojistik regresyon yapmak daha iyidir. Jason Rennie Kağıttan

: 2.7 Naive Bayes Çıkışlar Overcondent Metin veritabanları sık 10.000 100.000 farklı kelime kelime var Genellikle misiniz; Belgeler genellikle 100 veya daha fazla terim içerir. Bu nedenle, çoğaltma için büyük bir fırsat var. Ne kadar çoğaltmanın olduğunu anlamak için, 20 Haber Grubu belgesinin% 80'ini kullanan bir MAP Naive Bayes modelini eğittik. Verilerin kalan% 20'sinde p (cjd; D) (posterior) değerlerini ürettik ve tablo 2.3'deki maxc p (cjd; D) istatistiklerini gösterdik. Değerler oldukça fazladır. Test belgelerinin% 60'ı, 9 ondalık basamağa yuvarlandığında 1 posterin arka yüzüne atanır. Lojistik regresyonun aksine, Naive Bayes makul olasılık değerleri üretmek için optimize edilmemiştir. Lojistik regresyon , doğrusal eğitim verilerinin uygun olasılık değerlerine yakınsayarak, doğrusal eğitim verilerinin ortak optimizasyonunu gerçekleştirir. Naive Bayes, kodlarını tek tek optimize eder. Yalnızca bağımsızlık varsayımı doğru olduğunda gerçekçi çıktılar üretir. Özellikler önemli yinelenen bilgileri içeriyorsa (genellikle metinli bir durum olduğu gibi), Naive Bayes tarafından sağlanan posteriorlar aşırı derecede fazladır.