6

Kendi veri kümem için multiclass durum için ROC eğrisini çizmek istiyorum. documentation derken etiketler (ı 1'den 5'e 5 etiketlere sahip) ikili olmuş gerektiğini okurdu, bu yüzden belgelerinde verilen örnek izledi:Scikit ile ROC eğrisini çizmek nasıl multiclass durum için öğrenmek?

print(__doc__) 

import numpy as np 
import matplotlib.pyplot as plt 
from sklearn import svm, datasets 
from sklearn.metrics import roc_curve, auc 
from sklearn.cross_validation import train_test_split 
from sklearn.preprocessing import label_binarize 
from sklearn.svm import SVC 
from sklearn.multiclass import OneVsRestClassifier 



from sklearn.feature_extraction.text import TfidfVectorizer 
import numpy as np 
tfidf_vect= TfidfVectorizer(use_idf=True, smooth_idf=True, sublinear_tf=False, ngram_range=(2,2)) 
from sklearn.cross_validation import train_test_split, cross_val_score 

import pandas as pd 

df = pd.read_csv('path/file.csv', 
        header=0, sep=',', names=['id', 'content', 'label']) 


X = tfidf_vect.fit_transform(df['content'].values) 
y = df['label'].values 




# Binarize the output 
y = label_binarize(y, classes=[1,2,3,4,5]) 
n_classes = y.shape[1] 

# Add noisy features to make the problem harder 
random_state = np.random.RandomState(0) 
n_samples, n_features = X.shape 
X = np.c_[X, random_state.randn(n_samples, 200 * n_features)] 

# shuffle and split training and test sets 
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.33 
                ,random_state=0) 

# Learn to predict each class against the other 
classifier = OneVsRestClassifier(svm.SVC(kernel='linear', probability=True, 
           random_state=random_state)) 
y_score = classifier.fit(X_train, y_train).decision_function(X_test) 

# Compute ROC curve and ROC area for each class 
fpr = dict() 
tpr = dict() 
roc_auc = dict() 
for i in range(n_classes): 
    fpr[i], tpr[i], _ = roc_curve(y_test[:, i], y_score[:, i]) 
    roc_auc[i] = auc(fpr[i], tpr[i]) 

# Compute micro-average ROC curve and ROC area 
fpr["micro"], tpr["micro"], _ = roc_curve(y_test.ravel(), y_score.ravel()) 
roc_auc["micro"] = auc(fpr["micro"], tpr["micro"]) 

# Plot of a ROC curve for a specific class 
plt.figure() 
plt.plot(fpr[2], tpr[2], label='ROC curve (area = %0.2f)' % roc_auc[2]) 
plt.plot([0, 1], [0, 1], 'k--') 
plt.xlim([0.0, 1.0]) 
plt.ylim([0.0, 1.05]) 
plt.xlabel('False Positive Rate') 
plt.ylabel('True Positive Rate') 
plt.title('Receiver operating characteristic example') 
plt.legend(loc="lower right") 
plt.show() 

# Plot ROC curve 
plt.figure() 
plt.plot(fpr["micro"], tpr["micro"], 
     label='micro-average ROC curve (area = {0:0.2f})' 
       ''.format(roc_auc["micro"])) 
for i in range(n_classes): 
    plt.plot(fpr[i], tpr[i], label='ROC curve of class {0} (area = {1:0.2f})' 
            ''.format(i, roc_auc[i])) 

plt.plot([0, 1], [0, 1], 'k--') 
plt.xlim([0.0, 1.0]) 
plt.ylim([0.0, 1.05]) 
plt.xlabel('False Positive Rate') 
plt.ylabel('True Positive Rate') 
plt.title('Some extension of Receiver operating characteristic to multi-class') 
plt.legend(loc="lower right") 
plt.show() 

bu sorun bu yaklaşımın bitiremiyormuşum olmasıdır. Bu dataset? Için bu ROC eğrisinin nasıl çizileceği hakkında herhangi bir fikir.

+3

Sana kavramsal hata var. ROC, iki sınıftan başka bir şey için gerçekten tanımsızdır. – carlosdc

+0

@carlosdc geribildirim için teşekkürler. Tabii ki sadece ikili sınıflandırma davası için. Yani bunu çizmek imkansız mı? –

+1

Her bir sınıf çifti için bir çift ROC eğrisi yapabilirsiniz. – Scott

cevap

3

Bu sürüm asla bitirir bu hat nedeniyle:

classifier = OneVsRestClassifier(AdaBoostClassifier()) 

Unutmayın:

svm sınıflandırıcı bitirmek için gerçekten çok uzun zaman alır
classifier = OneVsRestClassifier(svm.SVC(kernel='linear', probability=True, random_state=random_state)) 

, farklı bir AdaBoost gibi sınıflandırıcı veya istediğiniz başka birini kullanın Bir içe aktarma eklemek için:

from sklearn.ensemble import AdaBoostClassifier 

Bu kodu kaldır, kullanışsız:

# Add noisy features to make the problem harder 
random_state = np.random.RandomState(0) 
n_samples, n_features = X.shape 
X = np.c_[X, random_state.randn(n_samples, 200 * n_features)] 
yerine sadece ekleyin:

random_state = 0 
+0

Yardımlarınız için teşekkürler, neden SVM'ler ile bu kadar çok zaman alıyor? –

+3

Bunun nedeni, olasılıkları True olarak ayarlamanızdır. Böyle bir durumda, svm, bellek ve hesaplama-yoğun olan olasılıkları da hesaplamalıdır. – Salamander

+0

@Eranyogev Bunu çapraz doğrulama ile multiclass için nasıl çiziyorsunuz? – Bambi