Metni sınıflandırmak için skLearn'ten Pipeline
kullanıyorum. Bu örnekte Pipeline
yılında Sklearn Boru Hattı'nda bireysel adımlar nasıl seçilir?
FeatureUnion
ile sarılmış bir
TfidfVectorizer
ve bazı özel özellikler ve
Pipeline
adımlar gibi bir sınıflandırıcı vardır:
İşte
from sklearn.pipeline import FeatureUnion, Pipeline
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.svm import LinearSVC
X = ['I am a sentence', 'an example']
Y = [1, 2]
X_dev = ['another sentence']
# classifier
LinearSVC1 = LinearSVC(tol=1e-4, C = 0.10000000000000001)
pipeline = Pipeline([
('features', FeatureUnion([
('tfidf', TfidfVectorizer(ngram_range=(1, 3), max_features= 4000)),
('custom_features', CustomFeatures())])),
('clf', LinearSVC1),
])
pipeline.fit(X, Y)
y_pred = pipeline.predict(X_dev)
# etc.
ben gerek TfidfVectorizer
adımını hazırlayın ve hala onlarla deneyler yaptığım için custom_features
'u bırakın. Buradaki fikir, tfidf adımını alarak boru hattını daha hızlı hale getirmektir.
Tüm Pipeline
'u joblib.dump
ile seçebiliyorum, ancak tek tek adımları nasıl atabilirim?
Pipeline içinden nasıl yüklerim? –
Cevap vermeye çalıştım. – joeln
Bu kadar kullanışlı bir özelliğin olmaması neredeyse inanılmaz bir şey. –