2013-05-30 7 views
5

Kaggel'in Job Salary Prediction'a baktığımda sayısal özellikleri (Kategori gibi) ve metinselleri (FullDescription gibi) görüyorum.Metin ve sayısal özelliklerin kombinasyonu nasıl ele alınır?

Bu tür veriler hakkında nasıl eğitim alabilirim? TfidfTransformer'u kullanarak metnin vektöreleştirilmesini düşündüm, ancak birçok öğrenme algoritmasının (RandomForestRegressor gibi) çalışmayı reddettiği seyrek matris oluşturur. Ayrıca, metin için özellik vektörüne sahip olduğumda, diğer özellikleriyle nasıl birleştirebilirim?

Bu tür verilerle nasıl çalışılacağına dair işaretçiler var mı?

Teşekkürler!

cevap

5

İlk olarak her metin alanının tf-idf özellikleri üzerinde doğrusal bir model öğrenirim ve diğer özelliklere ek bir özellik olarak doğrusal modeller tahminlerini ekleyebilir ve birleştirilmiş özellikler üzerinde bir veya GradientBoostedTreeRegressor'u eğitirim.

+0

Teşekkürler, bu harika bir fikir - Denerim. – lazy1

+0

Birleşik modelin yalnızca metin özelliklerinde doğrusal olmayan bir modelden veya metin olmayan özelliklerde rastgele bir ormandan daha iyi olup olmadığını bize bildirin. – ogrisel

+0

BTW: Hangi regressor seyrek matrisle çalışıyor? – lazy1