2011-06-29 24 views
5

Önemli miktarda metin içeriyor ve en sık ortaya çıkan şablonları keşfetmeye çalışıyorsam, bunu N-Gram yaklaşımını kullanarak çözmeyi düşünüyordum ve aslında this sorusunda bir çözüm olarak önerildi, ancak benim şartım kısmen farklı.Belirli bir metinde "şablonlar" keşfetmek mi istiyorsunuz?

I wake up every day morning and read the newspaper and then go to work 
I wake up every day morning and eat my breakfast and then go to work 
I am not sure that this is the solution but I will try 
I am not sure that this is the answer but I will try 
I am not feeling well today but I will get the work done and deliver it tomorrow 
I was not feeling well yesterday but I will get the work done and let you know by tomorrow 

ve bunun gibi özü "şablonlar" çalışıyorum:

I wake up every day morning and ... and then go to work 
I am not sure that this is the ... but I will try 
I ... not feeling well ... but I will get the work done and ... tomorrow 

Ben hatlarının milyona ölçeklenebilir bir yaklaşım arıyorum Sadece bu gibi bazı metin var netleştirmek için Bu yüzden bu sorunu çözmek için aynı N-gram yaklaşımını adapte edip edemeyeceğimi merak ettim ya da herhangi bir alternatif var mı? metin satırı

cevap

5

Milyonlarca gerçekten büyük bir sayı :)

Ne aradığınız en azından sıralama bulgu benzer değildir. N-gramlar üzerinde karşılıklı olarak karşılıklı bilgileri hesaplamayı deneyebilirsiniz. Bu ve bunun diğer yaklaşımları için bkz. Manning & Schütze (1999).

+0

Önerileriniz için teşekkür ederiz. Sonunda bugün kitabı aldım :) – Legend