Brown Corpus'ta NLTK aracılığıyla Wordnet Lemmatizer'ı kullanıyorum (içindeki isimlerin tekil veya daha çoğul hallerinde daha fazla kullanıldığını belirlemek için).
yani from nltk.stem.wordnet import WordNetLemmatizer
l = WordnetLemmatizer()
Wordnet Lemmatizer'ı hızlandırmak mümkün mü?
Böyle biri olarak bile en basit sorgular aşağıda (en azından ikinci bir veya iki) oldukça uzun zaman alır fark ettik. Bir web bağlantısı her bir sorgu için WordNet yapılmalıdır çünkü
l("cats")
Tahminen bu hala WordNet Lemmatizer kullanmak için bir yol olup olmadığını merak ediyorum ama çok daha hızlı gerçekleştirmek gelmiş
..? mi? Örneğin, Wordnet'i makineme indirmemde yardımcı olur mu? Veya başka önerileriniz var mı?
Wordnet Lemmatizer'ın farklı bir lemmatizer'i denemek yerine daha hızlı yapılıp yapılamayacağını anlamaya çalışıyorum, çünkü Porter ve Lancaster gibi diğerlerinin en iyi çalıştığını gördüm.
anahtar, ilk sorgu ayrıca bazı başlatma gerçekleştirmesidir. Bundan sonra hızlı. – justhalf
lru_cache harika ama Python 2.7 için mevcut değil: benzer bir özellik için repoze.lru (http://docs.repoze.org/lru/) kullanmayı düşünebilirsiniz. – Vorty
@Vorty Verdiğim örnek, lyt_cache'e sahip Python 3 functools'un backport'unu kullanıyor: https://github.com/MiCHiLU/python-functools32 – bcoughlan