Bu sorunun birden çok kez sorulmasını biliyordum ancak yine de "kullanılabilir" çözümle düzeltemedim. İfadelerimi nasıl tespit edeceğime dair başka fikirlerim ya da kavramlar umarım python dilinde ingilizcedir. Mevcut çözüm:Python ile İngilizce metnin okunup bulunmadığını saptayın
- Dil Dedektör (yakut değil python: /)
- tarihinde, ücretsiz (Artık API v2 20 dolar i akademik amaçlar için bu projeyi yapıyorum ederken bir ay ödemek zorunda Çevir . Nezaket sınırı:.?? 0 karakter/gün) piton (kaynak kodu için
- Dil kimlik aşağısında, bağlantı bulamamışlardır automatic-language-identification)
- Enchant (bu piton 2.7 için değil python, herhangi kılavuz ben yeniyim bahse girerim bu ihtiyacım olacak)
- NLTK'den Wordnet (i var "wordnet.synsets" neden eksik ve sadece "wordnet.Synset" kullanılabilir bir fikir yok. çözümdeki örnek kod benim için de çalışmıyor T_T, büyük olasılıkla yeniden sürüm sorunu mu?)
- İngilizce kelimeleri listeye kaydedin ve kelimeyi mevcutsa karşılaştırın (evet, cümlelerin twitter ve .. Eğer biliyordu: Son olarak çalışıyor dizisinden sonra P)
ÇALIŞMA çÖZÜM
aşağıdaki çalışma çözüm yukarıdaki listeye (alternatif) 'dir
- Wikt iyonlu API (Ayrıştırmak için Urllib2 ve simplejson kullanarak). Daha sonra anahtarın -1 olup olmadığını bulun, kelimenin mevcut olmadığı anlamına gelir. başka ingilizce. Tabii ki, Twitter'da kullanmak için kelimenizi @ #,?! gibi özel bir karaktere dönüştürmek zorunda değilsiniz. Anahtarın nasıl bulunacağını öğrenmek için buraya başvurmak gerekir. Simplejson and random key value)
- Dogukan Tufekci'nin Yanıtı (Ticked) (Zayıflık: 20 karakterden daha kısa olan tümcenin PyEnchant'ı yüklemesi gerekiyorsa ya da UNKNOWN değerini döndürmesi gerekiyor. PyEnchant Python 2.7'yi desteklemese de, yüklenemedi demektir. 20'den az karaktere cümle) için çalışan
Kaynaklar
- Detecting whether or not text is English (in bulk)
- How to check if a word is an English word with Python?
- How to retrieve Wiktionary word content?
İlginç bir soru. Bir listedeki kelimelerin saklanması için bir iyileştirme, bunları bir sette veya sözlükte saklamak olacaktır. Liste yaklaşımı diğer yaklaşımların O (1) olduğu O (n) dir. – Octipi
Çözümü soruya yazmayın, bunun yerine cevap olarak gönderin. Eğer cevabınız varsa, kendi sorunuzu yanıtlıyor –