Hanzi'nin pinyine dönüştürülmesi problemi oldukça zordur. İçeriğe bağlı olarak, çoklu pinyin temsilleri olan birçok hanzi karakteri vardır.长大 (pinyin: zhang da) 长城 ile karşılaştırın (pinyin: chang cheng). Bu nedenle, birden fazla olasılık üreten bir sisteminiz yoksa, tek karakterli dönüşüm genellikle işe yaramaz. Ayrıca, pinyin temsilini de etkileyebilen kelime segmentasyonu da söz konusudur. Belki de bunu zaten biliyor olsaydınız, bunu söylemenin önemli olduğunu düşündüm. Bu, Adso Package'un, mükemmel Adso kütüphanesine dayanan bir segmenter ve bir olasılıksal pinyin annotator içerdiğini belirtti. Bu, Adso Package. Yine de alışmak biraz zaman alır ve aradığınızdan çok daha büyük olabilir (geçmişte benim ihtiyaçlarım için biraz fazla hantal olduğunu buldum). Ayrıca, herhangi bir yerde bir genel API ve C++ ...
Görünen bir proje için, yer isimleriyle çalıştığım için, Google Translate API'sini (özellikle resmi olmayan java'yı kullanıyorum. en az bilinen isimler için, genellikle, pinyin çeviri iyi bir iş yapar port.Ve sorun "XiangGang" olması gerektiği için "HongKong" gibi yaygın olarak kullanılan alternatif transliterasyon sistemleridir.Tüm bunlar, Google Translate Oldukça sınırlı, ama bir başlangıç sunuyor.Pinyin4j'yi daha önce hiç duymamıştım, ama şimdi oynadıktan sonra, bunun optimalden daha az olduğunu keşfettim - potansiyel aday pinyin romanizasyonlarının bir listesini çıkarırken İstatistiksel olarak olasılıklarını belirlemeye yönelik herhangi bir girişimde bulunmadığı gibi, tek bir temsili döndürmek için bir yöntem vardır, ancak şu anda sadece ilk romani döndürdüğü için aşamalı olarak sona erecektir. Zation, en olası değil. Programın iyi göründüğü yerlerde, romatizasyonlar ile genel yapılandırılabilirlik arasında dönüşüm vardır. Kısaca, cevap ihtiyacınız olana bağlı olarak bunlardan herhangi biri olabilir. Özel isimler doğrudur?Google Çeviri. İstatistik ihtiyacı var mı? Adso. Aday listeleri bağlam bilgisi olmadan kabul etmeye istekli mi? Pinyin4j.
Sadece açık kaynaklı veya para için mi? – bmargulies
@bmargulies: Kapalı kaynak üzerinden açık kaynak kullanmayı tercih ediyorum, ancak hem – bguiz