Veritabanından çıkarılan bir XML dosyasına sahibim. XML ayrıştırmak ve farklı bir biçimde çıktılamak için Java SAX ayrıştırıcısı kullanıyorum. XML bazı geçersiz karakterler içeriyor ve ayrıştırıcı 'Geçersiz Unicode karakteri (0x5)'Java'da geçersiz XML karakterlerini sıyırma
gibi hatalar atıyor. Tüm bu karakterleri dosya satır satır ön-işleme ve değiştirmeden çıkarmanın iyi bir yolu var mı? ? Şimdiye kadar 3 farklı geçersiz karaktere (0x5, 0x6 ve 0x7) girdim. Bu bir ~ 4gb veritabanı dökümü ve biz birkaç kez işlemek için gidiyoruz, bu yüzden bir ön-işlemci çalıştırmak için yeni bir döküm almak her zaman bir ekstra 30 dakika beklemek zorunda bir acı olacak, ve bu konuya ilk defa girmedim.
Bunu şahsen kullanmadıysanız ancak Atlassian (o JIRA için esas yapıldığı ancak XML XML) cevap verecek duruma bir komut satırı XML temizleyici yapılan
karakter bir anlamı var mı: –
Dosya geçersiz karakterler içeriyorsa, bu bir XML dosyası değildir. İçerik oluşturucularından gelecekte yalnızca iyi oluşturulmuş XML oluşturmasını isteyin. Geçmişte bu problemi çok yaşadım. İnsanlar XML'in iyi biçimlenmiş ve çöp içermemesi gerektiğini anlamıyor gibi görünmüyor. – MarkR
100% katılıyorum Ne yazık ki her zaman mümkün değil (beceriksiz teknik kişiler, sözleşmesel ifadeler, vb) – Mason