2011-08-18 39 views

cevap

11

Bir kod noktasının kodlanması gerekenden daha fazla kod birimi alır. Örneğin

, U + 0020 tek bir bayt 0x20 ile UTF-8 ile temsil edilir. 0xc0 0xa0 iki baytını normal şekilde çözerseniz, yine de U + 0020'ye geri dönersiniz, ancak bu geçersiz bir temsildir.

Unicode Corrigendum #1

özellikle masa 3.1B etrafında, daha fazla bilgi içermektedir.

2

UTF-8 teorik olarak, daha kısa olan karakterlerin farklı gösterimlerini sağlar. Örneğin, MSB'leri sıfıra ayarlayarak bir ASCII karakterini iki bayta kodlayabilirsiniz. UTF-8 belirtimi bunu açıkça yasaklamaktadır.

+0

Korkunç pun. Aşağı oy verdi. – Computer

+0

@Bilgisayar: o.O hangi cezayı özledim? – Joey

+0

Forbits dedin! – Computer