ISO/IEC 10646的表意文字

ISO/IEC 10646的表意文字相片 表意文字是指一些字形與字義具有關係的文字。ISO/IEC 10646 則是指由國際標準化組織 (ISO) 所發展的一套國際編碼標準。該標準把所有中文字符及其他語言(例如日語的 Kanji 和韓語的 Hanja)中近似中文的字符統稱為漢字。

ISO/IEC 10646 的漢字被劃分入五個主要編碼區,即中日韓表意文字區、中日韓表意文字區擴展區 A 、中日韓表意文字區擴展區 B 、中日韓表意文字區擴展區 C 及中日韓表意文字區擴展區 D。中日韓表意文字區和擴展區 A 的表意文字在二零零零年隨「ISO/IEC 10646-1:2000」公布﹔中日韓表意文字區擴展區 B 的表意文字在二零零一年十一月隨「ISO/IEC 10646-2:2001」發表﹔中日韓表意文字區擴展區 C 的表意文字在二零零八年十二月隨「ISO/IEC 10646:2003」的第五修訂版發表﹔中日韓表意文字區擴展區 D 的表意文字在二零一一年三月隨「ISO/IEC 10646:2011」發表。

擴展區 C 增加了4,149個表意文字。擴展區 D 增加了222個表意文字。在結構上,擴展區 C 和擴展區 D 的字符與擴展區 B 同樣是用三十二位元碼位組成的。


採用三十二位元碼位的好處

採用ISO/IEC 10646擴展區 B 的好處相片 統一碼最初的設計是使用十六位元碼位,為大約65,000個字符編碼。經過多年的發展,十六位元碼位已不足夠代表常見的文字。採用三十二位元碼位擴展編碼至一百萬個字符,足夠為常見的文字編碼。

採用三十二位元碼位,能更有效和準確地使用通用的中文字符進行日常電子通訊,因為三十二位元碼位 (中日韓表意文字擴展區 B 及其後的擴展區) 不但具備中日韓表意文字區、 中日韓表意文字擴展區 A 內的表意文字,更吸納了各界採用的通用中文字符,令表意文字總數超過70,000 個,當中包含了收錄在《康熙字典》、《漢語大字典》和《漢語大詞典》內的漢字。


三十二位元碼位的結構

採用ISO/IEC 10646擴展區 B 的好處相片 三十二位元碼位是由一對特殊值的十六位元碼位所組成,即所謂的代理對(surrogate pair)。這一對代理,分別是前導代理 (lead surrogates)和後尾代理 (trail surrogates) 。前導代理(lead surrogates) 的範圍值是從D800到DBFF,後尾代理(trail surrogates) 的範圍值是從DC00至DFFF。只要使用統一碼標準中特定的算法(https://unicode.org/faq/utf_bom.html#utf16-2),就可以通過代理對的數學運算,得出該字符的三十二位元碼位。

在結構上,中日韓表意文字區、中日韓表意文字區擴展區 A 的表意文字可用十六位元碼位組成;而中日韓表意文字區擴展區 B及其後的擴展區的表意文字,則須用三十二位元碼位組成。


三十二位元碼位網頁

三十二位元碼位網頁載有更詳細的資料,說明參考字形與輸入法軟件,以及如何檢視「ISO/IEC 10646:2003」內三十二位元碼位的字符。

以下故事說明在日常中文電子通訊中採用三十二位元碼位 (例如:ISO/IEC 10646 擴展區 B)的例子及其靈活性。


採納三十二位元碼位的靈活性
如你未能觀看本頁內的動畫版,你可 觀看普通版。