香港特別行政區政府
共通中文界面網站
香港特別行政區政府
共通中文界面網站
圖
主頁
香港特別行政區政府
共通中文界面網站
圖 圖 列印 简体版 English version 文字版 圖
香港特別行政區政府
共通中文界面網站
圖
圖
 
圖 圖 圖
 

ISO 10646 的認知

有否試過,收到朋友寄來的中文電子郵件,打開一看卻全是莫名其妙的古怪符號,無法得知友人的訊息?又或傳送一個重要檔案給海外客戶,檔案到達後卻不能正確顯示內裡的資料,造成諸多不便?這些都是因為中文字符出現亂碼的緣故。

國際標準化組織 (ISO) 為提供一個開放的技術基礎以處理不同語文的電子資料,發展了一套名為 ISO 10646 的國際編碼標準,為世界各種主要語文的字符編訂統一內碼,當中包括繁體及簡體中文字。

編碼標準不同 圖難以溝通

世界各地目前採用了不同的編碼標準,在電腦及電子裝置內處理當地語文的字符。例如,香港以前沿用「大五碼」,近年來在特區政府積極推廣下,現在普遍採用 ISO 10646 國際編碼標準;內地的中文編碼標準是「國標碼」;台灣則採用「中文標準交換碼」,也普遍使用「大五碼」。

各種不同的編碼標準互不兼容,一個編碼在不同的編碼標準內可能代表不同的字符,導致某一地區發出的電子資訊,傳送到其他地區的電腦系統後,可能出現亂碼或某些字符不能正確顯示等問題。即使可借助轉換編碼的軟件,但這不單費時失事,亦未必能完全解決問題,因為不同編碼標準的字符數目不同,有可能無法完全轉換。

單一編碼標準圖 資訊互通

制訂 ISO 10646 國際編碼標準,正是為了解決上述問題。它提供了一套共通的字符編碼標準,方便世界各地的電腦用戶進行電子通訊及資料交換。採用該標準後,各地不同的電腦系統之間便能更準確地儲存、處理、傳遞及顯示各種語文的電子資訊,從而加強電子資訊的流通及推動電子交易的進行。

* ISO 10646 演進大追蹤

1993 國際標準化組織發表 ISO 10646 國際編碼標準的首個版本,全名為「ISO/IEC 10646-1:1993」。
2000 推出更新版本「ISO/IEC 10646-1:2000」,除包括舊版本內 20,902 個表意文字外,更於擴展區 A 增收 6,582 個表意文字,合共 27,484 個表意文字。表意文字是指字形與字義具有關係的文字,例如漢字。
2001 為補充 2000 年版本而發表「ISO/IEC 10646-2:2001」,於擴展區 B 新增了 42,711 個表意文字,使表意文字總數超逾 70,000 個,其中包括所有收錄在《康熙字典》、《漢語大字典》和《漢語大詞典》內的漢字。
2004 發表「ISO/IEC 10646:2003」,把 2000 和 2001 年版本合併成為單一發行本,內含的表意文字數目維持不變。
2005

公布「ISO/IEC 10646:2003」的第一修訂版,發表「國際表意文字子集」(International Ideographs Core, IICORE)。

把表意文字收納在 ISO 10646 國際編碼標準的工作是分期進行的,即擴展區 A、B 、C 及 D 等階段。擴展區 A 和 B 已分別隨 2000 及 2001 年版本發表。

2008

公布「ISO/IEC 10646:2003」的第五修訂版,於擴展區 C 新增了 4,149 個表意文字。

2009

公布「ISO/IEC 10646:2003」的第六修訂版,新增了 5 個表意文字。

「ISO/IEC 10646:2003」及其第一至第六修訂版收納了《香港增補字符集-2008》全部的字符。

2011

發表「ISO/IEC 10646:2011」,把「ISO/IEC 10646:2003」和它的第一至七修訂版合併成為單一發行本,於擴展區 D 新增了 222 個表意文字。

為達到標準化的目的,國際標準化組織在以下網頁免費提供一些刊載 ISO 標準的文件(包括 ISO 10646 國際編碼標準及其修訂版):
http://standards.iso.org/ittf/PubliclyAvailableStandards/

國際標準化組織及 Unicode Consortium 維持 ISO 10646 國際編碼標準及統一碼的同步發展。有關 ISO 10646 國際編碼標準/統一碼的收字資料,請參閱 Unicode Consortium 的網頁 http://www.unicode.org/

圖 簡介制訂 ISO/IEC 10646:2003 修訂版的程序

圖 找出中文字的 ISO/IEC 10646 編碼的示範

* ISO 10646 知多一點點

ISO 跟 Unicode 有何關係?

1991 年,國際標準化組織 (ISO) 與 Unicode Consortium 決定共同制訂一套適用於多種語文文本的通用編碼標準。此後,該兩個組織一直緊密合作,同步發展 ISO 10646 國際編碼標準及統一碼。國際標準化組織提供 ISO 10646 國際編碼標準內的字符及編碼資料,Unicode 則對這些字符及編碼資料提出應用方法和語義資料作為補充。

ISO 10646 跟統一碼有何關係?

ISO 10646 國際編碼標準與相應版本的統一碼所包含的字符及使用的編碼是相同的,統一碼可視為 ISO 10646 國際編碼標準的實踐版。因此,支援統一碼的產品,亦即支援 ISO 10646 國際編碼標準。

什麼是 ISO 10646 表意文字?

表意文字是指字形與字義具有關係的文字,例如中文字。 ISO 10646 國際編碼標準把所有中文字符及其他語言中近似中文的字符 (例如日語的 Kanzi 和韓語的 Hanja) 統稱為漢字。

ISO 10646 內的漢字歸入五個主要編碼區,即中日韓表意文字區、擴展區 A、擴展區 B、擴展區 C 及擴展區 D。中日韓表意文字區和擴展區 A 收納於 ISO 10646 國際編碼標準「ISO/IEC 10646-1:2000」版本內,擴展區 B 、擴展區 C 則收納於「ISO/IEC 10646-2:2001」、「ISO/IEC 10646:2003」的第五修訂版本中,而擴展區 D 則收納於「ISO/IEC 10646:2011」版本中。

採用 ISO 10646 擴展區 B 有何好處?

採用 ISO 10646 擴展區 B,能更有效和準確地使用更多通用的中文字符進行日常電子通訊,因為擴展區 B 不但具備擴展區 A 內的中日韓表意文字,更吸納了從各界收集得來的通用中文字符,令表意文字總數增至逾 70,000 個,其中包含了所有收錄在《康熙字典》、《漢語大字典》和《漢語大詞典》內的漢字。

擴展區 B 的位元碼位有何特點?

在結構上,中日韓表意文字區和擴展區 A 的表意文字可用 16 位元碼位組成 (例如:16 進制數值4E00);但擴展區 B 的表意文字則須用 32 位元碼位組成 (例如:16 進制數值 00020000,通常簡化為20000)。

什麼是 IICORE (國際表意文字子集)?

ISO 10646 國際編碼標準現包含的表意文字超過 70,000 個。為這些表意文字制訂子集 (濃縮版),可方便用戶在使用流動裝置等資源有限的設備時,也能應付日常中文電子通訊的需要。

國際標準化組織內的表意文字小組,專責發展 ISO 10646 內的表意文字。該小組已於 2005 年 11 月在「ISO/IEC 10646:2003」的第一修訂版中,公布制訂名為 IICORE (International Ideographs Core) 的國際表意文字子集,內含字符共 9,810 個,適用於記憶體容量、輸入/輸出能力有限的設備,或不便使用整套 ISO 10646 表意文字字集的應用系統。有關 IICORE 的開發資料(只有英文版),可到以下網站查閱:http://www.cse.cuhk.edu.hk/~irg/irg/IICore/IICore.htm

Your browser should support Flash

 

 
圖 圖 圖
 
上一頁 返回頁首
 
圖 圖 圖
圖       網站指南 | 免責聲明 圖