有關ISO/IEC 10646的問題及解答
問 1. 統一的編碼標準有什麼好處?
問 2. 統一的編碼標準對發展共通的中文界面有什麼幫助?
問 3. 什麼是國際標準化組織?
問 4. 什麼是 ISO/IEC 10646?
問 5. ISO/IEC 10646 在何時出版?
問 6. ISO/IEC 10646 現時的發展情況怎樣?
問 7. 什麼是表意文字?
問 8. 什麼是表意文字小組?
問 9. 表意文字小組成員包括哪些國家/地區?
問 10. 什麼是統一碼 (Unicode)?
問 11. Unicode 和 ISO/IEC 10646 有什麼關係?
問 12. 什麼是 ISO/IEC 10646 擴展區 B,其好處何在?
問 13. 新舊版本的 ISO/IEC 10646 以及《香港增補字符集》(簡稱"標準")是否兼容?
問 14. 如何瀏覽 ISO/IEC 10646 版本?
問 15. 我的電腦平台支援ISO/IEC 10646。為什麼一些機構印發的文件/證件上的中文字,字形與我的電腦平台顯示的不盡相同?
問 16. 一些漢字有不同寫法,例如“悦”和“悅”。要支援“悦”這個字形,技術上可否直接把字體軟件內的“悅”修改成“悦”?
問 17. 什麼是網頁開放字型格式 (Web Open Font Format (WOFF))?採用WOFF有什麼好處?

有關ISO/IEC 10646的問題及解答

問 1.

統一的編碼標準有什麼好處?

答 1.

採用統一編碼,電腦系統可準確地處理及顯示不同語言的電子資料。用戶毋須使用轉換工具來處理不同編碼的電子資料。統一編碼令在進行電子通訊時,資料失誤的情況減少,從而便利各地間的電子通訊。

頁首
問 2.

統一的編碼標準對發展共通的中文界面有什麼幫助?

答 2.

採用統一編碼標準,世界各地的電腦系統能夠以相同的編碼顯示資訊。中國內地、 香港、台灣三地的電腦系統亦將可以準確地顯示以繁體字、簡體字及香港特有用字 發出的資訊,而不需要使用不同的編碼標準,以免對電子通訊構成障礙。

頁首
問 3.

什麼是國際標準化組織?

答 3.

國際標準化組織(The International Organization for Standardization,簡稱 ISO) (https://www.iso.org/)是於 1947 年成立的非政府組織。成員包括來自超過 160 個國家 的代表。ISO 成立的目的是發展不同的國際標準,以改善世界各地在不同項目方面 (例如貿易、資訊、技術等)的交流。

頁首
問 4.

什麼是 ISO/IEC 10646?

答 4.

ISO/IEC 10646 是國際標準化組織(ISO)統籌下,發展出來的一套國際編 碼標準,把世界各種主要語言所使用的字符,編入單一套通用字集內。

頁首
問 5.

ISO/IEC 10646 在何時出版?

答 5.

國際標準化組織於一九九三年發表 ISO/IEC 10646的首個版本,全名是 「ISO/IEC 10646-1:1993」。
該組織在二零零零年發表了「ISO/IEC 10646-1:2000」,作為「ISO/IEC 10646-1:1993」的更新版。 「ISO/IEC 10646-1:2000」收納了 27,484個表意文字,其中包括 20,902 個在「ISO/IEC 10646-1:1993」內的表意文字及屬於 中日韓表意文字區擴展區 A 的 6,582 個新增的表意文字。
在二零零一年十一月發表的「ISO/IEC 10646-2:2001」,是作為對「ISO/IEC 10646-1:2000」的補充。 「ISO/IEC 10646-2:2001」收納了屬於中日韓表意文字區擴展區 B 的 42,711 個新增的表意文字, 使ISO/IEC 10646所包含的表意文字總數超逾 70,000 個,其中包括所有收錄在《康熙字典》、 《漢語大字典》和《漢語大詞典》內的漢字。
國際標準化組織於二零零四年四月發表了「ISO/IEC 10646:2003」,它合併了「ISO/IEC 10646-1:2000」 和「ISO/IEC 10646-2:2001」而成為一個單一版本。因此,「ISO/IEC 10646:2003」內的表意文字與 「ISO/IEC 10646-1:2000」附帶「ISO/IEC 10646-2:2001」內的表意文字是相同的。
國際標準化組織在二零零八年十二月發表了「ISO/IEC 10646:2003」的第五修訂版,於中日韓表意文字區擴展區 C 增 加了 4,149 個表意文字。國際標準化組織在二零零九年十月發表了「ISO/IEC 10646:2003」的第六修訂版。
國際標準化組織於二零一一年三月發表了「ISO/IEC 10646:2011」。「ISO/IEC 10646:2011」是合併了「ISO/IEC 10646:2003」 和它的第一至七修訂版的單一版本。「ISO/IEC 10646:2011」包含早前已公布的中日韓表意文字區的 20,940 個表意文字, 中日韓表意文字區擴展區 A 的 6,582 個表意文字,中日韓表意文字區擴展區 B 的 42,711 個表意文字,中日韓表意文字區擴展 區 C 的 4,149 個表意文字和新公布中日韓表意文字區擴展區 D 的 222 個表意文字。
國際標準化組織在二零一四年九月發表了「ISO/IEC 10646:2014」,當中包括中日韓表意文字區擴展區 E 的 5,762 個表意文字。
國際標準化組織於二零一七年十二月發表了「ISO/IEC 10646:2017」,當中包括中日韓表意文字區擴展區 F 的 7,473 個表意文字。
國際標準化組織於二零二零年十二月發表了「ISO/IEC 10646:2020」,當中包括中日韓表意文字區擴展區 G 的 4,939 個表意文字。

頁首
問 6.

ISO/IEC 10646 現時的發展情況怎樣?

答 6.

表意文字是指一些字形與字義具有關係的文字,例如漢字。把表意文字收納在 ISO/IEC 10646 的工作是分期進行的, 即中日韓表意文字區擴展區A、中日韓表意文字區擴展區 B、中日韓表意文字區擴展區 C 及中日韓表意文字區擴展區 D 等階段。
中日韓表意文字區擴展區 A 收納了 6,582 個表意文字,已隨「ISO/IEC 10646-1:2000」獲得發表。
中日韓表意文字區擴展區 B 收納了 42,711 個表意文字,已隨「ISO/IEC 10646-2:2001」獲得發表。
中日韓表意文字區擴展區 C 收納了 4,149 個表意文字,已隨「ISO/IEC 10646:2003」的第五修訂版獲得發表。
中日韓表意文字區擴展區 D 收納了 222 個表意文字已隨「ISO/IEC 10646:2011」獲得發表。
中日韓表意文字區擴展區 E 的 5,762 個表意文字,已隨「ISO/IEC 10646:2014」獲得發表。
中日韓表意文字區擴展區 F 的 7,473 個表意文字,已隨「ISO/IEC 10646:2017」獲得發表。
中日韓表意文字區擴展區 G 的 4,939 個表意文字,已隨「ISO/IEC 10646:2020」獲得發表。

頁首
問 7.

什麼是表意文字?

答 7.

國際標準化組織依照各國的語言特性,將文字分門別類,其中包括表意文字。 表意文字是指一些字形與字義有關的文字,例如漢字,主要包括中國內地、香 港、台灣、澳門、日本、南韓、北韓、越南、新加坡等地區所使用的漢字。

頁首
問 8.

什麼是表意文字小組?

答 8.

表意文字小組是國際標準化組織轄下一個工作小組,專責發展 ISO/IEC 10646 內的表意文字。小組至今已發展了「中日韓表意文字區」(CJK Unified Ideographs Block)、擴展區 A(Extension A)、擴展區 B(Extension B)、 擴展區 C(Extension C)、擴展區 D(Extension D)、擴展區 E(Extension E)、擴展區 F(Extension F)及擴展區 G(Extension G)。

頁首
問 9.

表意文字小組成員包括哪些國家/地區?

答 9.

表意文字小組成員來自中國內地、香港、澳門、台北市電腦商業同業公會、新加坡 、日本、南韓、北韓、越南及美國。 此外,Unicode Consortium 亦有代表參加該小組的會議,協調 ISO/IEC 10646 及統一碼之間的同步發展工作。

頁首
問 10.

什麼是統一碼 (Unicode)?

答 10.

統一碼是由一個名為 Unicode Consortium 的機構制訂的字符編碼系統,以支援現今世界各種不同語言的書面文本的交換、處理及顯示。Unicode Consortium 的成員大部分為電腦軟硬件的供應商。

頁首
問 11.

Unicode 和 ISO/IEC 10646 有什麼關係?

答 11.

在一九九一年,國際標準化組織與 Unicode Consortium 決定共同制訂一套適用於多種語文文本的通用編碼標準。 自此以後,該兩個組織便一直緊密合作,同步發展 ISO/IEC 10646 及統一碼。 國際標準化組織提供 ISO/IEC 10646 內的字符及編碼資料, Unicode Consortium 則對這些字符及編碼資料提出應用的方法以及語義資料作補充。 ISO/IEC 10646 與相應版本的統一碼所包含的字符及使用的編碼是相同的。 統一碼可被視為是 ISO/IEC 10646 的實踐版。因此,支援統一碼的產品,亦即支援 ISO/IEC 10646。

頁首
問 12.

什麼是 ISO/IEC 10646 擴展區 B,其好處何在?

答 12.

三十二位元碼位是由一對特殊值的十六位元碼位所組成,即所謂的代理對(surrogate pair)。 這一對代理,分別是前導代理 (lead surrogates)和後尾代理 (trail surrogates) 。
前導代理(lead surrogates) 的範圍值是從D800到DBFF,後尾代理(trail surrogates) 的範圍值是從DC00至DFFF。 只要使用統一碼標準中特定的算法(https://unicode.org/faq/utf_bom.html#utf16-2), 就可以通過代理對的數學運算,得出該字符的三十二位元碼位。

統一碼最初的設計是使用十六位元碼位,為大約65,000個字符編碼。經過多年的發展, 十六位元碼位已不足夠代表常見的文字。採用三十二位元碼位擴展編碼至一百萬個字符, 足夠為常見的文字編碼。

採用三十二位元碼位,能更有效和準確地使用通用的中文字符進行日常電子通訊, 因為三十二位元碼位 (中日韓表意文字擴展區 B 及其後的擴展區) 不但具備中日韓表意文字區、 中日韓表意文字擴展區 A 內的表意文字,更吸納了各界採用的通用中文字符, 令表意文字總數超過70,000 個,當中包含了收錄在《康熙字典》、《漢語大字典》和《漢語大詞典》內的漢字。

頁首
問 13.

新舊版本的 ISO/IEC 10646 以及《香港增補字符集》(簡稱"標準")是否兼容?

答 13.

新版本"標準"是兼容舊版本的。但在軟件實施方面,支援舊版本"標準"的操作系統, 不一定能夠正確顯示根據新版本"標準"增收的字符。另一方面,現有支援舊版本"標準"的應用軟件, 也不一定能夠正確處理新版本"標準"所增收的字符,包括在新版本"標準"中獲國際標準化組織編配碼位的《香港增補字符集》字符。

用戶使用"香港政府一站通"網上服務時,如果遇到有關處理字符的問題,可以瀏覽和參考網頁上的常見問題欄目。

頁首
問 14.

如何瀏覽 ISO/IEC 10646 版本?

答 14.

本中文網站的 ISO/IEC 10646 版本是以 UTF-8 編碼的。普遍通用的網頁瀏覽器如 Google Chrome 及 Mozilla Firefox 均已支援 UTF-8 編碼。請參照以下步驟以瀏覽本網站的 ISO/IEC 10646 版本:

  1. 設定你的互聯網瀏覽器以中文字型顯示 UTF-8 網頁,或安裝適用於你的互聯網瀏覽器的中文顯示支援。
  2. 當你瀏覽 UTF-8 網頁時,把互聯網瀏覽器的編碼選項轉成 "UTF-8" 。
頁首
問 15.

我的電腦平台支援ISO/IEC 10646。為什麼一些機構印發的文件/證件上的中文字,字形與我的電腦平台顯示的不盡相同?

答 15.

ISO/IEC 10646 提供一套統一的字符編碼標準,方便各地電腦用戶進行電子通訊及資料交換。 這些字符編碼在個別電腦平台的顯示字形或列印字形,取決於應用軟件選用的字體。

ISO/IEC 10646 轄下的表意文字小組根據中日韓表意文字的等同程序和安排 (ISO/IEC 10646文件附件S:Procedure for the unification and arrangement of CJK Ideographs), 審議不同字符來源的字形是否等同,並為等同的字形編配同一編碼。換言之,同一編碼可以代表一個或多個字形。 下表以示例形式,列舉同一編碼的字符使用不同字體所顯示的等同字形。

不同字體所顯示的等同字形

  1. 新細明體、Meiryo (日本字體)和Batang (韓國字體) 是Windows 7隨機安裝的字體。
  2. 各等同字形的主要差異以藍色圈示。

由於列印有關文件/證件的電腦系統或設備的預設字體,可能與你個人電腦的預設字體不 同,所以當中一些中文字字形,或會與你個人電腦平台顯示的不盡相同。

關於如何找出中文字的 ISO/IEC 10646 編碼,請參考以下短片示範: https://www.youtube.com/watch?v=WEvJqfUZwcE

ISO/IEC 10646 文件可在https://standards.iso.org/ittf/PubliclyAvailableStandards/ 下載。 該文件提供更多字符來源和等同字形的資料,有助確定一些近似的字形是否等同。

頁首
問 16.

一些漢字有不同寫法,例如“悦”和“悅”。要支援“悦”這個字形,技術上可否直接把字體軟件內的“悅”修改成“悦”?

答 16.

漢字往往一字多形,但某些字卻不能直接修改字形,因為這些漢字在 ISO/IEC 10646 中獲分 配不同碼位,若修改其中一個碼位的字形,兩個碼位或會出現相同的字形。以“悦”和“悅”為 例,兩字在 ISO/IEC 10646 中獲分別編碼為U+60A6和U+6085:

兩個碼位或會出現相同的字形

開發字體軟件的人士要支援“悦”這個字形,應以 ISO/IEC 10646 編碼U+60A6 為基礎,而不應 修改U+6085“悅”的字形,否則U+60A6和U+6085兩個碼位便會出現相同字形,造成混亂,不利於 電子資訊交換。

如欲查看其他相關例子,請參閱 ISO/IEC 10646 文件附件S,該文件可在 https://standards.iso.org/ittf/PubliclyAvailableStandards/下載。

頁首
問 17.

什麼是網頁開放字型格式 (Web Open Font Format (WOFF))?採用WOFF有什麼好處?

答 17.

WOFF是萬維網聯盟(World Wide Web Consortium (W3C))制定的網絡字型技術標準。 採用WOFF後,當網頁瀏覽器(web browser)存取網頁時,會同步從伺服器(Server)取用相關的字型資料。 因此,即使用戶沒有預先安裝特定字型,也可以在網頁上看到這些字型,這樣便能確保各種字型設計都能在網頁正確顯示出來。

頁首