有关ISO/IEC 10646的问题及解答
问 1. 统一的编码标准有什么好处?
问 2. 统一的编码标准对发展共通的中文界面有什么帮助?
问 3. 什么是国际标准化组织?
问 4. 什么是 ISO/IEC 10646?
问 5. ISO/IEC 10646 在何时出版?
问 6. ISO/IEC 10646 现时的发展情况怎样?
问 7. 什么是表意文字?
问 8. 什么是表意文字小组?
问 9. 表意文字小组成员包括哪些国家/地区?
问 10. 什么是统一码 (Unicode)?
问 11. Unicode 和 ISO/IEC 10646 有什么关系?
问 12. 什么是 ISO/IEC 10646 扩展区 B,其好处何在?
问 13. 新旧版本的 ISO/IEC 10646 以及《香港增补字符集》(简称"标准")是否兼容?
问 14. 如何浏览 ISO/IEC 10646 版本?
问 15. 我的电脑平台支援ISO/IEC 10646。为什么一些机构印发的文件/证件上的中文字,字形与我的电脑平台显示的不尽相同?
问 16. 一些汉字有不同写法,例如“悦”和“悦”。要支援“悦”这个字形,技术上可否直接把字体软件内的“悦”修改成“悦”?
问 17. 什么是网页开放字型格式 (Web Open Font Format (WOFF))?采用WOFF有什么好处?
有关ISO/IEC 10646的问题及解答
问 1.

统一的编码标准有什么好处?

答 1.

采用统一编码,电脑系统可准确地处理及显示不同语言的电子资料。用户毋须使用转换工具来处理不同编码的电子资料。统一编码令在进行电子通讯时,资料失误的情况减少,从而便利各地间的电子通讯。

页首
问 2.

统一的编码标准对发展共通的中文界面有什么帮助?

答 2.

采用统一编码标准,世界各地的电脑系统能够以相同的编码显示资讯。中国内地、 香港、台湾三地的电脑系统亦将可以准确地显示以繁体字、简体字及香港特有用字 发出的资讯,而不需要使用不同的编码标准,以免对电子通讯构成障碍。

页首
问 3.

什么是国际标准化组织?

答 3.

国际标准化组织(The International Organization for Standardization,简称 ISO) (https://www.iso.org/)是于 1947 年成立的非政府组织。成员包括来自超过 160 个国家 的代表。 ISO 成立的目的是发展不同的国际标准,以改善世界各地在不同项目方面 (例如贸易、资讯、技术等)的交流。

页首
问 4.

什么是 ISO/IEC 10646?

答 4.

ISO/IEC 10646 是国际标准化组织(ISO)统筹下,发展出来的一套国际编 码标准,把世界各种主要语言所使用的字符,编入单一套通用字集内。

页首
问 5.

ISO/IEC 10646 在何时出版?

答 5.

国际标准化组织于一九九三年发表 ISO/IEC 10646的首个版本,全名是 「ISO/IEC 10646-1:1993」。
该组织在二零零零年发表了「ISO/IEC 10646-1:2000」,作为「ISO/IEC 10646-1:1993」的更新版。 「ISO/IEC 10646-1:2000」收纳了 27,484个表意文字,其中包括 20,902 个在「ISO/IEC 10646-1:1993」内的表意文字及属于 中日韩表意文字区扩展区 A 的 6,582 个新增的表意文字。
在二零零一年十一月发表的「ISO/IEC 10646-2:2001」,是作为对「ISO/IEC 10646-1:2000」的补充。 「ISO/IEC 10646-2:2001」收纳了属于中日韩表意文字区扩展区 B 的 42,711 个新增的表意文字, 使ISO/IEC 10646所包含的表意文字总数超逾 70,000 个,其中包括所有收录在《康熙字典》、 《汉语大字典》和《汉语大词典》内的汉字。
国际标准化组织于二零零四年四月发表了「ISO/IEC 10646:2003」,它合并了「ISO/IEC 10646-1:2000」 和「ISO/IEC 10646-2:2001」而成为一个单一版本。因此,「ISO/IEC 10646:2003」内的表意文字与 「ISO/IEC 10646-1:2000」附带「ISO/IEC 10646-2:2001」内的表意文字是相同的。
国际标准化组织在二零零八年十二月发表了「ISO/IEC 10646:2003」的第五修订版,于中日韩表意文字区扩展区 C 增 加了 4,149 个表意文字。国际标准化组织在二零零九年十月发表了「ISO/IEC 10646:2003」的第六修订版。
国际标准化组织于二零一一年三月发表了「ISO/IEC 10646:2011」。 「ISO/IEC 10646:2011」是合并了「ISO/IEC 10646:2003」 和它的第一至七修订版的单一版本。 「ISO/IEC 10646:2011」包含早前已公布的中日韩表意文字区的 20,940 个表意文字, 中日韩表意文字区扩展区 A 的 6,582 个表意文字,中日韩表意文字区扩展区 B 的 42,711 个表意文字,中日韩表意文字区扩展 区 C 的 4,149 个表意文字和新公布中日韩表意文字区扩展区 D 的 222 个表意文字。
国际标准化组织在二零一四年九月发表了「ISO/IEC 10646:2014」,当中包括中日韩表意文字区扩展区 E 的 5,762 个表意文字。
国际标准化组织于二零一七年十二月发表了「ISO/IEC 10646:2017」,当中包括中日韩表意文字区扩展区 F 的 7,473 个表意文字。
国际标准化组织于二零二零年十二月发表了「ISO/IEC 10646:2020」,当中包括中日韩表意文字区扩展区 G 的 4,939 个表意文字。

页首
问 6.

ISO/IEC 10646 现时的发展情况怎样?

答 6.

表意文字是指一些字形与字义具有关系的文字,例如汉字。把表意文字收纳在 ISO/IEC 10646 的工作是分期进行的, 即中日韩表意文字区扩展区A、中日韩表意文字区扩展区 B、中日韩表意文字区扩展区 C 及中日韩表意文字区扩展区 D 等阶段。
中日韩表意文字区扩展区 A 收纳了 6,582 个表意文字,已随「ISO/IEC 10646-1:2000」获得发表。
中日韩表意文字区扩展区 B 收纳了 42,711 个表意文字,已随「ISO/IEC 10646-2:2001」获得发表。
中日韩表意文字区扩展区 C 收纳了 4,149 个表意文字,已随「ISO/IEC 10646:2003」的第五修订版获得发表。
中日韩表意文字区扩展区 D 收纳了 222 个表意文字已随「ISO/IEC 10646:2011」获得发表。
中日韩表意文字区扩展区 E 的 5,762个表意文字,已随「ISO/IEC 10646:2014」获得发表。
中日韩表意文字区扩展区 F 的 7,473个表意文字,已随「ISO/IEC 10646:2017」获得发表。
中日韩表意文字区扩展区 G 的 4,939个表意文字,已随「ISO/IEC 10646:2020」获得发表。

页首
问 7.

什么是表意文字?

答 7.

国际标准化组织依照各国的语言特性,将文字分门别类,其中包括表意文字。 表意文字是指一些字形与字义有关的文字,例如汉字,主要包括中国内地、香 港、台湾、澳门、日本、南韩、北韩、越南、新加坡等地区所使用的汉字。

页首
问 8.

什么是表意文字小组?

答 8.

表意文字小组是国际标准化组织辖下一个工作小组,专责发展 ISO/IEC 10646 内的表意文字。小组至今已发展了「中日韩表意文字区」(CJK Unified Ideographs Block)、扩展区 A(Extension A)、扩展区 B(Extension B)、 扩展区 C(Extension C)、扩展区 D(Extension D)、扩展区 E(Extension E)、扩展区 F(Extension F)及扩展区 G(Extension G)。

页首
问 9.

表意文字小组成员包括哪些国家/地区?

答 9.

表意文字小组成员来自中国内地、香港、澳门、台北市电脑商业同业公会、新加坡、日本、南韩、北韩、越南及美国。 此外,Unicode Consortium 亦有代表参加该小组的会议,协调 ISO/IEC 10646 及统一码之间的同步发展工作。

页首
问 10.

什么是统一码 (Unicode)?

答 10.

统一码是由一个名为 Unicode Consortium 的机构制订的字符编码系统,以支援现今世界各种不同语言的书面文本的交换、处理及显示。 Unicode Consortium 的成员大部分为电脑软硬件的供应商。

页首
问 11.

Unicode 和 ISO/IEC 10646 有什么关系?

答 11.

在一九九一年,国际标准化组织与 Unicode Consortium 决定共同制订一套适用于多种语文文本的通用编码标准。 自此以后,该两个组织便一直紧密合作,同步发展 ISO/IEC 10646 及统一码。 国际标准化组织提供 ISO/IEC 10646 内的字符及编码资料, Unicode Consortium 则对这些字符及编码资料提出应用的方法以及语义资料作补充。 ISO/IEC 10646 与相应版本的统一码所包含的字符及使用的编码是相同的。 统一码可被视为是 ISO/IEC 10646 的实践版。因此,支援统一码的产品,亦即支援 ISO/IEC 10646。

页首
问 12.

什么是 ISO/IEC 10646 扩展区 B,其好处何在?

答 12.

三十二位元码位是由一对特殊值的十六位元码位所组成,即所谓的代理对(surrogate pair)。 这一对代理,分别是前导代理 (lead surrogates)和后尾代理 (trail surrogates)。
前导代理(lead surrogates) 的范围值是从D800到DBFF,后尾代理(trail surrogates) 的范围值是从DC00至DFFF。 只要使用统一码标准中特定的算法(https://unicode.org/faq/utf_bom.html#utf16- 2), 就可以通过代理对的数学运算,得出该字符的三十二位元码位。

统一码最初的设计是使用十六位元码位,为大约65,000个字符编码。经过多年的发展, 十六位元码位已不足够代表常见的文字。采用三十二位元码位扩展编码至一百万个字符, 足够为常见的文字编码。

采用三十二位元码位,能更有效和准确地使用通用的中文字符进行日常电子通讯, 因为三十二位元码位 (中日韩表意文字扩展区 B 及其后的扩展区) 不但具备中日韩表意文字区、 中日韩表意文字扩展区 A 内的表意文字,更吸纳了各界采用的通用中文字符, 令表意文字总数超过70,000 个,当中包含了收录在《康熙字典》、《汉语大字典》和《汉语大词典》内的汉字。

页首
问 13.

新旧版本的 ISO/IEC 10646 以及《香港增补字符集》(简称"标准")是否兼容?

答 13.

新版本"标准"是兼容旧版本的。但在软件实施方面,支援旧版本"标准"的操作系统, 不一定能够正确显示根据新版本"标准"增收的字符。另一方面,现有支援旧版本"标准"的应用软件, 也不一定能够正确处理新版本"标准"所增收的字符,包括在新版本"标准"中获国际标准化组织编配码位的《香港增补字符集》字符。

用户使用"香港政府一站通"网上服务时,如果遇到有关处理字符的问题,可以浏览和参考网页上的常见问题栏目。

页首
问 14.

如何浏览 ISO/IEC 10646 版本?

答 14.

本中文网站的 ISO/IEC 10646 版本是以 UTF-8 编码的。普遍通用的网页浏览器如 Google Chrome 及 Mozilla Firefox 均已支援 UTF-8 编码。请参照以下步骤以浏览本网站的 ISO/IEC 10646 版本:

  1. 设定你的互联网浏览器以中文字型显示 UTF-8 网页,或安装适用于你的互联网浏览器的中文显示支援。
  2. 当你浏览 UTF-8 网页时,把互联网浏览器的编码选项转成 "UTF-8" 。
页首
问 15.

我的电脑平台支援ISO/IEC 10646。为什么一些机构印发的文件/证件上的中文字,字形与我的电脑平台显示的不尽相同?

答 15.

ISO/IEC 10646 提供一套统一的字符编码标准,方便各地电脑用户进行电子通讯及资料交换。 这些字符编码在个别电脑平台的显示字形或列印字形,取决于应用软件选用的字体。

ISO/IEC 10646 辖下的表意文字小组根据中日韩表意文字的等同程序和安排 (ISO/IEC 10646文件附件S:Procedure for the unification and arrangement of CJK Ideographs), 审议不同字符来源的字形是否等同,并为等同的字形编配同一编码。换言之,同一编码可以代表一个或多个字形。 下表以示例形式,列举同一编码的字符使用不同字体所显示的等同字形。

不同字体所显示的等同字形

  1. 新细明体、Meiryo (日本字体)和Batang (韩国字体) 是Windows 7随机安装的字体。
  2. 各等同字形的主要差异以蓝色圈示。

由于列印有关文件/证件的电脑系统或设备的预设字体,可能与你个人电脑的预设字体不 同,所以当中一些中文字字形,或会与你个人电脑平台显示的不尽相同。

关于如何找出中文字的 ISO/IEC 10646 编码,请参考以下短片示范: https://www.youtube.com/watch?v=WEvJqfUZwcE

ISO/IEC 10646 文件可在https://standards.iso.org/ittf/PubliclyAvailableStandards/下载。 该文件提供更多字符来源和等同字形的资料,有助确定一些近似的字形是否等同。

页首
问 16.

一些汉字有不同写法,例如“悦”和“悦”。要支援“悦”这个字形,技术上可否直接把字体软件内的“悦”修改成“悦”?

答 16.

汉字往往一字多形,但某些字却不能直接修改字形,因为这些汉字在 ISO/IEC 10646 中获分 配不同码位,若修改其中一个码位的字形,两个码位或会出现相同的字形。以“悦”和“悦”为 例,两字在 ISO/IEC 10646 中获分别编码为U+60A6和U+6085:

两个码位或会出现相同的字形

开发字体软件的人士要支援“悦”这个字形,应以 ISO/IEC 10646 编码U+60A6 为基础,而不应 修改U+6085“悦”的字形,否则U+60A6和U+6085两个码位便会出现相同字形,造成混乱,不利于 电子资讯交换。

如欲查看其他相关例子,请参阅 ISO/IEC 10646 文件附件S,该文件可在 https://standards.iso.org/ittf/PubliclyAvailableStandards/下载。

页首
问 17.

什么是网页开放字型格式 (Web Open Font Format (WOFF))?採用WOFF有什麼好處?

答 17.

WOFF是万维网联盟(World Wide Web Consortium (W3C))制定的网络字型技术标准。 采用WOFF后,​​当网页浏览器(web browser)存取网页时,会同步从伺服器(Server)取用相关的字型资料。 因此,即使用户没有预先安装特定字型,也可以在网页上看到这些字型,这样便能确保各种字型设计都能在网页正确显示出来。

页首