香港特别行政区政府
共通中文界面网站
香港特别行政区政府
共通中文界面网站
图
主页
香港特别行政区政府
共通中文界面网站
图 列印 转寄给朋友 繁體版 English version 文字版 图
香港特别行政区政府
共通中文界面网站
图
图
 
图 图 图
 

ISO 10646 的认知

有否试过,收到朋友寄来的中文电子邮件,打开一看却全是莫名其妙的古怪符号,无法得知友人的讯息?又或传送一个重要档案给海外客户,档案到达後却不能正确显示内里的资料,造成诸多不便?这些都是因为中文字符出现乱码的缘故。

国际标准化组织 (ISO) 为提供一个开放的技术基础以处理不同语文的电子资料,发展了一套名为 ISO 10646 的国际编码标准,为世界各种主要语文的字符编订统一内码,当中包括繁体及简体中文字。

编码标准不同 图难以沟通

世界各地目前采用了不同的编码标准,在电脑及电子装置内处理当地语文的字符。例如,香港以前沿用「大五码」,近年来在特区政府积极推广下,现在普遍采用 ISO 10646 国际编码标准;内地的中文编码标准是「国标码」;台湾则采用「中文标准交换码」,也普遍使用「大五码」。

各种不同的编码标准互不兼容,一个编码在不同的编码标准内可能代表不同的字符,导致某一地区发出的电子资讯,传送到其他地区的电脑系统後,可能出现乱码或某些字符不能正确显示等问题。即使可借助转换编码的软件,但这不单费时失事,亦未必能完全解决问题,因为不同编码标准的字符数目不同,有可能无法完全转换。

单一编码标准图 资讯互通

制订 ISO 10646 国际编码标准,正是为了解决上述问题。它提供了一套共通的字符编码标准,方便世界各地的电脑用户进行电子通讯及资料交换。采用该标准後,各地不同的电脑系统之间便能更准确地储存、处理、传递及显示各种语文的电子资讯,从而加强电子资讯的流通及推动电子交易的进行。

* ISO 10646 演进大追踪

1993 国际标准化组织发表 ISO 10646 国际编码标准的首个版本,全名为「ISO/IEC 10646-1:1993」。
2000 推出更新版本「ISO/IEC 10646-1:2000」,除包括旧版本内 20,902 个表意文字外,更於扩展区 A 增收 6,582 个表意文字,合共 27,484 个表意文字。表意文字是指字形与字义具有关系的文字,例如汉字。
2001 为补充 2000 年版本而发表「ISO/IEC 10646-2:2001」,於扩展区 B 新增了 42,711 个表意文字,使表意文字总数超逾 70,000 个,其中包括所有收录在《康熙字典》、《汉语大字典》和《汉语大词典》内的汉字。
2004 发表「ISO/IEC 10646:2003」,把 2000 和 2001 年版本合併成为单一发行本,内含的表意文字数目维持不变。
2005

公布「ISO/IEC 10646:2003 第一修订版」,发表「国际表意文字子集」(International Ideographs Core, IICORE)。

把表意文字收纳在 ISO 10646 国际编码标准的工作是分三期进行的,即扩展区 A、B 及 C 等三个阶段。扩展区 A 和 B 已分别随 2000 及 2001 年版本发表;至於扩展区 C 的工作计划,有待国际标准化组织稍後决定。

为达到标准化的目的,国际标准化组织在以下网页免费提供一些刊载 ISO 标准的文件 ( 包括 ISO 10646 国际编码标准及其修订版 ) :
http://standards.iso.org/ittf/PubliclyAvailableStandards/

国际标准化组织及 Unicode 学术学会维持 ISO 10646 国际编码标准及统一码的同步发展。有关 ISO 10646 国际编码标准/统一码的收字资料,请参阅 Unicode 学术学会的网页 http://www.unicode.org/

*简介制订 ISO/IEC 10646:2003 修订版的程序

图 找出中文字的 ISO/IEC 10646 编码的示范

* ISO 10646 知多一点点

ISO 跟 Unicode 有何关系?

1991 年,国际标准化组织 (ISO) 与 Unicode 学术学会决定共同制订一套适用於多种语文文本的通用编码标准。此後,该两个组织一直紧密合作,同步发展 ISO 10646 国际编码标准及统一码。国际标准化组织提供 ISO 10646 国际编码标准内的字符及编码资料,Unicode 则对这些字符及编码资料提出应用方法和语义资料作为补充。

ISO 10646 跟统一码有何关系?

ISO 10646 国际编码标准与相应版本的统一码所包含的字符及使用的编码是相同的,统一码可视为 ISO 10646 国际编码标准的实践版。因此,支援统一码的产品,亦即支援 ISO 10646 国际编码标准。

什么是 ISO 10646 表意文字?

表意文字是指字形与字义具有关系的文字,例如中文字。 ISO 10646 国际编码标准把所有中文字符及其他语言中近似中文的字符 (例如日语的 Kanzi 和韩语的 Hanja) 统称为汉字。

ISO 10646 内的汉字归入三个主要编码区,即中日韩表意文字区、扩展区 A 及扩展区 B。中日韩表意文字区和扩展区 A 收纳於 ISO 10646 国际编码标准 2000 年版本内,而扩展区 B 则收纳於 2001 年版本中。

采用 ISO 10646 扩展区 B 有何好处?

采用 ISO 10646 扩展区 B,能更有效和准确地使用更多通用的中文字符进行日常电子通讯,因为扩展区 B 不但具备扩展区 A 内的中日韩表意文字,更吸纳了从各界收集得来的通用中文字符,令表意文字总数增至逾 70,000 个,其中包含了所有收录在《康熙字典》、《汉语大字典》和《汉语大词典》内的汉字。

扩展区 B 的位元码位有何特点?

在结构上,中日韩表意文字区和扩展区 A 的表意文字可用 16 位元码位组成 (例如:16 进制数值4E00);但扩展区 B 的表意文字则须用 32 位元码位组成 (例如:16 进制数值 00020000,通常简化为20000)。

什么是 IICORE (国际表意文字子集)?

ISO 10646 国际编码标准现包含的表意文字超过 70,000 个。为这些表意文字制订子集 (浓缩版),可方便用户在使用流动装置等资源有限的设备时,也能应付日常中文电子通讯的需要。

国际标准化组织内的表意文字小组,专责发展 ISO 10646 内的表意文字。该小组已於 2005 年 11 月在「ISO/IEC 10646:2003 第一修订版」中,公布制订名为 IICORE (International Ideographs Core) 的国际表意文字子集,内含字符共 9,810 个,适用於记忆体容量、输入/输出能力有限的设备,或不便使用整套 ISO 10646 表意文字字集的应用系统。有关 IICORE 的开发资料(只有英文版),可到以下网站查阅:http://www.cse.cuhk.edu.hk/~irg/irg/IICore/IICore.htm

 

 
图 图 图
 
上一页 返回页首
 
图 图 图
图 网站指南 | 免责声明 图