文化习俗的差别
下面是在国际化和本地化过程中常常遇到的并且应当注意的地方, 对国际化软件 的开发, 应该充分注意到各个地域的文化和习惯, 开发出通用的软件, 对于本地 化过程, 则应选择与本地域相符的习惯.
姓名,地址等特殊信息
姓名中的"姓"和"名"的先后次序, 地址书写的先后次序 电话号码的长度等 等
图标的通用性
图标是易于接受的用户界面, 设计时应考虑到地域习惯, 而且图标上不能有 图形文字, 否则需要重新设计本地图标, 并翻译图标上的文字.
声音使用
不适当的声音或提示可能会引起人的反感. 另外, 声音 的性别对某些国家 是敏感的.
颜色使用
颜色和色调与民俗有关, 比如红色在美国表示危险, 在中国 表示喜庆.
纸张尺寸
打印纸的尺寸因地域而不同, 在选择缺省尺寸时应注意.
键盘差别
在键盘上的键可能因国家而异, 键的个数也可能不一样. 影射关系也不同.
政治因素
在产品设计上, 尽量不要有政治敏感性部分.
(第二章完)
三 X 窗口系统的国际化
在 X 窗口系统上的国际化, 特别是中文化, 主要体现在显示,输入和打印三个方面.
1. 显示的国际化
1. 字符集和编码
在Linux上经常使用的字符集是ISO 8859系列的字符集. 它包含了10个 多语
言的单字节编码字符集. 它们分别是,
字符集 涵盖语言
拉丁一字符集, 包含绝大多数的欧洲语言,
例如French(fr), Spanish (es), Catalan
(ca), Basque (eu), Portuguese (pt),
Italian (it), Albanian (sq),
Rhaeto-Romanic (rm), Dutch (nl),
ISO 8859-1(Latin1) German (de), Danish (da), Swedish
(sv), Norwegian (no), Finnish (fi),
Faroese (fo), Icelandic (is), Irish
(ga), Scottish (gd), English (en),
Afrikaans (af) 和 Swahili (sw). 影响了
美洲, 澳洲和非洲.
拉丁二字符集, 包含了中欧和东欧的语
ISO 8859-2(Latin2) 言:Czech (cs), Hungarian (hu), Polish
(pl), Romanian (ro), Croatian (hr),
Slovak (sk), Slovenian (sl), Sorbian.
ISO 8859-3(Latin3) 拉丁三字符集, 包括: Esperanto (eo) and
Maltese (mt)
拉丁四字符集, 包括: Estonian (et), 巴
ISO 8859-4(Latin4) 尔地克 Latvian (lv) 和 Lithuanian
(lt), Greenlandic (kl) , Lappish.
Bulgarian (bg), Byelorussian (be),
ISO 8859-5(西里尔语) Macedonian (mk), Russian (ru), Serbian
(sr)
ISO 8859-6(阿拉伯语) 阿拉伯语(ar)
ISO 8859-7(希腊语) 希腊语(el)
ISO 8859-8(希伯来语) Hebrew (iw) 和Yiddish (ji)
ISO 8859-9(Latin5) 重排了Latin1, 用土耳其语的几个字母做了
替换
ISO 8859-9(Latin6) 重排了Latin4, 去掉了某些符号, 增加了
Inuit等
ISO 8859-11(泰国语) 泰国语(th)
ISO 8859-12 Celtic
ISO 8859-13(Latin7) Baltic Rim 和 Lativian(lv)
ISO 8859-14(Latin8) Gaelic 和 Welsh (cy)
ISO 8859-15(Latin9) Latin1的变种, 修改了某些字母
双字节字符集主要包含中文,日文和韩文. 它由前导字节(Lead Byte) 和尾
部字节(Trail Byte)构成, 由于一个字符采用了两个字节, 在软件的 国际
化方面又增加了一些麻烦, 比如在显示上, 光标的位置不能位于汉字 之间,
删除和移动时必须是整字操作等, 在输入上, 一般需要预编辑服务器 才能
输入汉字. 下表列出了中日韩语言编码的有关信息:
语 前导字节范
言 字符集 代码页 围 尾部字节范围
简 GB2312-1980 CP936 0xA1-0xF7 0xA1-0xFE
体
中
文 GBK 无 0x81-0xFE 0x40-0x7E, 0x80-0xFE
中
文
繁 BIG-5 CP950 0x81-0xFE 0x40-0x7E, 0xA1-0xFE
体
日 0x81-0x9F,
文 Shift-JIS CP932 0xE0-0xFC 0x40-0xFC(0x7F除外)
KSC-5601-1987 CP949 0x81-0xFE 0x41-0x5A,0x61-0x7A,0x81-0xFE
0x84-0xD3
韩 0xD8 0x41-0x7E
文 KSC-5601-1992 CP1361 0xD90-0xDE 0x81-0xFE
0xE0-0xF9 0x31-0x7E
0x41,0xFE
最近, 信息产业部和国家质量技术监督局联合发布了两项新的中文信息 处
理基础性国家标准,为解决偏、生汉字的输入提供了方案。其中GB18030-
2000《信息技术和信息交换用汉字编码字符集、基本集的扩充》,为强制性
国家标准. 它收录了2.7万多个汉字,总编码空间超过150万个码位,为彻底
解决邮政、户政、金融、 地理信息系统等迫切需要的人名、地名用字问题
提供了解决方案,也为汉字研究、古籍整理等领域提供了统一的信息平台基
础。 这项标准还同时收录了藏文、蒙文、维吾尔文等主要的少数民族文字.
字符 集编码范围是:
字节数 编码空间 码位数目
单字节 0x00-0x80 129
双字节 第一字节:0x81-0xFE 23940
第二字节:0x40-0x7E,0x80-0xFE
四字节 四字节范围分别是: 1587600
0x80-0xFE,0x30-0x39,0x81-0xFE,0x30-0x39
香港特别行政区也对Big5编码提出了"香港增补字符集", 其目的,是 收纳
香港特区政府及市民在中文电子通讯中有需要使用的字符,来补充目前 大
五码和ISO10646编码标准内并未包含的字符,以作为一个通用的中文界面,
方便大家能准确地以中文进行电子通讯。香港增补字符集有两套编码方案,
一套适用於大五码系统,另一套适用於ISO10646平台。香港增补字符集的大
五码版本,实际上是政府通用字库的增订版。ISO10646国际编码标准目前并
未包含香港增补字符集内的所有字符。目前尚未收纳在ISO10646内的香港增
补字符集字符,均已提交国际标准化组织管辖下的表意文字小组,以考虑是
否纳入ISO10646日后的新增版本内.
上述标准和草案应该是以后的中文Linux所应该遵循的.
2. 多字节字符(Multibyte)和宽字符(WideChar)的使用
我们平时见到的以文本方式存在的字符都是多字节字符, 它主要用于 文件
存储和网络上的以流(Stream)的方式传输. 一个GB编码的汉字需要两个 字
节. 多字节字符的缺点是在中文处理上不方便, 比如汉字的删除和光标的
移动都会有半汉字问题. 为了文本处理的方便, 在内部操作上通常是把汉字
与英文的混和字符串先转换成等宽度的字符串, 即宽字符, 为软件的内部处
理 提供方便.
glibc2.1.x中多字节字符串和宽字符串的转换有时有问题. 在X下还可以 使
用另外一种方式完成转换, 即使用XmbTextListToTextProperty()和
XwcTextPropertyToTextList() 联合完成转换.
3. Unicode
目前所使用的Unicode 是一种16位字宽的字符编码, 它由非赢利的计算机
组织Unicode研讨会维护和改进. 它起源于Xerox和Apple之间的合作研究.上一页 [1] [2] [3] [4] 下一页 |