登录  
 加关注
查看详情
   显示下一条  |  关闭
温馨提示!由于新浪微博认证机制调整,您的新浪微博帐号绑定已过期,请重新绑定!立即重新绑定新浪微博》  |  关闭

南岭笛声

博主在此欢迎您的光临,请……

 
 
 

日志

 
 
关于我

走过了酷暑严寒,走过了崎岖蜿蜒,来到了春风吹拂的山坡上,一阵风雨之后,远处传来了牧笛声声,它是那样的悠扬,那样的撩人向往……

电脑呼唤着全面兼容的大字库  

2009-06-10 16:25:08|  分类: 文字思考 |  标签: |举报 |字号 订阅

  下载LOFTER 我的照片书  |

重装了系统,装上了大字库,装好了专门的输入法,并且装上了兼容包,当然还装好了专用的国际音标,一切都完成之后,我以为这回会是万事大吉了吧。当我满怀信心地打开文档的时候,可是,意想不到的事情还是出现了,真的还是使我哭笑不得:看见了字里行间不时地出现一个一个的空白处,我明白:这是字体不兼容的原因。记得那次去南宁,给周老师对稿,在他的电脑上也是出现这种情况,有些地方出现空白。心里面还有些好笑周老师的电脑不行,明明是我打上字了的,在我的电脑能显示出来,在这里显示不出来,这不是他的电脑有问题吗?哪里知道我也不得不面对这个问题了。原来我的电脑也是一样的不行。当我删掉那个暗藏的字符,重新打那个字符上去的时候,它又显示出来了,唉!你说气人不气人。这个时候我才理解了,我的电脑啊,在呼唤着全面兼容的汉字大字库!呼唤着中日韩越大字库早日编辑完成!

我知道,我所说的,就是现在常常运用着电脑的人,也没有多少人理解这个问题,因为你可能没有需要运用到那些文字,但是,有时候有些字,你打不出,这可能是会有的。如果你有兴趣了解这个问题,就看看下面的文字,或许你会有新的收获!下面三点,是我从汉典网站下来的,没有兴趣就不用往下看了啊!

一、汉字简介

汉字是汉语书写的最基本单元,其使用最晚始于商代,历经甲骨文、大篆、小篆、隶书、楷书(草书、行书)诸般书体变化。秦始皇统一中国,李斯整理小篆,“书同文”的历史从此开始。尽管汉语方言发音差异很大,但是书写系统的统一减少了方言差异造成的交流障碍。

东汉许慎在《说文解字》中将汉字构造规律概括为“六书”:象形、指事、会意、形声、转注、假借。其中,象形、指事、会意、形声四项为造字原理,是“造字法”;而转注、假借则为用字规律,是“用字法”。

三千余年来,汉字的书写方式变化不大,使得后人得以阅读古文而不生窒碍。但近代西方文明进入东亚之后,整个汉字文化圈的各个国家纷纷掀起了学习西方的思潮,其中,放弃使用汉字是这场运动的一个重要方面。这些运动的立论以为:跟西方拼音文字相比,汉字是繁琐笨拙的。许多使用汉字国家即进行了不同程度的汉字简化,甚至还有完全拼音化的尝试。日文假名的拉丁转写方案以及汉语多种拼音方案的出现都是基于这种思想。中国大陆将汉字笔划参考行书草书加以省简,于1956年1月28日审订通过《简化字总表》,在中国及新加坡使用至今。台湾则一直使用繁体中文。

目前在使用汉语的地区,大都使用两种规范汉字,分别是繁体中文(繁体字)和简体中文(简体字)。

汉字,是记录汉语的文字系统,并仍然或曾经在日语和朝鲜语、越南语中使用。汉字是世界上最古老的文字之一,拥有4500年以上的历史。狭义地说,它是汉族的文字;广义地言,它是汉字文化圈共同的文字。

汉字是承载文化的重要工具,目前留有大量用汉字书写的典籍。不同的方言都使用汉字作为共同书写体系,因而汉字在历史上对中华文明的传播起到了重要作用,并成为东南亚文化圈形成的内在纽带。在汉字发展过程中,留下了大量诗词、对联等文化,并形成了独特的汉字书法艺术。

一个汉字一般具有多种含义,也具有很强的组词能力,且很多汉字可独立成词。这导致了汉字极高的“使用效率”,2000左右常用字即可覆盖98%以上的书面表达方式。加之汉字表意文字的特性,汉字的阅读效率很高。汉字具备比字母文字更高的信息密度,因此,平均起来,同样内容的中文表达比其他任何字母语言的文字都短。

目前的汉字体系分为繁体字和简体字,前者用于台湾、香港、澳门和北美的华人圈中,后者用于中国大陆和新加坡以及东南亚的华人社区。通常说来,两种汉字书写系统虽然有差异,常用汉字的个体差异不到25%。

由于汉字书写复杂,“汉字落后论”的说法存在了很长时间,认为汉字是教育及信息化瓶颈,并有“汉字拉丁化”甚至废除汉字的推动行为。现在一般认为汉字也有突出优点,初始学习难度虽大,但掌握常用字后不存在类似海量英文单词的继续学习问题,且其表意特性也能充分调动人脑的学习能力。在计算机输入问题基本解决后,“汉字落后论”及“汉字拉丁化”已实际上逐渐被大多数人抛弃。

目前汉字系统已经基本稳定,但汉字的规范化、生僻字的自然消亡仍在继续进行。

关于汉字编码

为进行信息交换,各汉字使用地区都制订了一系列汉字字符集标准。

① GB2313字符集,收入汉字6763个,符号715个,总计7478个字符,这是大陆普遍使用的简体字符集。楷体-GB2313、仿宋-GB2313、华文行楷等市面上绝大多数字体支持显示这个字符集,亦是大多数输入法所采用的字符集。市面上绝大多数所谓的繁体字体,其实采用的是GB-2313字符集简体字的编码,用字体显示为繁体字,而不是直接用GBK字符集中繁体字的编码,错误百出。

② BIG-5字符集,收入13060个繁体汉字,808个符号,总计13868个字符,目前普遍使用于台湾、香港等地区。台湾教育部标准宋体楷体等港台大多数字体支持这个字符集的显示。

③ GBK字符集,又称大字符集(GB=GuóBiāo国标,K=扩展),包含以上两种字符集汉字,收入21003个汉字,882个符号,共计21885个字符,包括了中日韩(CJK)统一汉字20902个、扩展A集(CJK Ext-A) 中的汉字52个。Windows 95\98简体中文版就带有这个GBK.txt文件。宋体、隶书、黑体、幼圆、华文中宋、华文细黑、华文楷体、标楷体(DFKai-SB)、Arial Unicode MS、MingLiU、PMingLiU等字体支持显示这个字符集。微软拼音输入法2003、全拼、紫光拼音等输入法,能够录入如镕镕炁夬喆嚞姤赟赟䶮龑昳堃慜靕臹等GBK简繁体汉字。

BIG-5 (繁体中文)与GB-2313 (简体中文),编码不相兼容,字符在不同的操作系统中便产生乱码。文本文字的简体与繁体(文字及编码)之间的转换,可用BabelPad、TextPro或Convertz之类的转码软件来解决。若是程序,Windows XP操作系统,可用Microsoft AppLocale Utility 1.0解决;Windows 2000的操作系统,大概只有用:中文之星、四通利方、南极星、金山快译之类的转码软件方能解决了。

④ GB18030字符集,包含GBK字符集、CJK Ext-A 全部6582个汉字,共计27533个汉字。宋体-18030、方正楷体(FZKai-Z03)、书同文楷体(MS Song)宋体(ht_cjk+)、香港华康标准宋体(DFSongStd)、华康香港标准楷体、CERG Chinese Font、韩国New Gulim,以及微软Windows Vista操作系统提供的宋黑楷仿宋等字体亦支持这个字符集的显示。Windows 98支持这个字符集,以下的字符集则不支持。手写输入法逍遥笔4.0版支持GB18030字符集及方正超大字符集汉字的录入。

⑤ 方正超大字符集,包含GB18030字符集、CJK Ext-B中的36862个汉字,共计64395个汉字。宋体-方正超大字符集支持这个字符集的显示。Microsoft Office XP或2003简体中文版就自带有这个字体。Windows 2000的操作系统需安装超大字符集支持包“Surrogate更新”。

⑥ ISO/IEC 10646 / Unicode字符集,这是全球可以共享的编码字符集,两者相互兼融,涵盖了世界上主要语文的字符,其中包括简繁体汉字,计有:CJK统一汉字20902个,CJK Ext-A 6582个,Ext-B 42711个,共计70195个汉字。SimSun-ExtB(宋体)、MingLiU-ExtB(细明体)能显示全部Ext-B汉字。至今尚无单独一款字体能够显示全部70195个汉字,但可用海峰五笔、新概念五笔、仓颉输入法世纪版、新版的微软新注音、仓颉输入法 6.0 版(单码功能)等输入法录入。Ext-C还有2万多个汉字。详情请参阅香港中文大学网站、马来西亚仓颉之友网站、福建陈清钰个人网站。

⑦ 汉字构形数据库2.3版,内含楷书字形60082个、小篆11100个、楚系简帛文字2627个、金文3459个、甲骨文177个、异体字12768组。可以安装该程序,亦可以解压后使用其中的字体文件,对于整理某些古代文献十分有用。

如果超出了输入法所支持的字符集,就不能录入计算机。如果没有相应字体的支持,则显示为黑框、方框或空白。如果操作系统或应用软件不支持该字符集,则显示为问号(一个或两个)。在网页上亦存在同样的情况。

关于Unicode

由于各国国家标准字集所收的汉字字数、常用字的差异,虽然象中国两岸GB/BIG5字集常用字基本类似,转换后阅读并不成问题,但是这种编码转换的混乱关系,对文字交流始终是一种障碍。因此相关国家的标准化组织和文字工作者经过共同努力,终于在93年完成了包含中日韩(CJK)汉字的Unicode 汉字标准ISO 10646.1。 Unicode是完全双字节表示的多国文字编码体系,编码空间0x0000-0xFFFF。 ISO 10646.1汉字标准使用编码0x4E00-9FA5,共包含20902个汉字。其中: 大陆(S)提出的汉字17124个,台湾(T)提出的汉字17258个; S与T的并集,即中国(C)提出的汉字为20158个。 日本(J)提出的汉字为12157个,中国未提出的690个(Ja); 韩国(K)提出的汉字为7477个,其中中国未提出的90个(Ka); Ja与Ka并集共744字。 支持Unicode编码的相关电脑系统软件,如Unix, Win95已有推出,但是由于Unicode的ASCII码是用双字节编码(即一般电脑系统中的单字节ASCII码前加 0x00),同时其汉字编码与各国的现有编码也不兼容,造成现有的软件和数据不能直接使用,所以目前完全使用Unicode软件系统的用户并不多,大多数只将它此作为一个国际语言编码标准来使用。

二、汉字数量知多少?

汉字是语素文字,总数非常庞大。汉字总共有多少字?到目前为止,恐怕没人能够答得上来精确的数字。

关于汉字的数量,根据古代的字书和词书的记载,可以看出其发展情况。

秦代的《仓颉》、《博学》、《爰历》三篇共有3300字,汉代扬雄作《训纂篇》,有5340字,到许慎作《说文解字》就有9353字了,晋宋以后,文字又日渐增繁。据唐代封演《闻见记·文字篇》所记晋吕忱作《字林》,有12824字,后魏杨承庆作《字统》,有13734字,梁顾野王作《玉篇》有16917字。唐代孙强增字本《玉篇》有22561字。到宋代司马光修《类篇》多至31319字,到清代《康熙字典》就有47000多字了。1915年欧阳博存等的《中华大字典》,有48000多字。1959年日本诸桥辙次的《大汉和辞典》,收字49964个。1971年张其昀主编的《中文大辞典》,有49888字。

随着时代的推移,字典中所收的字数越来越多。1990年徐仲舒主编的《汉语大字典》,收字数为54678个。1994年冷玉龙等的《中华字海》,收字数更是惊人,多达85000字。

如果学习和使用汉字真的需要掌握七八万个汉字的音形义的话,那汉字将是世界上没人能够也没人愿意学习和使用的文字了。幸好《中华字海》一类字书里收录的汉字绝大部分是“死字”,也就是历史上存在过而今天的书面语里已经废置不用的字。

有人统计过十三经(《易经》、《尚书》、《左传》、《公羊传》、《论语》、《孟子》等13部典籍),全部字数为589283个字,其中不相同的单字数为6544个字。因此,实际上人们在日常使用的汉字不过六七千而已。

三、如何显示和输入七万多汉字?

由于汉字总数非常庞大。汉字总共有多少字?到目前为止,恐怕没人能够答得上来精确的数字。据估计,汉字数量达到11万左右。

这里所说的七万多汉字,是指UNICODE超大字集全部七万多中日韩汉字。(注:Unicode 是一种在计算机上使用的字符编码。它为每种语言中的每个字符设定了统一并且唯一的二进制编码。)

那一般计算机能够显示多少个汉字呢?以简体Windows系统为例,XP默认可显示汉字字数为GBK,Vista默认可显示汉字字数为GB18030,GBK字符集,GB2312-80,GB 2312-80 的扩展、延伸,“ K”代表扩展 Kuozhan,收入21003个汉字,882个符号,共计21885个字符。GB18030字符集GB18030字符集,包含GBK字符集、CJK Ext-A 全部6582个汉字,共计27533个汉字。

  评论这张
 
阅读(1036)| 评论(5)

历史上的今天

评论

<#--最新日志,群博日志--> <#--推荐日志--> <#--引用记录--> <#--博主推荐--> <#--随机阅读--> <#--首页推荐--> <#--历史上的今天--> <#--被推荐日志--> <#--上一篇,下一篇--> <#-- 热度 --> <#-- 网易新闻广告 --> <#--右边模块结构--> <#--评论模块结构--> <#--引用模块结构--> <#--博主发起的投票-->
 
 
 
 
 
 
 
 
 
 
 
 
 
 

页脚

网易公司版权所有 ©1997-2018