什么是中文信息处理技术

发布网友

我来回答

1个回答

热心网友

文字信息处理的实质,是先把文字信息数字化,即用一个固定的数码代表一个字母或文字。例如,在英文信息中,以26个字母作为文字信息处理的单位,因此要对26个字母逐个地确定代替它的数码。在汉字的情况下,一般是以一个整字作为文字信息处理的单位,因此要对每一个整字惟一地确定代表它的数码。这一数码统称为代码(code)。在计算机内部处理文字信息时,就像处理数据一样对待。处理完毕后,再把替代的数码还原成相应的字母或文字。利用计算机能够调整处理数据的性能,使文字信息处理也能够分享计算机技术的这一独特优点,从而实现文字信息处理的高效化。
计算机之所以能有较高的运算和处理能力,是由于它利用了电子处理技术以及二进制数运算这一法则。计算机中的运算器,利用半导体器件的两个状态(通和断)的变化,代表二进制数字串中的一个二进制数位上的“1”或“0”的变化,从而能够高速地执行二进制数的数值或逻辑运算。实际上,计算机无论做数值的或任何种类信息的运算或处理,最基本的运算操作就是这种二进制数的演算。
在本节中先讨论英文信息的处理。英文信息处理技术中,要考虑以下各种字母、数字和一些必需的符号:
● A,B,C,…,X,Y,Z,共26个字母,包括大写和小写形式,共52个字母。
● 0,1,2,…,9,共10个阿拉伯数字。
● +,−,×,=,>,<,…,!,?,*,[,( ,{,…,共32个图形符号。
● 用于计算机动作控制的控制符号,共34个。
以上共计128个字母、数字、符号统称为字符。对于这些字符,应制定统一的字符代码标准,以便各种不同型号的计算机系统都遵守这一标准,从而使各个计算机系统之间能够互相交换信息。对于字符代码的标准,在20世纪60年代已由美国国家标准局制定了美国国家标准信息交换码(英文缩写为ASCII,这是一种用7位二进制数表示的代码,7位二进制数共可得到128种编码即27=128,正好分配给128个字符)。实际上每个字符使用一个字节(byte)的信息量,而一个字节包含8位二进制数,实际使用其中的7位,尚留出一位,作为每个字符信息的奇偶校验位。
国际标准组织(ISO)依据美国标准的ASCII码,制定了英文字符编码的国际标准,即ISO 6,为世界各国的计算机产业界从事计算机设备的工业生产以及信息处理技术的国际化、通用化提供了依据。中国在1975年由当时的第四机械工业部颁布了依据ISO 6制定的7位字符的编码标准(代号为GB1988),其中除了个别货币符号有改动外,其余内容完全相同。
文字信息处理的全过程大致包含如下三个环节:
(1)文字信息的输入。通常是通过键盘把组成英文词汇的各个英文字母逐个地输入。这一过程中,键盘的作用是把输入的每个字母、数字或符号转换成它们所对应的代码,供下一步信息处理用。键盘同时也是使用或操作计算机的人和计算机系统之间的界面。因此,键盘要设计得方便人们的使用和操作,以提供良好的人机界面。
(2)文字信息的处理。文字信息处理包括多种不同的处理要求。例如,在文稿的编辑操作中有对文字(或文字中包含的字母)的增、删、改操作;有对若干个字、整个句子或整段文字的增、删、改操作。在对文字串的处理中,有分类、合并、比较、排序、检索以及对齐等操作。这些种类的操作都可以通过预先编制相应的处理程序来实现。
(3)文字信息的输出。文字信息处理完毕后,要把处理结果的代码信息转换成文字的形式输出,输出方式包括显示和打印。为此,在计算机系统中要存储有关文字的字形信息。计算机中存储的文字字形,是以点阵式字形的形式表示的。通常,英文字符信息用5×7或7×9的点阵表示,如图1-2所示。这样的字形点阵信息和计算机中二进制数的存储相对应,即有笔画经过的点用二进制数1表示,无笔画的点用二进制数0表示。因此,在计算机中存储的字形信息实际上也是一串二进制数。在英文信息处理系统中,字形信息的存储问题比较容易解决。因为只需存储大、小写52个字母,10个阿拉伯数字,加上一些图形符号,共94个字符。用容量不大的存储器芯片,即可解决全部字符点阵信息的存储。计算机输出处理结果时,根据每个字符的代码计算字形信息在存储器中的存储地址,按照这一地址读出字符的点阵信息,供显示器或打印机输出。
中文是联合国六种工作语言之一,是中国56个民族所使用的主语言,也是世界上1/5以上人口的主语言。汉字是中国30种文字中使用最广的文字,方块汉字是其基本表现形式。
与英文相比较,中文的特点表现在字、词、语块、句子、句模和篇章等以下七个方面。
(1)中文字的特点:①字多。一级汉字有3755个,可覆盖现代所用汉字的99.9%,二级汉字有3008个,一、二级汉字可覆盖现代所用汉字的99.99%以上,最常用的汉字有560个,940个常用字,700个次常用字,扫盲标准有1500个字,占现代常用字使用频度(参见王还,常宝儒《现代汉语频率词典》[16])的95%,一般用字形20 902个(ISO/IEC 106(UCS)),汉字字模已有10万字头,但人们估计现代有15万字头。大学毕业生一般可认识4千汉字,中文系毕业生可认识5千字左右,极少数专家可认识9千字。②形美。中文字由象形字变化而来,是一个二维结构图形,形态多样、美观、自然。③音少。不同的发音只有410余种,加上四声变化,总共1295种。④义众。每个字常有2~5种意义,多的达6~9种意义。同一个汉字在不同情况下使用,可以代表多种含义。⑤类难。同样的字在不同情况下用作不同类型。⑥序隐。字的排列顺序不如英文字母确定、明显。
(2)中文词的特点:①定义糊。能够运用的有特定的音、形、义的最小句法单位(印欧语系中最小的句法单位是语素——morpheme)(参见高家莺、范可育、费锦昌《现代汉字学》[18])。②词类混。中文词在不同用法中类型变化较多,相对西文词来说,词类容易混。③切分难。中文句子、词是由中文单字所组成的,而字与字,词与词之间并无分隔符,不容易进行字与词的切分。④词频集中。常用词,包括常用单字词的使用频度很高,覆盖面较大,相对集中。⑤词长短。中文词含义丰富,但比较简练,长度相对英文词较短。⑥词义众。中文词的含义较多,一词多义比较普遍。⑦识别易。常用词的构成比较有规律,相对容易识别出。如四字词(例如成语),两字词,单字词等。⑧构成与复合便。中文词可以通过中文单字进行灵活地组合,组词方便。⑨组句活。中文词可以通过灵活组合形成中文句子。⑩词库多。中文词量大,不同行业有不同词库。
(3)中文语块(即语义块)乃是能够自由造句的基本语义构成单位。语义块是句子的语义构成成分和单位,它不同于传统语言学的短语。语义块是语义,即语言深层的定义,而短语是语法,即语言表层的定义。语义块这一概念的提出便于描述句子的构成。语义块分为主语义块和辅语义块两大类,前者是句义的“必不可少”的成分,后者是句义的“可有可无”的成分。主语义块有4种:特征E、作用者A、对象B和内容C,其中特征语义块E决定句类。辅语义块有7种:方式Ms(Means)、工具In(Instrument)、途径Wy(Way)、比照Re(Refer)、条件Cn(Condition)、因Pr(Premise)、果Rt(Result) (参见苗传江著《HNC理论的句类》[21] )。
(4)中文句的特点:①切分难。句乃能交际的最小完整语法单位,要完整切分出来有一定难度。②句型多。句子的句法结构模式称为“句型”,这是从句法的平面对句子进行分类。中文句子的句型变化较多,可以达到不同的语言效果。③简练。相对于英文,在中文句子中不需要用冠词等来进行修饰,比较简练。④重意合。中文句子的组句比较重视字、词在意义上的合适搭配。
(5)句模:句子的语义结构模式称为“句模”,这是从句子的语义平面对句子进行分类。句模的特点是数量不多,不足200个(参见胡裕树著《试论句子类型的研究》[22]、杨成凯著《句法、语义、语用三平面说的方*分析》[23])。
(6)中文篇章的特点:①简练。构成中文篇章有不同语言单位,其语言描述精炼,表达力强。②文体众多。中文发展历史悠久,有诗歌、散文等多种文体形式。
(7)中文与英文最大的不同在于中文表述较为简练,节省了词的分隔符、性、数、格、时态、形态等的变化,动词可省掉语句的安排,省音节。中文语序多为聚焦型,英语1/2为发散型。国内有一种观点,认为中文的特点可用3S表示,即简(Simple)、短(Short)、直(Straight)。但又有三大问题:同音字太多,四声变化与南腔北调。
从信息编码角度来看中文信息处理系统,可以抽象为五层结构模型。
第一层 外部码输入层
此层可以分为如下四类输入方式。
1.键盘编码输入
键盘编码输入是依据一定的中文编码输入方法,提供人通过键盘向计算机系统输入信息的代码,即键盘码。键盘码由所用的具体编码输入方法所决定,一般为不定长的编码,码长多少与所用编码方案相关。汉字输入编码目前国内外有近500种。这500种可以分为下面几种类型:
● 字形码,根据汉字字形特征而编制的汉字输入编码。
● 字音码,根据汉字字音特征而编制的汉字输入编码。
● 音形码,以字音特征为主字形特征为辅编制的汉字输入编码。
● 形音码,以字形特征为主字音特征为辅编制的汉字输入编码。
● 整字码,以一个汉字为一键位的汉字输入编码。
2.文字识别输入
文字识别输入按被识别字符特点可分为手写体识别输入和印刷体识别输入;按识别系统可分为联机识别输入(或称在线识别输入)和脱机识别输入(或称脱线识别输入)。识别的字体可以是单体或多体。
3.语音识别输入
语音识别输入按说话人特点可分为说话人有关识别输入和说话人无关识别输入;按被识别语音特征可分为字符语音识别、孤立词汇语音识别、连接语音识别和连续语音识别。语音识别输入与文字识别输入通常属中文自然输入或智能输入方法。
4.交换码输入
交换码是提供机器系统之间,人机之间等实现信息交换的一种代码,由标准化机构制订,颁布执行。列举如下。

国际标准:
● ISO 6信息处理 信息交换用ISO 七位编码字符集。
● ISO 2022信息处理 ISO 七位和八位编码字符集 代码扩充技术。
● ISO 4873信息处理 信息交换用ISO八位编码字符集 编码的结构和规则。
● ISO 29信息处理 ISO 七位和八位编码字符集 字符成形设备用的增补控制 功能。
● ISO /IEC 106.1—1993 信息处理—通用多八位编码字符集(UCS)。
国家标准:
● GB 1988 等效采用ISO 6。
● GB 2311 等效采用ISO 2022。
● GB 2312 《信息交换用汉字编码字符集 基本集》。
● GB/T 75 《信息交换用汉字编码字符集 第二辅助集》。
● GB/T 7590 《信息交换用汉字编码字符集 第四辅助集》。
● GB 18030—2000 《信息交换用汉字编码字符集 基本集的扩充》。
● GB 13000—1993 《信息技术 通用多八位编码字符集(UCS)》,等同采用ISO /IEC 106.1—1993国际标准。

第二层 外部码向内部码转换层
此层功能是将第一层中各式各样的输入信息转换成一致的内部码,供第三层处理用。

第三层 内部码处理层
内部码通常包括下列几种:
(1)运算码 提供各种字符运算和系统内部处理的代码,比如排序、合并等运算。
(2)存储码 提供存储字符及其属性信息用的代码,由它通过输出设备把汉字内部码转换成汉字字形输出。
(3)地址码 输出汉字时,先要把汉字内部码变换成相应汉字的地址码,再由地址码映射成该汉字的字形信息。
(4)控制码 在中文系统中,为控制某些汉字设备的动作,若有必要,可以从扩充的控制符中加以定义,作为专用的控制符使用。
(5)语音码 提供存储中文语音信息的编码,供语音合成输出。
这几种代码反映了字符处理特征。从信息处理角度来看,内部码以等长码为佳。上述各种内部码相差甚大,但从编码体系结构上应该一致。

第四层 内部码向外部码转换层
此层功能是将第三层中各种内部码处理结果,按照需要转换成相应外部码输出,供第五层输出用。

第五层 外部码输出层
此层可以分为四类输出方式:
(1)文字显示输出
向各种显示设备提供字符显示功能。
(2)文字印刷输出
提供各种印刷设备所需的字符印刷功能。
(3)语音合成输出
提供具有一定可懂度、自然度和保真度的男声或女声合成语音输出。语音合成输出和语音识别输入都是信息系统智能化基本特征之一。
(4)交换码输出
将内部码转换成相应交换码,比如字符交换码、字音交换码和字形交换码等,送往通信道共和另一个系统交换使用。

声明声明:本网页内容为用户发布,旨在传播知识,不代表本网认同其观点,若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。E-MAIL:11247931@qq.com