人们发现,在微博、短信的应用上,中文比起英文有一个很大的优势,同样是 140 或 70 个字符的限制下,中文可以完整地讲一个段子,而英文往往只能表达一句话,而且还需要精简很多拼写。
中文是否确实比英文言简意赅?
确实如此。The Economist(《经济学人》)上的一篇文章做过试验,把 1000 字符的英语翻译成其他语言,比较字符的长度,结果如下:
在测试的语言中,西班牙文最冗长,比英文多了 40% 的字符,而汉语最精简,字符数减少了 69%! ((Daily chart: Lost (or gained) in translation)) 中文果然博大精深哪!
汉语每个字符的信息量远远超过英语每个字符(字母)的信息量。
自然语言字符的熵(entropy)表示该语言每一个字符所包含平均信息量的大小,是语言符号不确定性程度的一种度量。
……各种语言字母的熵:
法文 3.98 比特;西班牙文 4.01 比特;英文 4.03 比特;俄文 4.35 比特;德文 4.10 比特;罗马尼亚文 4.12 比特。
在国内最早冯志伟先生用了将近 10 年的时间,进行手工查频,从小到大地逐步扩大统计的规模,建立了 6 个不同容量的汉字频度表,最后根据这些不同的汉字频度表,逐步地扩大汉字的容量,终于在 70 年代末期首次计算出了在不考虑上下文影响的前提下汉字信息熵的值是 9.65 比特……黄萱菁等在 4 年的《人民日报》语料的基础上,所求得的零阶熵、一阶熵、二阶熵分别为 9.62,6.18 和 4.89 比特。 刘源给出汉字熵的计算结果是9.71 比特。 孙帆等基于词的语言模型估计方法比基于字的直接计算方法得到了汉字熵的更为精确的估计,其熵值为 5.31 比特。 ((塞麦提·麦麦提敏《基于统计的维吾尔文信息熵的估计》))
拼音文字的信息熵基本都在 4 左右。汉字的信息熵则要高得多。
信息熵越高,每个字符传达的信息量就越大,换句话说,越“言简意赅”。
他们这测试的还是现代汉语,如果测文言文,估计还要更高很多呢~
为什么会这样?
其一,记录每个音节所需要的字符数量,汉语是最少的。
英语、德语这种全音素文字,每个元音辅音都用字符依次写出来,一个音节需要好几个字符。
汉字是语素文字。一个字符代表一个语素。这个传达的信息比音节还要大。相同的音节在不同上下文中会表达不同的意思,在汉语中这些不同的意思都用不同的字来表示——同音字。一个字写出来,我们不但知道它是什么音节,而且知道它是表示那些意思中的哪一个。
论信息/字符的比率,一定是语素文字占优。现在唯一仍在广泛使用的语素文字似乎只有汉字了,历史上曾经还有一些,但现在都消亡了。
韩语的谚文尽管也是拼音文字,但是其音素不是线性的写出来,而是一个音节都写在一个方块里,一个字符代表一个音节。所以信息密度比通常的全音素文字高得多,应该跟音节文字类似。但是音节文字在世界上其实都是比较罕见的。
一个典型的音节文字是日语假名,一个字符代表一个音节,但日语的音系本身相对比较简单,只有一百多个不同的音节(相比之下,汉语不算声调有四百多个不同音节,算上声调有一千多个,英语有几万个音节),所以假名的信息密度高得也有限。但是实践中日语是汉字与假名混合书写的,汉字的信息密度极高,所以综合起来日语的信息密度还是挺高的。
希伯来语和阿拉伯语属于辅音音素文字,其字母表只有辅音字母,没有元音字母,朗读文章时须口中补上适当的元音才能读出。有时会把元音标记出来,但并非主流的书写形式,也不是强制性的。因为省略了元音,所以信息密度应该也会比英语、德语那种全音素文字高一点。
天城文(书写梵语、印地语等语言的文字)、藏文等一堆受印度影响的文字是元音附标文字,以辅音字母为主体,元音以附加符号形式标出附加在辅音字母的周围,多多少少能省略一些字符。
综合起来,密度由高到低排列:
- 汉语:一个音节可能有多种写法。
- 日语假名、韩语谚文:这两个各自有特殊情况,但总的来说应该是一个档次,谚文是一个音节一个字符。日语有平假名、片假名两套假名,所以可以说一个音节两个字符,但前面说了,日语音节数量少,实践中还要和汉字混合书写,所以也放在这儿了。
- 阿拉伯语等:辅音全写出来,元音省略。
- 天城文等:辅音全写出来,元音用附加符号。
- 通常的英文、德语等全音素文字(不包括谚文这种特殊的),包括拉丁字母、西里尔字母、希腊字母等:所有元音辅音都要单独写出来。
以上说的是记录每个音节所需要的字符数量。
下面说另一个维度:各个语言中,一个音节表达的信息量一样吗?
答案是不一样,而在这个方面,汉语依旧遥遥领先,每个音节表达的信息量可能是最多的!
他们招募了59名志愿者,其母语分别为英、法、德、意、日、西、汉等7种常用语,以及相对冷门的越南语。
志愿者对着录音机用母语朗诵了20篇短文,研究人员在删除了所有超过150毫秒的停顿后,对每一段录音里的音节都进行了统计,随后分析了每个音节包含的意义。
在归纳统计了“音节的平均信息密度”和“日常语速下每秒钟所能说出的音节量”这两项指标后,研究人员发现,两者成反比。亦即,某种语言信息密度越高,语速就越慢。汉语荣登榜首:信息密度0.94,语速则为5.18个音节。英语、西班牙语、日语次之。
尽管汉语、英语、西班牙语的语速各不相同,但讲述同一个故事用时差不多。简言之,信息密度低的语言为了在“规定时间”内表述完毕,就会加速。于是,不同语言能利用语速快慢,在大致的时间段内传递完成同样的信息。 ((解密: 汉语为什么言简意赅))
各个语言在相同时间内能传达的信息量大致一样,在上述试验的语种中,汉语在单位时间内的音节量最少,每个音节传达的信息量最多。
上述试验的语种有限,不知道有没有没测到的语言会每个音节的信息量比汉语还大。但是说在主要语言中,汉语每个音节的信息量最大,应该没什么问题。
综上,汉语每个音节的信息量又大,记录每个音节所需要的字符数量又少,说汉语是最言简意赅的应该当之无愧!
文言文比现代汉语信息密度更大,主要就是因为每个音节的信息量更大。记录每个音节所需要的字符数量,文言文和现代汉语差别不大,有些字古今有差别,但数量在一个量级上。每个音节的信息量,文言文就比现代汉语大多了,古汉语的音节数量也比现代汉语多得多。 ((这是我在知乎上的一篇回答,开头的图则是转引自另一位用户的回答。问题链接:http://www.zhihu.com/question/21524321))
本文作者:Betty | 本文地址: https://myfairland.net/most-concise-language/
本站文章除特殊标明者外均为原创,版权所有,如需转载,请以超链接形式注明作者和原始出处及本声明
想想当初有不少人想把中国文字拼音化呢!
是啊,还好他们没成功
还有这么蛋疼的一群人呀。。。
那时候好多人还觉得汉字是中国落后的根源呢!
具体来说,应该是文字的言简意赅。还有个研究是关于发音的,不同语言的语速不同,英文的语速就比中文发音快,但是表达同样的意思消耗的总时长是相当的,印象是这个特征在各种语言之间基本上相差不大。
我文章里写了这个啊……
哎呦不好意思不好意思,上着班看文章粗糙了 >
嗯,汉语每个音节的信息量大应该有一部分『声调』的功劳,发音复杂度是比英文要高的,是不是这个原因,这类的原因,导致汉语每个音节复杂度高,表达的意义丰富,但同时因为复杂度高所以不能提高语速?或者从另一个角度看就是,汉语的音节在数据压缩上做到了最好(相对),而英文发音冗余度高,所以可以快速连读破读,还有很多不发音的字母什么的,信息冗余多。
不是的,英语的音节复杂度比汉语高多了……汉语不算声调有四百多个不同音节,算上声调也只有一千多个,英语有几万个音节(这个我文章中也说了……)英语音节复杂主要是因为有复辅音,什么 spr-、nst 之类的,各种辅音搭配起来数量实在太多了。汉语没有复辅音,所以音节数量少很多。
是啊……我是说英语发音冗余度高,中文发音更精简(因为每个音的信息都足够精简,所以任何略读都会导致信息损失,所以对读的要求精度高,所以读的慢)——由此猜想,这个跟『语速上中文比英文慢,但是同时间内表达能力相当』现象是一脉相承的关系。是从文章延伸的一些想法,不是反驳 = =
可以说汉语发音更精简,但不能说汉语发音更复杂……汉语的元音辅音数量都比英语少,可能的音素组合也比英语少,肯定是英语发音更复杂~而且肯定是越复杂的要求精度越高呀~汉语的省音现象也很多的,只是作为母语使用者不用特意去学,很少注意到罢了~英语的冗余度确实比汉语高,但主要应该是语法原因,而不是发音导致的。把那些语法变格什么的去掉,冗余度一定会大大下降……
谚文并不是单纯的全音素文字, 而是被归类为Featural. 因为以谚文方块字为单位来看的话, 每个字都可被进一步分解出音素符号, 且那些符号不能单独成字, 也就是”可解析的音节文字”. 因其同时具备音节文字一字符一音节和全音素文字的可解析特征, 故有此单独一类. 一些元音附标文字也归于此类, 比如19世纪传教士给北美北部原住民语言发明的Canadian Aboriginal syllabics. 其灵感源自天城文.
谚文我就是这么说的啊。元音附标文字我也写了。严格说来谚文和元音附标文字不算一类。
又学到一些新东西
要是翻译成文言文的话……岂不是更少!
是啊~
在欧洲上课,有时候替老师着急,A ≥ B,这边的老师说”A is larger than or equal to B”,中文直接「A 大于等于 B」就好了。