人们发现,在微博、短信的应用上,中文比起英文有一个很大的优势,同样是 140 或 70 个字符的限制下,中文可以完整地讲一个段子,而英文往往只能表达一句话,而且还需要精简很多拼写。

中文是否确实比英文言简意赅?

确实如此。The Economist(《经济学人》)上的一篇文章做过试验,把 1000 字符的英语翻译成其他语言,比较字符的长度,结果如下:

在测试的语言中,西班牙文最冗长,比英文多了 40% 的字符,而汉语最精简,字符数减少了 69%! ((Daily chart: Lost (or gained) in translation))  中文果然博大精深哪!

汉语每个字符的信息量远远超过英语每个字符(字母)的信息量。

自然语言字符的熵(entropy)表示该语言每一个字符所包含平均信息量的大小,是语言符号不确定性程度的一种度量。
……

各种语言字母的熵:

法文 3.98 比特;西班牙文 4.01 比特;英文 4.03 比特;俄文 4.35 比特;德文 4.10 比特;罗马尼亚文 4.12 比特。

在国内最早冯志伟先生用了将近 10 年的时间,进行手工查频,从小到大地逐步扩大统计的规模,建立了 6 个不同容量的汉字频度表,最后根据这些不同的汉字频度表,逐步地扩大汉字的容量,终于在 70 年代末期首次计算出了在不考虑上下文影响的前提下汉字信息熵的值是 9.65 比特……黄萱菁等在 4 年的《人民日报》语料的基础上,所求得的零阶熵、一阶熵、二阶熵分别为 9.62,6.18 和 4.89 比特。 刘源给出汉字熵的计算结果是9.71 比特。 孙帆等基于词的语言模型估计方法比基于字的直接计算方法得到了汉字熵的更为精确的估计,其熵值为 5.31 比特。 ((塞麦提·麦麦提敏《基于统计的维吾尔文信息熵的估计》))

拼音文字的信息熵基本都在 4 左右。汉字的信息熵则要高得多。

信息熵越高,每个字符传达的信息量就越大,换句话说,越“言简意赅”。

他们这测试的还是现代汉语,如果测文言文,估计还要更高很多呢~

为什么会这样?

其一,记录每个音节所需要的字符数量,汉语是最少的。

英语、德语这种全音素文字,每个元音辅音都用字符依次写出来,一个音节需要好几个字符。

汉字是语素文字。一个字符代表一个语素。这个传达的信息比音节还要大。相同的音节在不同上下文中会表达不同的意思,在汉语中这些不同的意思都用不同的字来表示——同音字。一个字写出来,我们不但知道它是什么音节,而且知道它是表示那些意思中的哪一个。

论信息/字符的比率,一定是语素文字占优。现在唯一仍在广泛使用的语素文字似乎只有汉字了,历史上曾经还有一些,但现在都消亡了。

韩语的谚文尽管也是拼音文字,但是其音素不是线性的写出来,而是一个音节都写在一个方块里,一个字符代表一个音节。所以信息密度比通常的全音素文字高得多,应该跟音节文字类似。但是音节文字在世界上其实都是比较罕见的。

一个典型的音节文字是日语假名,一个字符代表一个音节,但日语的音系本身相对比较简单,只有一百多个不同的音节(相比之下,汉语不算声调有四百多个不同音节,算上声调有一千多个,英语有几万个音节),所以假名的信息密度高得也有限。但是实践中日语是汉字与假名混合书写的,汉字的信息密度极高,所以综合起来日语的信息密度还是挺高的。

希伯来语和阿拉伯语属于辅音音素文字,其字母表只有辅音字母,没有元音字母,朗读文章时须口中补上适当的元音才能读出。有时会把元音标记出来,但并非主流的书写形式,也不是强制性的。因为省略了元音,所以信息密度应该也会比英语、德语那种全音素文字高一点。

天城文(书写梵语、印地语等语言的文字)、藏文等一堆受印度影响的文字是元音附标文字,以辅音字母为主体,元音以附加符号形式标出附加在辅音字母的周围,多多少少能省略一些字符。

综合起来,密度由高到低排列:

  • 汉语:一个音节可能有多种写法。
  • 日语假名、韩语谚文:这两个各自有特殊情况,但总的来说应该是一个档次,谚文是一个音节一个字符。日语有平假名、片假名两套假名,所以可以说一个音节两个字符,但前面说了,日语音节数量少,实践中还要和汉字混合书写,所以也放在这儿了。
  • 阿拉伯语等:辅音全写出来,元音省略。
  • 天城文等:辅音全写出来,元音用附加符号。
  • 通常的英文、德语等全音素文字(不包括谚文这种特殊的),包括拉丁字母、西里尔字母、希腊字母等:所有元音辅音都要单独写出来。

以上说的是记录每个音节所需要的字符数量。

下面说另一个维度:各个语言中,一个音节表达的信息量一样吗?

答案是不一样,而在这个方面,汉语依旧遥遥领先,每个音节表达的信息量可能是最多的!

他们招募了59名志愿者,其母语分别为英、法、德、意、日、西、汉等7种常用语,以及相对冷门的越南语。

志愿者对着录音机用母语朗诵了20篇短文,研究人员在删除了所有超过150毫秒的停顿后,对每一段录音里的音节都进行了统计,随后分析了每个音节包含的意义。

在归纳统计了“音节的平均信息密度”和“日常语速下每秒钟所能说出的音节量”这两项指标后,研究人员发现,两者成反比。亦即,某种语言信息密度越高,语速就越慢。汉语荣登榜首:信息密度0.94,语速则为5.18个音节。英语、西班牙语、日语次之。

尽管汉语、英语、西班牙语的语速各不相同,但讲述同一个故事用时差不多。简言之,信息密度低的语言为了在“规定时间”内表述完毕,就会加速。于是,不同语言能利用语速快慢,在大致的时间段内传递完成同样的信息。 ((解密: 汉语为什么言简意赅))

各个语言在相同时间内能传达的信息量大致一样,在上述试验的语种中,汉语在单位时间内的音节量最少,每个音节传达的信息量最多。

上述试验的语种有限,不知道有没有没测到的语言会每个音节的信息量比汉语还大。但是说在主要语言中,汉语每个音节的信息量最大,应该没什么问题。

综上,汉语每个音节的信息量又大,记录每个音节所需要的字符数量又少,说汉语是最言简意赅的应该当之无愧!

文言文比现代汉语信息密度更大,主要就是因为每个音节的信息量更大。记录每个音节所需要的字符数量,文言文和现代汉语差别不大,有些字古今有差别,但数量在一个量级上。每个音节的信息量,文言文就比现代汉语大多了,古汉语的音节数量也比现代汉语多得多。 ((这是我在知乎上的一篇回答,开头的图则是转引自另一位用户的回答。问题链接:http://www.zhihu.com/question/21524321))