𝕭𝖄𝖄𝕬 𝖒𝖆𝖗𝖐𝖙

ISBN13: 9787115331809
标题: 信息简史
副标题: 一段历史，一个理论和一个洪流
作者: 詹姆斯·格雷克
译者: 高博
出版年: 2013

“查阅某物”是句空话，它不具有可以想象的意义。假如没有文字，语词就没有一种看得见的存在，即便它们所代表的对象是看得见的。这时语词只是一种声音，你可以将它们“唤”（call）回，也就是回忆（recall）起它们，可却无处“查阅”它们。它们没有可供注目的焦点，也没有可供追寻的痕迹。

文字，作为一种技术，使用时需要提前考虑清楚并掌握特殊技能。而语言则不是一种技术，无论多么成熟、多么发达的语言，都不能被视作心外之物，因为语言是心智本身的功能。乔纳森·米勒说过：“事实上，语言之于心智的关系，恰如立法之于议会的关系，这种能力始终通过一系列的具体动作体现出来。”这种说法大致也可以用来描述文字，因为它也涉及具体动作。但当词语被具象化在一张纸或一块石头上时，它就成了一种独立存在的人工品。它是工具的产物，同时本身又是一种工具。正如很多后来出现的技术那样，它因此立刻招惹来不少非议。
柏拉图是第一个长期受益于这项技术的人，本不太可能成为反技术的卢德分子，但他（借不立文字的苏格拉底之口）警告说，文字带来的将是思想的贫瘠：
你这个发明结果会使学会文字的人们善忘，因为他们就不再努力记忆了。他们就信任文字，只凭外在的符号再认，并非凭内在的脑力回忆。所以你所发明的这剂药，只能医再认，不能医记忆。至于教育，你所拿给你的学生们的东西只是真实界的形似，而不是真实界的本身。

所谓字母表，就是一个离散的小型符号集，有其约定俗成的排列顺序（“abecedarie，字母的前后顺序，或使用字母的人”）。但即便在当时，这种机制在人们看来是不自然的，因为它迫使读者将信息从单词的意义中剥离出来，把单词严格地视为字符串，集中精力于单词的字母组合上。此外，按字母表顺序排列，这其中包含了一对互逆的过程：生成一个有序列表并从中查阅条目，也就是排序和查找。无论哪个过程都是层层递归的（“recourse，往回，返回”）。这其中最基本的操作是一个“大于或小于”的二元判断。该操作先在单词打头的字母上执行，然后作为嵌套的子过程又在下一个字母上执行，并（用考德里的话说）“依此类推”。这样做的效率惊人，因为这种机制可以很容易地扩展到任意规模，并且宏观结构和微观结构一模一样。一个人只要掌握了字母表顺序，就可以丝毫不差地在一个包含了无论是一千个还是一百万个单词的列表中定位到任意条目，而且在查找过程中无需了解有关单词的意义。

…计算员手工计算的方式已经没有前途：“唯有通过机械生成的数表，才能使此类错误无处容身。”

而从树木年轮上，巴贝奇看到的是自然将历史进行编码：一棵树以自己的实体记录下了一套完整的信息。“每一场雨，每一阵风，每一次温度变化，都在植物界留下了痕迹；它们对我们而言，的确细微而难以察觉，但不论如何，它们在那些木质纤维深处却留下了永恒的记录。”

布尔设想的体系是一种不包含数的数学。他写道：“逻辑学的公理，即仅靠它们就可以构建出逻辑科学的那些定律，其形式和表达都是数学的，尽管不是计量的数学：这是一个事实。”其中允许使用的数只有0和1，用以表示全无和全有：“符号0和1在逻辑体系中的相应解释是空类（Nothing）和全类（Universe）。”在此之前，逻辑学一直从属于哲学；而现在，布尔要代表数学将逻辑学收入麾下。为此，他设计了一种全新的编码形式，其码本融合了两套抽象的符号体系：一套是从数学的形式主义中借用的字符，如P和p、+和-，以及大小括弧等；另一套则是通常用含糊多变的日常语言表达的运算、命题和关系，如表示真和伪、类的个体、前提和结论等的字词，以及各种“小品词”，如if、either、or等。布尔理论的部分要点如下：
语言是人类理性的工具，而不仅仅是表达思维的媒介。
所有语言的组成元素都是记号或符号。
词即记号。有时它们被用来代表事物；有时则代表运算，思维借此可将简单概念组合成复杂概念。
词…并非是我们能用的仅有的记号。任意的可见标记，以及任意的声音或动作…都同样能够作为记号使用。

电报、电话和无线电广播，三股巨大的电信浪潮依次汹涌而来。人们开始觉得理所当然要拥有专门用于收发讯息的各种设备。而这些设备也改变了社会的拓扑结构——它们拆分重组了社会结构，并在原来的空白处增设了网关和枢纽。

为了消除罗素悖论，罗素采取了激烈的措施。悖论之所以出现，其关键因素似乎在于那个奇怪的递归：集合属于集合。递归在这里就好比给火焰助燃的氧气。同样地，说谎者悖论也是由于存在关于命题的命题。“这句话是假话”是一种元语言，即关于语言的语言。罗素似是而非的集合则依赖于一种元集合：关于集合的集合。因此，之所以会出现问题，是因为跨越了不同层次，或用罗素的术语来说，是因为混淆了不同类型。而他的解决方案是，禁止这样做，将之排除在外。不能混淆不同层次的抽象。不允许自指，不允许自包含。《数学原理》中的符号主义规则不允许这种原地兜圈、狗咬尾巴的反馈循环，因为这可能导致自相矛盾。这就是罗素的安全防火墙。

哥德尔先证明如何构造出这样一个公式：某个特定的数x是不可被证实的。这很容易，因为存在无穷多个这样的公式。他接着证明，至少在有些情形下，数c碰巧会代表那个特定的公式。这正是罗素试图在PM的规则中禁止的循环的自指：
这个命题不可被证实。

…在任何电导体中，随机热躁动也会影像自由电子，从而导致噪声。

在香农看来，模式就等同于冗余。在日常语言中，冗余可以辅助理解。可在密码分析中，冗余就是密码的阿喀琉斯之踵。那么冗余又在哪里呢？在英语中，一个简单的例子是，紧跟在字母q后面的字母u就是冗余，即便把它去掉也不会有影响。或者说，几乎总是冗余。要不是英语中还有极少的外来词，如Qin（秦）或Qatar（卡塔尔），它就完全成了冗余。在字母q之后，大家都预期后面会是字母u。这里面不存在什么意外，它也就没有贡献什么信息。紧跟在字母t后面的字母h也有一定的冗余度，因为它是最可能在此出现的字母。香农认为，每一种语言都有一定的统计结构，以及相应一定的冗余度。我们可以用D来表示冗余度（这是香农的提法）。“在某种意义上，D度量了某种语言的文本在不损失任何信息的前提下能够缩减多少篇幅。

米勒还注意到，人们还会借助信息理论家所谓的“再编码”（recoding），将信息拼凑成越来越大的组块，比如使电报的和划凑成字母，字母又凑成单词，单词再凑成短语。米勒最后的总结颇有点宣言的性质。他宣称：“这种语言的再编码，在我看来，正是思考过程的核心命脉。”

一个流行词在各个学术圈里业已名声不好，那就是熵。另一位学者科林·彻里就抱怨道：“我们见到‘熵’被用在了语言、社会系统、经济系统以及各种苦于缺乏新方法的研究当中。它具有某种笼统性，因而成为一些人的救命稻草。”

维纳的观点则与香农的稍有不同。这位同行兼对手在公式面前添加的是相反的符号，不过这对一个意义一开始曾出现过颠倒的用语来说倒也正常。香农说信息就是熵，而维纳则说信息是负熵。维纳认为，信息代表秩序，但有序的事物并不一定含有很多信息。香农曾向维纳指出过其中的差异，但认为这无关紧要，不过是“数学上的文字游戏”，而且他们算出的数值结果会是相同的。
我考虑的是，从一个集合中作出选择时会有多少信息产生——这样一来，集合越大，产生的信息越多。而你考虑的是，集合越大，不确定性越高时，对于该情况的知识就越少，因而信息也就越少。

在他的第一本著作中（这是本大众通俗读物，出版于1976年，起了个富有争议的书名，《自私的基因》），他提出了一个引发了后续几十年热议的观点：“我们不过是生存机器——某种机器人载具，被盲目地编程为用来保全一种称为基因的自私分子。”据他称，这个真理他已经知道很多年了。
…塞缪尔·巴特勒在一百年前就说过（并且他并未宣称自己是第一个说这话的人），母鸡不过是一只蛋用来制造另一只蛋的工具。对此，巴特勒自己是态度严肃的…
后来，巴特勒的模板，“X不过是一个Y用来制造另一个Y的工具”，有了很多其他变化。比如，丹尼尔·丹尼特在1995年就曾说：“学者不过是一座图书馆用来制造另一座图书馆的工具。”同样地，丹尼特这样说也不全是开玩笑。

…为了解释这类行为（同样，为了解释任何适应现象），我们就必须问一个法医侦探常问的问题：谁会因此得利…

如果把基因视为生存大师，那它们就不太可能是一些核酸片断，毕竟这些东西无法长久。而说一个复制子成功地延续了亿万年时间，也就意味是将其所有副本视而为一，以此定义这个复制子。
…1949年，物理学家马克斯・德尔布吕克曾写道：“当今的趋势是，说‘基因只是分子，或遗传粒子’，而不再使用如基因型、基因等抽象概念。”但现在，这些抽象概念又回来了。
那么这些特定的基因，比如人类中对应长腿的基因，到底又在哪里呢？这个问题有点像问贝多芬的E小调钢琴奏鸣曲到底在哪里。它是在原始乐稿里，还是在印刷乐谱里，又或是在任意一次演奏或所有演奏（已有的和可能的，真实的和想象的）里？
纸面上的那些四分音符和八分音符并不是音乐。音乐不是空气中的一系列声波，也不是唱片上的纹路或光盘上的凹坑，甚至也不是在听众脑中激活的神经元交响曲。音乐就是信息。同样地，DNA的碱基对也不是基因，它们只是编码了基因。基因本身是由比特构成的。

…玛格丽特·阿特伍德也写道：“就跟所有知识一样，一旦你知道了这一点，你就再也无法想象要是当初你没有知道它又会是番什么情景。这又像舞台魔术，在你还不知道时，即便知识就站在你眼前，你也会视若无睹，看向别的地方。”

生物圈的大多数成员并无法见到信息圈；对它们而言，后者是个不可见的平行宇宙，其中的成员好似飘荡的游魂。但对我们来说，它们却不是游魂，或者说不再是了。在地球上的所有有机生物当中，我们人类是唯一一种同时生活在两个世界中的物种。这就仿佛我们发展出了所需的第六感，从而感受到了长久以来与我们共存却不为我们所见的东西。我们识别出了信息圈的许多物种，并给它们起了带有嘲讽意味的名字，比如都市迷思和僵尸流言，好像这样就可以让我们确信自己已经确实理解它们了。我们还将它们养在了装有空调的服务器农场里。然而即便如此，我们毕竟无法占有它们。当一段耳熟能详的旋律在我们耳边萦绕不去，或者一股热潮彻底改变了时尚潮流，又或者一个恶作剧成为全球的热门话题长达数月，然后又如快速兴起时那般快速消退时，你说谁才是主人而谁又是奴隶？

…计算机应该如何看待数据序列（如数列或比特串）以及怎样度量其随机程度和隐藏模式。当人或计算机从经验中学习时，它们是在使用归纳推理，从无规律的信息流里识别出规律来。

哈夫曼编码之类的方法正是利用了统计规律性来压缩数据。相片可以压缩，因为它们记录的对象具有一定的自然结构：亮暗像素总是成簇出现；从统计上看，邻近的像素更有可能是相似的，而较远的像素则不然。视频更易压缩，因为除非记录对象的运动快速而混乱，前后帧的差异还是相对较小。自然语言也可以压缩，因为正如香农所分析的，它具有内在的冗余和规律性。只有完全随机的序列才无法压缩，因为它是由一个又一个的出人意料构成。

争议各方最终分成了“删除主义”与“收录主义”两大阵营。收录主义对什么可以放入维基百科持最开放的态度。删除主义则主张移除琐碎的条目，比如篇幅太短、写得太差、内容不可靠或主题不重要的条目，并且也经常这样做了。可想而知，这些判断标准多变且主观。但删除主义意在提高维基百科的质量准入门槛。2008 年，他们成功移除了一个关于澳大利亚新南威尔士州麦夸里港长老会教堂的条目，理由是主题不重要。威尔士本人倾向于收录主义。2007 年夏末，在访问南非开普敦期间，他曾在一家名叫穆佐利（Mzoli’s）的餐馆吃午饭。他随后创建了一个“小作品”，里面只有一句话：“穆佐利是家肉铺兼餐馆，位于南非开普敦郊区的古古勒苏镇。”这个小作品仅仅存活了二十二分钟，然后就被一位用户名为Memon的十九岁管理员以主题不重要为由删除了。一小时后，另一位用户重建了该条目，并根据一个开普敦当地的博客和一份广播访谈的文字稿加以了扩充。两分钟后，又有一位用户提出了反对意见，理由是“此条目或章节类似广告”。如此等等。“知名”一词就被添上又被删掉了好几个来回。用户^demon又提出过这样一个意见：“维基百科既不是白页服务，也不是旅游指南。”但用户EVula反驳道：“我认为，我们要是允许该条目存在更长的时间，而不只是若干小时，我们可能就会得到有价值的内容。”这场争论甚至很快吸引了澳大利亚和英国报纸的关注。到了次年，这个条目不仅存活了下来，还多了一张照片、一对精确的经纬度、十四个参考文献，以及三个独立章节，分别介绍其历史、经营和旅游业。不过，某种敌意显然还存在。2008年三月，一位匿名用户用一句话替换了整个条目：“穆佐利不过是家无足轻重的小餐馆，它之所以能拥有一个条目，只是因为吉米·威尔士是个喋喋不休的自大狂。”这次破坏保留了不到一分钟。

…周二，他在上面发现了一个自称“条目挽救中队”的工作小组，它旨在找出有被删除风险的条目，并通过提升其质量以挽救它们。
…我完全消失在屏幕前，尝试去拯救一些短小、有时过于溢美但仍不失价值的传记条目。我用中立的语调重写条目，并在报纸数据库和Google图书里翻找参考文献，以提升其重要程度。我成了一名“收录主义者”。他在文章最后提出了一个“个人私下的希望”：所有杂七杂八的零碎内容都能有容身之处，如果不能放入维基百科，至少也可以放入“维基太平间——一个存放破碎梦想的地方”。他建议不妨称之为删除百科（Deletopedia）。“随着时间流逝，它也许能告诉我们很多事情。”基于在线内容永不消逝的原则，一个类似的删除百科（Deleticmpedia）很快就问世了，并且内容开始逐步增加。关于麦夸里港长老会教堂的条目就在那里继续存活着，只是严格来说，它已不是百科全书（有人称之为宇宙）的组成部分。

作为当下的一种综合征，“信息疲劳”一词便在2009年被0ED收录：“由于暴露在过量信息当中而引致的漠然、冷淡或心力交瘁，尤指（在晚近用法中）由于试图从媒体、Internet或工作中吸收过量信息而引致的压力。”有时，信息焦虑会与无聊感同时出现，一种相当令人困惑的组合。戴维·福斯特·华莱士给这种现代处境起了一个更不祥的名字：全噪声（TotalNoise）。他在2007年的文章中指出，“海量的可用事实、情境和观点”构成了全噪声。他也谈到了那种被淹没的感觉、自主性的丧失，以及努力成为知情的公民的个人责任。而为了能够跟紧所有信息，我们不免需要代理和承包商的帮助。

Title: The Information
Subtitle: A History, a Theory, a Flood
Authors: 	James Gleick
Published: 2011