费希尔，这个男人对统计学产生了巨大的影响

英国皇家统计学会发行三份期刊，每年举办各种会议，这些会议邀请嘉宾展示他们的最新工作成果。在他们的期刊上发表文章是很不容易的。至少两名审查专家负责判断文章是否正确，主编还要和一名副主编共同确认每篇论文是否代表人类自然知识的重大发展。受邀在会议上讲话更是难上加难，只有该领域最杰出的人士才能获得这种荣誉。

根据学会惯例，每位受邀嘉宾讲话结束后，听众需要进行一次讨论。高级会员手里拿着事先准备好的演讲文稿，因此他们的讨论往往具体而尖锐。随后，皇家统计学会会将演讲者的论文和讨论者的评论共同出版。

你可以在期刊中看到，这种讨论非常正式，具有英国特色。会议主持人（或者某个指定人员）首先站起来，向演讲者公开致谢，然后发表自己的评论。接着，指定的学会高级会员站起来，向演讲者二度公开致谢，然后发表自己的评论。接着，学会最有名气的成员一个一个站起来，发表自己的评论。听众通常来自美国、英联邦成员国和其他国家，他们可以发表评论，演讲者需要对这些评论做出回应。在出版之前，讨论者和演讲者都可以对他们的谈话内容进行编辑。

1934年12月18日，皇家学会会员理学博士R. A. 费希尔获得了发表这种文章的殊荣。20世纪20年代，费希尔在事实上脱离了统计学界。现在，他的天才终于得到了承认。我们上一次见到他时（在前几章里），他的最高学位只是理学硕士，他的大学是伦敦之外一座遥远的农业实验站。到了1934年，费希尔已经获得了另一个学位，即理学博士，而且被选为久负盛名的皇家学会的会员（因此他获得了F. R. S. 头衔，意为皇家学会会员）。现在，皇家统计学会终于让他进入了该领域的领导者之列。这一次，费希尔发表了一篇题为《归纳推理的逻辑》的论文。主持会议的是学会主席、皇家学会会员M. 格林伍德（M. Greenwood）。文章出版之后共有14页，是对费希尔最近工作的精心编排和清晰总结。第一位讨论者是A. L. 鲍利（A. L. Bowley），他站起来向演讲者公开致谢。接着，他说道：

很高兴有这个机会感谢费希尔教授，不只是感谢他让我们阅读这篇论文，更是感谢他对统计学所做的总体贡献。我想借此机会声明：我和我所结交的所有统计学家都能感受到费希尔对统计学研究的巨大热情，他的方法所具有的巨大能量，他在英国、美国和其他地区的巨大影响，以及他对他所信奉的正确数学应用的推动作用。

卡尔·皮尔逊不在讨论者之列。三年前，他已从伦敦大学学院退休。在他的领导下，高尔顿生物统计实验室发展成了这所大学里的一个正式部门，叫做生物统计系。当他退休时，这个系分裂成了两个系。费希尔被任命为新的优生学系主任，卡尔·皮尔逊的儿子埃贡·皮尔逊被任命为生物统计系主任，负责高尔顿生物统计实验室，同时担任《生物统计》编辑。费希尔和年轻的皮尔逊个人关系并不好。这都是费希尔的错，他对埃贡·皮尔逊怀有明显的敌意。费希尔既不喜欢他的父亲，也不喜欢内曼，埃贡因此受到了牵连。我们将在第10章介绍内曼与埃贡·皮尔逊的合作。不过，年轻的皮尔逊非常尊重费希尔，重视他的工作。后来，他写道，他早已习惯了费希尔在论文中不提自己名字的做法。尽管两个人之间存在这种紧张关系，尽管两个系存在一些管辖纠纷，费希尔和埃贡·皮尔逊还是派学生参加对方的讲座，而且没有公开争执。

此时，卡尔·皮尔逊被人们称为老头子，他只有一个研究生助手。他有一间办公室，但这间办公室距离两个统计学系和生物统计实验室所在的教学楼很远。来自美国的艾森哈特跟随费希尔和埃贡·皮尔逊学习了一年时间，他想去看看卡尔·皮尔逊，但他的同学和其他教员都不鼓励他这样做。他们说，你为什么要去见卡尔·皮尔逊呢？和费希尔令人激动的众多新思想和新方法相比，他能给我们带来什么呢？艾森哈特在伦敦学习期间没有拜访卡尔·皮尔逊，这让他非常遗憾。皮尔逊也是在那一年去世的。

费希尔和皮尔逊的统计观点

卡尔·皮尔逊的统计方法与费希尔的统计方法存...

皮尔逊将测量值的分布看作真实存在的事物。在他的方法中，在给定情形里，存在一个巨大但有限的测量值集合。理想情况下，科学家可以收集所有这些测量值，确定分布参数。如果无法收集所有测量值，那么你可以收集一个具有代表性的巨大子集。根据这个具有代表性的巨大子集计算出的参数与整个集合的参数是一样的。此外，用于计算整个集合参数值的数学方法也可以用于计算具有代表性子集的参数，不会带来严重的误差。对费希尔来说，这组测量值是从所有可能的测量值集合中随机选择的。因此，根据这种随机选择得到的任何参数估计值都是随机的，具有某种概率分布。为区别实际参数，费希尔将这种估计值叫做统计量，现代的说法通常叫估计量。假设我们有两种方法获得估计给定参数的统计量。例如，老师希望确定学生掌握的知识（参数），进行了一组测试（测量值），得到了平均值（统计量）。他应该将中值作为统计量，还是将这组测试中的最高分和最低分的平均分作为统计量，抑或是去掉最高分和最低分、将其余测试的平均值作为统计量呢？由于统计量是随机的，因此谈论统计量的某个值多么准确是没有意义的。这和谈论一次测量的准确度没有意义是一样的道理。我们需要的是统计量的概率分布标准，正如皮尔逊认为需要评估的是一组测量值的概率分布而不是个体观测值。费希尔提出了良好统计量的几个标准：一致性：你得到的数据越多，你计算出的统计量越有可能接近参数真值。无偏性：如果你对不同数据集多次使用某个统计量，这个统计量的平均值应接近参数真值。有效性：统计量的值不会与参数真值完全相等，但在估计一个参数的众多统计量当中，大多数统计量与真值的差异不会很大。这些描述有些模糊，因为我已将精确的数学公式翻译成了简单的文字。在实践中，人们可以用适当的公式评估费希尔的标准。在费希尔之后，统计学家又提出了其他标准。费希尔本人在之后的工作中也提出了一些辅助标准。在这些复杂的标准中，最重要的一点在于考虑到统计量的随机性，良好的统计量具有良好的概率特性。我们永远无法知道一组数据的统计量的值是否正确，只能说使用某种程序得到了满足这些标准的统计量。在费希尔提出的三个基本标准中，无偏标准吸引了公众的注意力。这很可能是因为偏差这个词具有某种令人无法接受的暗示。似乎没有人希望获得拥有偏差的统计量。美国食品和药品管理局的官方指导告诫人们使用无偏方法。一种叫做意向性治疗的非常奇怪的分析方法（第27章会详细讨论）开始主导许多医学试验，因为这种方法可以保证结果的无偏性，尽管这种方法在效率上的表现可能并不好。实际上，有偏统计量常常具有很高的有效性。在费希尔的努力下，用于确定市政水源净化用氯气浓度的标准方法依据的就是一个有偏（同时也是一致而有效的）估计量。这完全可以看作社会学的某种教训它们显示了人们为清晰定义某一概念而使用某一词语时如何无意中将无关的情绪带到科学上，从而影响人们的行为。费希尔的最大似然方法费希尔在进行数学研究时发现，卡尔·皮尔逊用于计算分布参数的方法得到的统计量并不一定具有一致性，而且常常是有偏的。此外，费希尔还发现了效率更高的统计量。为获得一致而有效的统计量（不一定是无偏的），费希尔提出了一个概念，他称之为最大似然估计值（MLE）。接着，费希尔证明，最大似然估计值总是具有一致性，而且是所有统计量中效率最高的统计量（前提是被称为正则条件的几个假设成立）。此外，费希尔还证明，如果最大似然估计值是有偏的，那么这个偏差可以算出来并且可以从最大似然估计值中减掉，从而得到一个一致、高效、无偏的修正统计量①。费希尔的似然函数横扫数理统计界，迅速成了参数估计的主要方法。最大似然估计只有一个问题：它的数学解法太难了。我们可以在费希尔的论文中看到一行行数学公式，那是最大似然估计值在不同分布中的表现形式。他的方差分析和协方差分析体系是宏大的数学成就，他在这些体系中用巧妙的代换和多维空间变换得到了一些公式，让使用者获得了他们需要的最大似然估计值。尽管费希尔做出了创造性工作，但在大多数情况下，想要使用最大似然估计值的人都会被数学上的问题难住。在20世纪后半叶的统计学文献中，许多论文用数学上的简化方法在特定情形中巧妙地获得了最大似然估计值的良好近似值。在我自己的博士论文中（大约在1966年），我对问题的解法只能在拥有大量数据的情况下才能使用。只有根据这个假设，我才能将似然函数简化到某种程度，然后算出最大似然估计值的近似值。接着，计算机出现了。计算机并不是人脑的竞争者，它只是一个巨大而耐心的数字处理者。它不会感到厌倦，不会犯困，不会犯错误。它会一遍一遍不停地从事繁重的计算工作重复几百万次都没问题。它可以用所谓的迭代算法找出最大似然估计值。迭代算法最早的迭代算法之一似乎出现在文艺复兴时期（尽管戴维·史密斯在1923年出版的《数学史》中声称他在古埃及和中国的记载中发现了使用这种方法的例子）。在资本主义萌芽时期，意大利北部出现的银行或者叫账房面临着一个基本问题。每一个小城邦或国家都拥有自己的货币。根据汇率，假设14枚雅典银币兑换1枚威尼斯金币，账房需要研究如何将一批以127枚威尼斯金币购买的木材换算成雅典银币的价格。现在，我们有强大的代数思想，可以用于求解。还记得高中代数吗？如果x等于银币的价格，那么当时的数学家已经开始发展代数学，不过大多数人仍然不擅长计算。银行家使用一种叫做试位法规则的计算方法。每个账房都拥有自己的规则版本，他们秘密地将这种版本传授给职员，因为每个账房都相信他们的规则版本是最好的。16世纪的英国数学家罗伯特·雷科德（Robert Recorde）在推广代数标记新方法方面表现突出。为了将代数的力量与试位法规则进行对比，他在1542年的作品《艺术基础》中对试位法规则进行了如下描述：按照自己的意愿猜一个答案。运气好的话，你可能会接近真理。对问题进行初次计算，尽管真理仍然遥不可及。这种错误是良好的基础，你很快就会发现真相。走过的道路越来越多，离目标的距离越来越近。再长的道路也会走到尽头，再小的水滴也能聚成大海。不同种类交叉相乘，错误的方法也可以找到真理。雷科德的这段文字用16世纪的英文写成，大意是，你首先猜测一个答案，然后把它放到问题中。用这个猜测得到的结果和你想要的结果之间将会出现偏差。你用这个偏差得到一个更好的猜测，用这个猜测得到一个新的偏差，从而得到另一个猜测。如果你在计算偏差时足够聪明，你得到的猜测最终就会接近正确答案。试位法只需要一次迭代，第二次猜测总是准确的。对费希尔的最大似然方法来说，为了得到满意的答案，你可能需要迭代数千次甚至数百万次。 100万次迭代对一台耐心的计算机来说意味着什么呢？放在今天，也就是一眨眼的工夫而已。不久以前，计算机的功能和速度要差得多。在20世纪60年代后期，我有一台可编程台式计算机。这是一台原始的电子仪器，可以执行加减乘除操作。它还拥有一个小型内存，你可以存放一个程序，让它进行一系列算术操作。你还可以让它在程序中自动跳转。因此，这台可编程计算机可以进行迭代计算，只是需要很长时间。一天下午，我编好程序，检查了前几步，确保我没有在程序中犯错误，然后关掉办公室里的灯，回家了。与此同时，可编程计算机里面的电子元件仍然在嗡嗡作响，默默进行着加减乘除操作。按照程序，每隔一段时间，它会打印出一个结果。电脑上的打印机是个噪音很大的家伙，它会发出咔啦咔啦的巨大声响。夜间保洁人员进入了大楼，一个人拿着笤帚和撮箕来到了我的办公室。在黑暗中，他听到了嗡嗡声。他可以看到计算机不断运算时一只眼睛一张一翕发出的蓝色光亮。突然，打印机醒了。咔啦，它叫了一声，然后是咔啦，咔啦，咔啦，咔啦咔啦！这位清洁工后来告诉我，这是一种极其可怕的经历，并请求我下次留下某种标记，警告人们计算机正在工作。今天的计算机工作速度非常快，因此人们在分析越来越复杂的似然方法。哈佛大学的娜恩·莱尔德（Nan Laird）教授和詹姆斯·韦尔（James Ware）教授发明了一种强大而灵活的迭代程序，叫做EM算法。在我的统计学期刊中，每一期都有文章介绍某人将他的EM算法用到了之前被认为无法解决的问题上。其他一些算法也出现在了文献中，它们拥有怪诞的名字，如模拟退火法和克里格法。此外，我们还有梅特罗波利斯算法和马夸特算法，以及其他以发明者命名的算法。我们有复杂的软件包，包含成百上千条代码，可以让这些迭代计算变得方便用户操作。费希尔的统计估计方法取得了胜利。最大似然统治了世界，皮尔逊的方法被人们丢进了历史的垃圾堆。不过，在20世纪30年代此时，费希尔对数理统计理论的贡献终于获得承认，他正处在四十来岁年富力强的好时光一个名叫内曼的波兰青年数学家提出了一些问题，将费希尔藏在地毯下面的问题重新暴露在阳光下。 ①20世纪50年代，印度的C. R. 拉奥和在霍华德大学任教的戴维·布莱克威尔表示，即使费希尔的正则条件不成立，仍然可以根据最大似然估计值构造出效率最高的统计量。两个人独立得到了相同的定理，因此拉奥-布莱克威尔定理是施蒂格勒误称定律的一个例外。