求书 Biostatistical Analysis(5th) 作者Zar

原标题:史上引用次数最高的100篇論文有多少是诺奖级别

《自然》在此探究那些历史上引用量最高的论文。

发现高温超导体确定DNA双螺旋结构,首次观测到宇宙膨胀加速……这些科研突破都收获了诺贝尔奖和国际声望但是报告这些发现的论文却无一跻身有史以来引用次数最高的百篇论文之列。

引用指的昰在论文中引述前人的研究成果是作者表明其方法、观点和发现来源的标准方式。引用次数一般被用作衡量一篇论文重要性的粗略指标50年前,Eugene Garfield发表了科学引文索引(SCI)SCI是追踪科学文献引用次数的首次系统性尝试。为纪念SCI诞生50周年《自然》杂志邀请目前拥有SCI的汤森路透公司列出了有史以来引用次数最高的100篇论文。此次统计涵盖了汤森路透Web of Science的全部内容Web of Science是SCI的在线版本,其中也包括社会科学、艺术人文、會议论文和一些书籍数据库纳入统计的论文的发表时间为1900年至今(2014年10月)。

结果令人惊讶首先,引用次数要达到惊人的12119次才能跻身百強榜许多最为著名的论文都没有上榜,而少数上榜的著名论文的确属于经典发现比如首次观测到碳纳米管(排名第36位)。但是上榜嘚绝大多数都是描述实验方法或软件的论文。现在这些发现已成为了各自领域内所必不可少的工具。

例如有史以来上引用次数最多的昰1951年发表的一篇论文,描述了一种确定溶液中蛋白质含量的测定方法迄今为止,该论文的引用次数已超过305000次这曾让论文的第一作者、巳故美国生物化学家Oliver Lowry感到困惑不已。“虽然我知道它实际上算不上一篇伟大的论文……但是它的反响是如此之大我还是不免暗自得意,”他在1977年如此写道

学术文献的庞大数量意味着百强论文都极其超群。汤森路透的Web of Science包含约5800万条文献记载如果将其比作乞力马扎罗山,那麼引用次数最高的100篇论文仅相当于山顶的1厘米只有14499篇论文的引用次数超过1000次,约占1.5米的高度(请参阅“论文如山”)与此同时,山麓蔀分的论文可能只被引用了一次——它们约占所有文献的一半

没有人完全明白为什么有些论文高居“山顶”,而有些论文名气虽大但引用次数却一般,不过研究人员的习惯或可解释一部分原因荷兰科学和技术研究中心的主任Paul Wouters表示,许多关于研究方法的论文“成为了一種标准引用好让其他科学家明白作者在做的是什么样的研究”。科学家的另一种常见做法使得真正的基础性发现(比如爱因斯坦的狭义楿对论)的引用次数低于其应得水平:这些发现是如此的重要以至于很快便进入课本,或者被当作耳熟能详的术语不需要添加引用就能直接纳入正文。

引用次数中也充满了其他干扰因素举例来说,论文引用的总量增加了但发表时间早的论文有更多的时间来累积引用量。生物学家倾向于比物理学家更频繁地引用他人的研究成果而且,并非所有领域发表的论文数量都是一样的因此,现代文献计量学镓在衡量一篇论文的价值时会避免采用简单地计量引用次数这种粗陋的方法:相反,他们更偏向于比较发表时间接近、领域相当的论文嘚引用次数

汤森路透的名单也不是唯一的排名系统。谷歌学术也为《自然》编制了自己的百强著作名单(请参阅“谷歌百强著作排名”)谷歌学术的名单有更大的引用量作为基础,因为谷歌的参考文献是从更大(但分类不佳)的文献库包括大量书籍中筛选的。在谷歌編制的著作名单中经济学论文较为突出。谷歌学术的名单也包括了汤森路透没有分析的书籍但在科学论文方面,两份名单有许多重合

虽然引用次数存在种种缺陷,但这种老式的“名人堂”做法依然有其价值其它暂且不表,它至少可以提醒我们科学知识的本质:为了取得激动人心的科学进步研究人员依赖于相对默默无闻的论文来描述实验方法、数据库和软件。

成千上万次的引用将一些介绍关键研究方法的论文推上了科学的乞力马扎罗山之巅它们至关重要,却鲜少引起关注下面,《自然》杂志将带领各位读者认识其中一二

数十姩来,引用次数最高的百强论文一直被蛋白质生物化学主导1951年发表的一篇论文介绍了测定蛋白质含量的劳里法(Lowry),一直稳居第一不過许多生物化学家表示,劳里法和与之竞争的布拉德福蛋白质定量法(发表该方法的论文排名第三)都已经有点过时了排名第二的论文介绍的是用于另一种蛋白质分析的Laemmli缓冲液。这些技术的支配地位可归因于细胞及分子生物学领域的高引用量在这些领域内,这些技术仍嘫是不可或缺的工具

在百强论文所描述的生物技术中,至少有两项获得了诺贝尔奖排名第四的论文描述的DNA测序方法为已故的Frederick Sanger赢得了1980年嘚诺贝尔化学奖。排名第63位的论文描述的是聚合酶链式反应(PCR)一种复制DNA片段的方法,它为美国生物化学家Kary Mullis赢得了1993年的诺贝尔奖这两種方法帮助科学家探索和操控DNA,推动了延续至今的遗传学研究革命

其它方法受到的赞誉更少一些,但也并非籍籍无名20世纪80年代,意大利癌症遗传学家Nicoletta Sacchi与波兰分子生物学家Piotr Chomczynski在美国合作发表了一种从生物样本中提取RNA的迅速而廉价的方法。随着该方法的广泛流行(目前引用數排名第五)Chomczynski对该技术进行了改良,取得了专利权并创建了一个销售试剂的公司。目前任职于美国罗斯威尔帕克癌症研究所的Sacchi表示她并没有从中获得大量金钱报酬,但看到许多伟大的发现建立在她的研究基础之上她感到心满意足。举例来说这项技术对非编码短RNA分孓研究的爆炸式增长功不可没。“从科学角度来说我认为那才是一种巨大的奖励,”她说

Sanger的研究成果推动了基因测序领域的快速发展,这推高了介绍序列分析方法的论文的排名一个重要的例子是基本局部比对搜索工具(BLAST),二十年来对于研究基因和蛋白质行为的生粅学家来说,这是一个无人不知的工具用户只需要在网络浏览器中打开程序,插入一个DNA、RNA或蛋白质序列不出几秒钟,他们就能看到来洎成千上万种生物体的相关序列还有与这些序列功能有关的信息,甚至还有相关文献的链接BLAST是如此的受欢迎,以至于关于这一程序不哃版本的论文在名单上出现了两次分别位列第12和第14位。

但是受引用习惯变化的影响,BLAST被Clustal挤到了后面Clustal是BLAST的一个补充工具,可以一次比對多个序列Clustal让研究人员得以描述不同生物体序列之间的演化关系,在看似不相关的序列中发现匹配并预测在基因或蛋白质特定位点发苼的变化可能会对其功能产生什么影响。一篇1994年的论文描述了该软件的用户友好型版本ClustalW目前排名第10位。关于一个较新的版本ClustalX的一篇1997年论攵排名第28位

开发ClustalW的团队来自德国海德堡的欧洲分子生物学实验室,当初设计的是让该程序在个人计算机而非大型计算机上运行。不过在来自私营公司的计算机科学家Julie Thompson于1991年加入实验室后,该软件改头换面“原来的程序是生物学家写的——我很想找个委婉的方式来表达這一点,”Thompson说她现在就职于法国遗传学、分子与细胞生物学研究所。Thompson重新编写了程序帮助它应对当时产生的基因组数据的数量和复杂性,并将它改进得更易于使用

BLAST和Clustal背后的团队对彼此的论文排名都存有好胜之心;不过他们之间的竞争十分友好,都柏林大学学院的生物學家、Clustal成员Des Higgins说“BLAST是个颠覆性的工具,他们所获的每一次引用都是理所应得的”

另一个被基因组测序拉高排名的领域是研究物种间演化關系的系统发生学。

排名第20位的论文介绍了邻接法这种方法根据物种间演化距离的一些测度,比如遗传变异来快速高效地找到大量生粅在系统发生树上的位置。它将有亲缘关系的生物联系起来一次一对,直到系统树解析完成20世纪80年代,体质人类学家斋藤成也在加入根井正利在得克萨斯大学的实验室后帮助设计了这项技术以研究人类演化和分子遗传学。当时这两个领域正开始迎来信息爆炸。

“当時我们体质人类学家面临的情况有点像今天的大数据,”目前任职于日本国立遗传学研究所的斋藤说邻接法让研究人员有望在不耗尽計算资源的情况下,用大规模数据集构建出系统发生树(在另一篇排名前100位的论文中,文中的Clustal程序算法也借鉴了这种策略)

排名第41位嘚论文描述的是如何将统计学应用到系统发生学中。1984年华盛顿大学的演化生物学家Joe Felsenstein改编了一种名为自助法(Bootstrap)的统计工具,以推断演化樹不同部分的准确性Bootstrap对一个数据集多次重复采样,然后使用得到的估计结果的方差来确定单个分支的置信度虽然这篇论文累积引用次數的速度不快,但到了20世纪90年代至21世纪初分子生物学家开始意识到在预测中使用这种技术的必要性后,它的流行程度大为上升

Efron于1979年提絀。Felsenstein认为这一概念远比自己的工作更基础但他把这种方法应用在了解决生物学问题上,这意味着他的工作得以被更为广泛的研究者群体引用Felsenstein获得的高引用数也是他当时忙得不可开交的结果,他说自己把所有内容都塞进了一篇论文里而不是发表多篇有关相同主题的论文,后一种做法可能会稀释单篇论文获得的引用次数“我没法就相同的东西再多写四篇论文,”他说“这是因为我太忙了,而不是我特別有原则的缘故”

芝加哥大学的统计学家兼统计史专家Stephen Stigler表示,虽然百强论文中有许多是关于统计学的但“对我们统计学家来说,它们唍全不是最重要的”而是已被证明对广大科学家最有用的。

在很大程度上这种交叉成功源于不断从生物医学实验室涌现的数据。例如被引用最频繁的统计学论文(排名第11位)是美国统计学家Edward Kaplan和Paul Meier在1958年发表的,它能帮助研究人员找到某一群体(如临床试验的参与者)的生存模式这篇论文介绍了现在被称为卡普兰-迈耶估计(Kaplan–Meier)的统计量。排名第二的统计学论文(居第24位)是英国统计学家David Cox在1972年发表的论文他在文中进一步拓展了这种生存分析,将性别和年龄等因素包含在内

卡普兰-迈耶论文是一匹黑马,一开始几乎没有获得任何引用直箌20世纪70年代,随着计算能力的飞速上升让非计算机专家也能使用该方法后,情况才有改观统计方法的简洁性和易用性也提高了这一领域论文的受欢迎程度。排名第29位的是英国统计学家Martin Bland和Douglas Altman发表的一篇论文文中介绍了一种以可视化方式展现两种测量方法一致性的方法,现茬称为Bland–Altman图另一位统计学家比Bland和Altman早14年提出了相同的观点,但是Bland和Altman用易于使用的方式呈现了这种方法从此为他们的论文赢来了大量引用。

百强论文中最老和最新的统计论文讨论的是相同的问题——数据多重比较但它们来自极为不同的科学环境。美国统计学家David Duncan1955年发表的论攵(排名第64位)能比较几个分组而以色列统计学家Yoav Benjamini和Yosef Hochberg于1995年发表的有关控制错误发现率的论文(排名第59位)则适用于来自基因组学或神经科学成像等领域的数据,这些领域需要比较以数十万计的数据其规模是Duncan难以想象的。正如Efron所说:“这展示了计算机起初缓慢随后加快對统计理论和统计实践产生影响的过程。”

Web of Science并非唯一可用的引用索引谷歌学术也为《自然》编制了有史以来引用次数最高的前100部著作名單。其中三分之二为汤森路透未包括的书籍“人们一直将焦点放在期刊上,但别忘了书籍也自成一个世界,”领导谷歌学术团队的软件工程师Anurag Acharya说在谷歌编制的名单中,排名第4位的是一本名为《分子克隆》(Molecular Cloning)的指南书它是分子生物学实验室技术的基石。Acharya指出谷歌嘚名单表明研究论文也能产生和书籍一样的影响力。在谷歌和汤森路透提供的两份排名中排名前三的论文是一样的,只是各自顺序不太┅样

谷歌学术还编制了一份只包括论文的百强名单,其中许多与Web of Science的名单重合不过,可以明显看到的是只有三分之一出头的论文和前┅份名单不一样,其中有许多经济学和心理学论文上榜,这或许是因为相比较之下这些领域的论文获得的来自书籍的引用更多。举例來说排名第21位的是1976年发表的一篇关于公司管理行为的论文(M. C. Jensen & W. H. Meckling J. Financ. Econ. 3, 305–360; 1976),谷歌名单显示它获得了45,119次引用但是Webof Science显示的引用次数仅为8,372次(谷歌给絀的大部分引用次数都高于Web of Science,但是相差5倍很不寻常)在新入围谷歌学术名单的论文中,排名最高的是Claude Shannon于1948年发表的论文(第4名)它标志著现代信息论的诞生(C.

谷歌学术编制的引用次数最高的前十篇论文(含书籍)名单

谷歌学术/WoS排名(整体)

谷歌学术/WoS被引次数

*未包括在Web of Science中的書籍。《自然》无法找到谷歌学术记录为高引用的所有论文或书籍链接以上数据由谷歌学术直接提供。

密度泛函理论(DFT)

无论是药物分孓还个金属块理论科学家想给物质建模时,一般会使用软件来计算材料电子的行为掌握这一知识后,研究者就能了解材料的许多其它特性:比如蛋白质的反应性或地球外核液态铁的导热性。

这种软件主要建立在密度泛函理论(DFT)的基础上这一理论无疑是物理学领域被引最频繁的概念。在排名前100的论文中有12篇与之有关,包括2篇位居前十的论文牛津大学的材料物理学家Feliciano Giustino表示,DFT在本质上是一种使无法實现的数学运算变得简单的近似法他说,为了研究硅晶体中的电子行为研究人员需要考虑每一个电子、每一个原子核是如何与所有其咜电子和原子核相互作用的,为此他们需要分析10的21次方TB的数据——远远超过任何计算机可能达到的计算能力,而DFT将数据需求缩减至仅几百KB标准笔记本电脑就能处理。

半个世纪前理论物理学家Walter Kohn引领了DFT的发展,他的两篇相关论文目前分别排名第34和第39位Kohn意识到,假设每一顆电子都作为被抹平的均值而非单个个体对所有其它电子作出反应,他就能计算出系统的属性比如最低能量态。这一理论涉及的数学運算在理论上十分直接明了:系统作为连续的流体运行但每个点的密度都不一样。密度泛函理论由此得名

然而,Giustino介绍研究人员用了幾十年时间才找到将该理论应用于现实材料的方法。在排名前100位的论文中有两篇是关于构建最受研究者欢迎的DFT方法和软件包的技术方法嘚。其中一篇排名第8位作者是加拿大达尔豪斯大学的理论化学家Axel Becke,另一篇排名第7位作者是美国理论化学家Chengteh Lee、Weitao Yang和Robert Parr。1992年计算化学家John Pople(他與Kohn共同获得了1998年的诺贝尔奖)在他广受欢迎的Gaussian软件包中纳入了DFT一种形式。

Becke表示即使不完全理解该理论,软件用户也有可能引用原始理论論文“(DFT的)理论、数学运算和计算机软件是专门的,是量子物理学家和化学家关注的对象”他说。“但应用是无尽的在基础层面仩,DFT可用于描述化学、生物化学、生物学、纳米系统与材料的所有内容地球上的一切都依赖电子的运动,因此DFT确实是万事万物的基础。”

20世纪70年代德国哥廷根大学的化学家George Sheldrick开始编写软件辅助晶体结构的解析。回顾当时的情况他说:“这种项目拿不到经费。我的工作昰教化学只在业余时间编写程序;我把它当成一种爱好。”但是四十多年过去了,他编写的软件成为了定期更新的SHELX程序套件现在已荿为了最受欢迎的分析工具之一,用于解析穿过晶体的X射线散射图样以揭示原子结构。

2008年后SHELX的受欢迎程度愈发明显起来。当时Sheldrick发表叻一篇关于该系统历史的综述论文,并表示在使用任何SHELX程序时都可以将这篇论文作为一般引用读者照做了。在过去6年里这篇综述论文累积了将近38000次引用,跃居百强名单第13位并且成为过去20年来发表的论文中排名最高的。

百强名单也包括了其它在晶体学和结构生物学中至關重要的其它工具比如,介绍用于分析X射线衍射数据的HKL套件的论文(排名第23位);介绍用于分析蛋白质结构在几何学上是否正常的PROCHECK程序嘚论文(排名第71位);还有介绍用于描绘分子结构的两种程序的两篇论文(分别排名第82位和95位)美国国立卫生研究院的数据科学副主管Philip Bourne表示,这些工具是确定晶体结构的基石

排名第22位的是一篇非同寻常的1976年论文。作者Robert Shannon是化工巨头杜邦公司的一名研究人员他编制了一系列不同材料离子半径的完整列表。伦敦帝国理工学院的材料科学家Robin Grimes表示物理学家、化学家和理论家在查找有关离子大小的数值时(离子夶小往往与物质的其它特性密切关联)仍会引用该论文。因此这篇论文成为了有史以来正式引用次数最高的数据库。

“我们常常几乎不假思索地引用这类论文” Grimes的一位研究同事Paul Fossati说。对于百强名单中的许多方法和数据库相关论文来说情况也基本是这样。这份名单揭示了計算和大型数据集分析对研究的影响有多强大但它也表明,对于位居引用次数高位的具体某一篇方法论文或数据库来说其排名也取决於运气和环境。

耶鲁大学化学家Peter Moore表示尽管如此,这也为研究人员上了一堂生动有力的课“如果你想要的是引用次数,”他说“那就設计一种让人们可以做他们想做的实验,或者更轻松地做实验的方法这能让你获得远远多于发现宇宙奥秘的引用次数。”

特别声明:本攵转载仅仅是出于传播信息的需要并不意味着代表本网站观点或证实其内容的真实性;如其他媒体、网站或个人从本网站转载使用,须保留本网站注明的“来源”并自负版权等法律责任;作者如果不希望被转载或者联系转载稿费等事宜,请与我们接洽

我要回帖

 

随机推荐