詹士萧箫发自凹非寺
量子位公众号 QbitAI
颠覆性研究正在衰落,人类重大科技进步正放缓。
上述观点来自本周 Nature 封面文,主标题:NET LOSS (净亏损),颇为醒目。
文章作者认为,尽管近几十年来创新和科学研究呈爆炸式增长,但是,知识的增加并未带来重大进展。
通过分析过去 60 年来 4500 万篇论文及 390 万项专利数据,作者发现,这些研究对现有科技的颠覆性越来越少。
他们进一步指出,此种现象可能预示着——科学技术的性质发生了根本转变。
目前,该观点及内容已被经济学人、福布斯等主流媒体介绍,推特、Reddit 及 Hacker News 上亦有不少关注。
所以,这个结论是怎么得出的?
答案还得从研究本身里找。
如何判断论文开拓性?
研究主要通过两类方法,来衡量论文创新程度的变化。
第一种方法是根据论文引用情况判断。
这种方法会将新研究分成两类。
一类在现有理论基础上实现突破,本质上巩固了已有研究理论(Consolidation);另一类则是颠覆已有理论,本质上是开拓性的新工作(Destabilization)。
举个栗子,DNA 双螺旋结构和密度泛函理论(DFT,Density Functional Theory)都获得了诺贝尔奖。
如果按上面的方式进行分类,DNA 双螺旋结构显然是颠覆性的研究,因为它否定了生物界权威鲍林的“三螺旋结构”研究。
但密度泛函理论,却是建立在之前研究的基础上提出来的,与 DNA 双螺旋结构的开拓性程度并不相同。
如何判断一篇论文更具开拓性?
作者们采用了一种叫CD 指数的方法(CD index)。
如下图,黑色代表目前待判断的研究,白色代表前人的研究,灰色是后来的新研究,CD 指数范围在±1 之间。
如果一篇论文(黑色)是基于已有研究做出改进,那么新研究(灰色)在引用这篇论文时,肯定也会引用前人的研究(白色),CD 指数为负:
反之,这篇论文颠覆了之前的研究,那么新研究都会以这篇论文为基底,而不会再去引用之前的研究,CD 指数为正:
所以,虽然 DNA 双螺旋结构和密度泛函理论的论文引用量都非常大,但它们的 CD 指数却分别是 0.62 和-0.22。下面这张图显示了论文和专利 CD 指数的分布:
第二种方法,则是通过论文中的词汇多样性来判断。
一方面观察论文中出现新词的情况。
注意,这里的造新词并非老词新造(给已有的定义换个说法),而是新出现的、在后来的论文内容和标题中会重复使用的词汇。
另一方面统计与“创造”相关的动词数量。
例如,与创造、发现相关的动词通常包括 produce、form、prepare 和 make,类似的还包括 determine、report 以及 measure 等。
与之相反,偏向改进、优化乃至应用一类的动词,则包括 improve、enhance、increase,以及 use 和 include 等等。
作者们采用这两种方法,分别计算了 4500 万篇论文和 390 万项专利的 CD 指数和词汇多样性。
仍然有新突破出现
具体来说,研究得出的结论如下。
先看创新性随年份的变化。如下图,从 1945 年到 2010 年间,左侧各年份论文平均 CD5 指数(统计时间范围为论文发表后 5 年)有明显下降。不同领域降幅略有不同,社科为 91.9%,物理为 100%。
技术专利创新性也呈下降趋势。根据美国国家经济研究所(NBER)数据,从 1980 年到 2010 年间,计算机与通信领域 CD5 降幅达 93.5%,药物与医疗领域降幅为 96.4%。
从“语言措辞”变化中也能看到相关迹象。
在 1945-2010 年论文中,其内容所使用的独特词汇及新造词汇均呈下降态势。
有意思的是,措辞上 50 年前后论文中“创新性”的相关动词的出现频率也更占主导,排在前面的高频动词包括:产出、报告、确定、测量……
与之对应,2010 年论文,排在前列的高频动词为:基于、改善、联系、增强……
上述动词同既有科学发现成果的“联系意味”更强。
同样的情况,也发生在专利内容统计中。
△ 1950 年及 2010 年论文每百个动词中的高频词统计
但值得明确的是,尽管论文创新性的比例在下降,但从绝对数量看,创新成果产出量趋于稳定。
如下图所示,左侧针对 1950-2010 论文统计,右侧针对 1980-2010 专利数量,不同颜色的线条,代表了不同 CD5 指数区间。
能看出,尽管蓝色线条随年份变化快速上升,但该部分代表创新性较弱的论文及专利数。相对而言,高创新性的论文及专利,绝对数量趋于平稳:
数据统计外,本文作者也列举了一些近年重大突破,诸如引力波、新冠疫苗。
他们指出,整体的创新性下降并不能让我们忽视许多高创新性的研究成果及发明。
那么,是什么导致了整体创新性的下降?
研究者推测,该趋势与各研究领域的知识增长相关。
为此,他们统计了数十年论文及专利的引用多样性、自引均值、被引作品平均年份。
结果显示,无论论文还是专利,几十年来引用多样性在下降,自引均值上升,且引文中平均发表年份也在增加。
通过上述统计结果,研究者推断,科学家与发明家们更多依赖熟悉的现有知识技术,且这些知识高度同源。
这可能导致创新性成果的不足。
目前,这项研究引来了不少相关从业者及科技爱好者的关注。
一位生物医学家认为这毫不惊讶,并表示研究内容挺有意思。
还有网友认为,资本也是导致上述现象的一大因素。
他补充道,在过去 50 年中,更多资金从产出颠覆变化的基础研究,转向收益直接可见的应用研究。
对此,你怎么看?
论文地址:
https://www.nature.com/articles/s41586-022-05543-x
参考链接:
https://pubsonline.informs.org/doi/epdf/10.1287/mnsc.2015.2366