近日,图灵奖得主、贝叶斯网络之父 Judea Pearl 点赞了一篇论文,这篇论文总结了过去 50 年出现的最重要的 8 种统计学思想,其中就包括了他极力推崇的因果推理思想。

在日常日子中,核算学无处不在,每个人、每件事好像都能够运用核算数据加以阐明。跟着人类迈入大数据时代,核算学在方方面面更是发挥了不可或缺的作用。核算学思维,便是在核算实践作业、核算学理论的运用研讨中,有必要遵从的根本理念和指导思维。它们对核算学的开展起到了指导作用。

近来,哥伦结业大学和阿尔托大学的两位闻名核算学研讨者撰文总结了曩昔 50 年最重要的核算学思维,包含反现实因果推理、bootstrapping 和依据模仿的推理、过参数化模型和正则化、多层次模型、通用核算算法、自习惯决议计划剖析、鲁棒性推理和探究性数据剖析。除了详细描述这些核算学思维的详细概念和开展进程,研讨者还概述了它们之间的一起特征、它们与现代核算和大数据之间的联络以及它们在未来怎么开展和扩展。研讨者表明,本文旨在激起人们对核算学和数据科学研讨中更大主题的考虑和评论。

因果推理、正则化上榜:权威专家盘点近50年最重要的统计学思维(统计推理是因果推理吗)  数据 统计 模型 第1张

论文链接:https://arxiv.org/pdf/2012.00174.pdf

这篇论文在社区引起了热议,图灵奖得主、贝叶斯网络之父 Judea Pearl 等学者纷繁转推并宣布自己的观念。他表明:「这篇论文将因果推理列入了核算学思维之一,与芝加哥大学核算系教授 Stephen Stigler 所著《核算学七支柱》中的观念天壤之别。」

因果推理、正则化上榜:权威专家盘点近50年最重要的统计学思维(统计推理是因果推理吗)  数据 统计 模型 第2张

此外,需求指出的是,本文列出的 8 种核算学思维是依据经历和阅览文献进行分类的,并不是依照时刻先后顺序或重要性进行排序。无论是在理论核算文献,仍是在各个运用范畴的实践中,这些核算学思维在 1970 年之前都有先例。但在曩昔的 50 年中,它们都得到了开展,而且已衍变出新的内容。下面逐个论述论文中列出的八个核算学思维。

曩昔 50 年最重要的核算学思维

反现实因果推理

该研讨从核算学、计量经济学、心思查验学、盛行病学和核算机科学中呈现的一系列不同观念开端,这些观念都围绕着因果推理应战打开。其首要思维是,因果识别是或许的,人们能够经过规划和剖析严格地陈说这些假定,并以各种办法加以处理。关于怎么将因果模型运用于实践数据的争辩仍在持续,但在曩昔的 50 年里,这一范畴的研讨使因果揣度所需的假定愈加准确,这又反过来促进了针对这些问题的核算办法的研讨。

因果推理办法在不同的范畴有不同的开展。在计量经济学范畴,要点是从线性模型解说因果推理 (Imbens and Angrist, 1994);在盛行病学中,要点是从观测数据进行因果推理(Greenland and Robins, 1986);心思学家现已意识到互相作用和不同的医治作用之间的重要性(Cronbach, 1975);核算学中现已有了匹配和其他办法来调整和丈量医治组和对照组之间的差异 (Rosenbaum and Rubin, 1983);在核算机科学范畴,现已有了许多关于因果推理的多维模型的研讨(Pearl, 2009)。

这些研讨中都有一个一起的主线,便是从反现实或潜在成果的视点对因果问题进行建模,这是一个很大的前进,逾越了前期的评判规范,后者没有清晰区别描述性推理和因果推理。首要研讨包含 Neyman (1923)、Welch (1937)、 Rubin (1974)以及 Haavelmo (1973),还有 Heckman 和 Pinto (2015)的布景介绍。

Bootstrapping 和依据模仿的推理

在曩昔 50 年里,核算学的一个趋势是用核算代替数学剖析。以 bootstrap 为例:在 bootstrap 中界说了一些估量器,并将其运用于一组随机重采样的数据集 (Efron, 1979, Efron and Tibshirani, 1993)。首要思维是将估量值视为数据的一个近似的充沛核算量,并将 bootstrap 散布视为数据的抽样散布的近似。在概念层面上,有人呼吁将猜测和重采样作为根本原则,从中能够得出差错校正和缩短等核算操作(Geisser, 1975)。

核算资源的添加使得其他相关的重采样和依据模仿的办法也很盛行。在置换测验中,经过对目标值进行随机改换,打破了猜测值与目标值之间的依靠联络,生成重采样数据集。Parametric bootstrapping、前验和后验猜测性查看 (Box, 1980, Rubin, 1984)、依据模仿的校准 (Talts et al., 2020) 都是从模型中创立仿制的数据集,而不是直接从数据中从头采样。

过参数化模型和正则化

自 20 世纪 70 时代以来,核算学的一个严重改变是关于用很多参数拟合模型的思维,模型参数或许比数据点还多,而且运用一些正则化办法来取得安稳的估量和出色的猜测。关于用很多的参数拟合模型的首要思维是取得非参数或高度参数化办法的灵活性,一起又能防止过拟合。正则化能够作为参数或猜测曲线上的赏罚函数来完结(Good and Gaskins, 1971)。

参数丰厚的模型的前期示例包含 Markov 随机场(Besag, 1974)、样条曲线(splines)(Wahba 和 Wold, 1975, Wahba, 1978)和高斯进程(O'Hagan, 1978),然后是分类树和回归树(Breiman 等人, 1984)、神经网络(Werbos, 1981;Rumelhart、Hinton 和 Williams, 1987;Buntine 和 Weigend, 1991;MacKay, 1992;Neal, 1996),小波缩短(wavelet shrinkage )(Donoho 和 Johnstone, 1994)、lasso/horseshoe 等其他最小二乘法的变体(Dempster、Schatzoff 和 Wermuth, 1977 年;Tibshirani, 1996 年;Carvalho、Polson 和 Scott, 2010 年),此外还有支撑向量机(Cortes 和 Vapnik, 1995 年)以及相关理论(Vapnik, 1998 年) 。

所有这些模型都具有随样本量和参数而扩展的特征,这些参数并不总是能够直接解说,而仅仅较大猜测体系的一部分。在贝叶斯办法中,能够先在函数空间中考虑先验,然后直接导出模型参数的相应先验。

在有满足的核算资源之前,以上许多模型的运用都受到约束。但在图像识别(Wu 等人,2004)和深度神经网络(Bengio、LeCun 和 Hinton, 2015 年;Schmidhuber, 2015 年)范畴,过参数化模型得以持续开展。Hastie、Tibshirani 和 Wainwright(2015)将大部分此类作业归化为稀少结构的估量,但作者以为概括为正则化更为适宜,由于它还包含适合于数据支撑规模的密布模型。这类作业大部分是在核算之外完结的,办法包含非负矩阵分化(Paatero 和 Tapper, 1994)、非线性降维(Lee 和 Verleysen, 2007)、生成对立网络(Goodfellow 等, 2014)和主动编码器(Goodfellow、Bengio 和 Courville, 2016 年):这些都是用于查找结构和分化的无监督学习办法。

跟着核算办法的开展及其在更大数据会集的运用,研讨人员开发了多种办法对各种拟合揣度进行精调、习惯和组合,包含 stacking(Wolpert, 1992)、贝叶斯模型均匀(Hoeting 等, 1999)、boosting(Freund 和 Schapire, 1997)、梯度提高(Friedman, 2001)和随机森林(Breiman, 2001)。

多层次模型

多层或分层模型的参数会随组改变,从而使模型能够习惯群集采样。纵向研讨、时刻序列横截面数据、元剖析(meta-analysis)和其他结构化设置。在回归语境中,能够将多层次模型视为特定的参数化协方差结构,也能够视为概率散布,其间参数的数量与数据成份额地添加。

多层次模型能够视为贝叶斯模型,由于它们包含不知道潜在特征或改变参数的概率散布。相反,贝叶斯模型具有多层次结构,具有给定参数的数据和给定超参数的参数散布。

通用核算算法

凭借现代核算,建模方面的改善才成为了或许。这不只包含更大的内存、更快的 CPU、高效的矩阵核算、用户友爱的言语以及其他核算立异,还有非常要害的部分是用于高效核算的核算算法上的改善。

曩昔五十年来的立异核算算法是依据核算问题的结构而开展的。在核算学的历史上,数据剖析、概率建模和核算的前进一向会互相结合,新模型让立异核算算法和新的核算技术打开了面向更杂乱模型和新推论观念的大门。通用的主动推理算法答应解耦模型的开发,因而更改模型不需求更改算法的完结。

自习惯决议计划剖析

从 20 世纪 40 时代到 60 时代,决议计划理论一般经过功效最大化 (Wald, 1949, Savage, 1954)、过错率操控(Tukey, 1953, Scheff´e, 1959) 和经历贝叶斯剖析 (Robbins, 1959, 1964) 作为核算的根底。近几十年来,在贝叶斯决议计划理论 (Berger, 1985) 和过错发现率剖析 (Benjamini and Hochberg, 1995) 中都看到了后续作业的开展。决议计划理论也受到了外界关于启示式算法和人类决议计划成见的心思学研讨 (Kahneman, Slovic, and Tversky, 1982, Gigerenzer and Todd, 1999) 的影响。

人们还能够将决议计划视为核算运用范畴,核算决议计划剖析的一些重要开展触及贝叶斯优化 (Mockus, 1974, 2012, Shariari et al., 2015) 和强化学习 (Sutton and Barto, 2018),这与职业中 A/B 测验试验规划的复兴和工程运用中的在线学习有关。核算科学的最新开展是能够运用比如高斯进程和神经网络之类的高度参数化模型作为自习惯决议计划剖析功用的先验,并能够在模仿环境中进行大规模的强化学习,例如创立人工智能操控的机器人、生成文本和参加围棋(Silver et al., 2017) 之类的游戏。

鲁棒推理

鲁棒性的概念是现代核算的中心,它是一种即便在假定不正确的情况下也能运用模型的思维。开发在实践情况与假定不符的情况下也能出色运用的模型是核算理论中重要的一部分。Tukey (1960)总结了该范畴的前期研讨,Stigler (2010)的研讨总结了历史性回忆。继 Huber (1972)等人的理论作业之后,研讨者又开发出卓有成效的办法,这些办法在实践中,尤其是在经济学中尤为重要,人们也对核算模型的不完善之处有了敏锐的知道。

一般来说,鲁棒性在核算研讨中的首要影响并不在于开发特定办法,而在于它影响了在 Bernardo 和 Smith (1994)称为 M-open 国际(其间数据生成进程不属于拟合概率模型的类别)的情况下评价核算程序的思维。Greenland (2005)以为研讨者应该清晰阐明在传核算算模型中不包含的差错源。鲁棒性问题与许多现代核算数据所特有的密布参数化模型有关,这更普遍地影响了模型评价(Navarro, 2018)。

探究性数据剖析

继 Tukey (1962)之后,探究性数据剖析的支撑者要点阐明晰渐近理论的局限性以及敞开式探究和通讯 (Cleveland, 1985) 的优点,而且阐明晰逾越核算理论的更一般的数据科学观念(Chambers, 1993, Donoho, 2017)。这契合核算建模的观念,即更多的重视发现而不是查验固定假定。这不只影响了图形化办法的开展,也将核算范畴从定理证明走向更敞开、更健康的视点,由于它是从科学范畴的数据中学习。以医学核算学范畴为例,Bland 和 Altman 于 1986 年宣布的一篇高被引论文提出用于数据比照的图形化办法,代替了相关性和回归剖析。

此外,研讨人员企图形式化界说探究性数据剖析:「探究性模型剖析」(Unwin, Volinsky, and Winkler, 2003, Wickham, 2006)有时被用来捕获数据剖析进程的试验特点,研讨者们也一向致力于在模型构建和数据剖析的进程中包含可视化的作业(Gabry et al., 2019, Gelman et al., 2020)。

这些核算学思维之间的相关

研讨者以为,上述这八种核算学思维之所以重要,是由于它们既处理了现有问题,还创立了新的核算考虑和数据剖析办法。换言之,每一种思维都不失为一部「法典」,其办法逾越狭义的核算学范畴,更像是一种「研讨品尝」或许「哲学思维」。

这些核算学思维互相之间存在着哪些相关和交互呢?

Stigler (2016)曾说过,一些显着不同的核算学范畴背面存在着某些相同的主题。这种互联的观念也能够运用于最近的研讨开展。

举例而言,正则化过参数化模型能够运用机器学习元算法进行优化,反过来又能够取得对污染(contamination)具有鲁棒性的推理。这些相关能够经过其他办法表明,鲁棒性回归模型对应混合散布,而混合散布又能够被视为多层次模型,而且能够经过贝叶斯推理进行拟合。深度学习模型不只与一种多层逻辑回归有关,还与样条曲线和支撑向量机中运用的复现中心希尔伯特(Hilbert)空间相关。

此外,特定核算模型又与文中列出的八种核算学思维存在什么联络呢?研讨者这儿提及的是有影响力的研讨作业,如危险回归、广义线性模型、空间自回归、结构方程模型、潜在分类、高斯进程和深度学习等。如上文所述,在曩昔 50 年里,核算推理和核算范畴呈现了许多重要的开展,这些开展都受到了文中议论的新模型和推理思维的启示和推进。应该看到,模型、办法、运用和核算互相结合,休戚相关

最终,研讨者表明能够将核算学办法的研讨与自然科学、工程学中的核算运用趋势联络起来。他们以为,生物学、心思学、经济学和其他科学范畴或许呈现复现危机或可复现性革命,而这些范畴的巨大改变需求依据核算资料得出结论。

作者简介

因果推理、正则化上榜:权威专家盘点近50年最重要的统计学思维(统计推理是因果推理吗)  数据 统计 模型 第3张

Andrew Gelman,哥伦比亚大学核算学与政治学教授,闻名的核算学家。他于 1990 年取得哈佛大学核算学博士学位。他曾三次荣获美国核算协会颁布的出色核算运用奖(Outstanding Statistical Application award),2020 年中选美国 AAAS 院士。他还著有《贝叶斯数据剖析》(Bayesian Data Analysis)等书本。谷歌学术中论文总引用量超越 12 万。

因果推理、正则化上榜:权威专家盘点近50年最重要的统计学思维(统计推理是因果推理吗)  数据 统计 模型 第4张

Aki Vehtari,阿尔托大学核算概率建模副教授,首要研讨爱好包含贝叶斯概率理论与办法、贝叶斯作业流、概率规划、推理与模型确诊、模型评价与挑选、高斯进程以及分层模型等。他还著有《Regression and other stories》和《Bayesian Data Analysis》等书本。谷歌学术中论文总引用量近 4 万。

转载请说明出处
知优网 » 因果推理、正则化上榜:权威专家盘点近50年最重要的统计学思维(统计推理是因果推理吗)

发表评论

您需要后才能发表评论