历经三年的时间,我们终于在2022年完成了朱迪亚·珀尔的大作《因果论:模型、推理和推断》的翻译工作。朱迪亚·珀尔是图灵奖得主,加州大学洛杉矶分校计算机科学教授,同时也是美国国家科学院院士,被誉为“贝叶斯网络之父”。
这本书的第一版发布于2000年,开创了因果分析和推断的新方法,受到了广泛好评,推动了数据科学、人工智能、机器学习、因果分析等领域的发展。第二版在2009年推出,内容结合了当时的最新研究成果,至今已有十几年的历史。
这本书的中文版出版有助于中国学者、学生和实践人员更好地理解和掌握因果模型、推理和推断的相关内容。尤其是在当前统计学和机器学习流行的背景下,如何实现从“数据拟合”到“数据理解”的转变?未来十年,从“所有知识都来自数据本身”到一种全新的机器学习范式的转变是否会发生?是否会引发“第二次人工智能革命”?
正如图灵奖颁奖委员会评价的那样,珀尔的工作是人工智能领域的基础性贡献,他提出的概率和因果性推理算法彻底改变了人工智能的早期发展方向。我们期待这种范式能为机器学习带来新的技术方向和动力,并在实际应用中发挥重要作用。
珀尔指出,“数据拟合”目前主导着统计学和机器学习领域,是大多数机器学习研究者的主要研究范式,尤其是在连接主义、深度学习和神经网络技术方面。尽管“数据拟合”在计算机视觉、语音识别和自动驾驶等应用领域取得了显著的成功,但许多数据科学家已经意识到,机器学习无法产生所需的智能决策能力。这些问题包括:稳健性、可迁移性和可解释性等。接下来,我们通过一些实例来探讨这些问题。
近年来,很多人自认为是统计学家,因为“数据拟合”和“所有知识都来自数据本身”为许多重大决策提供了数据支持。然而,在进行数据分析时,我们需要保持谨慎的态度。例如,十年前,某城市的市中心房价为8000元/平方米,共售出1000万平方米;高新区房价为4000元/平方米,共售出100万平方米;整体来看,该市的平均房价为7636元/平方米。现在,市中心房价升至10000元/平方米,但由于土地供应减少,只售出200万平方米;高新区房价升至6000元/平方米,由于新土地的开发,共售出2000万平方米;整体来看,该市的平均房价降为6363元/平方米。虽然分区房价均有所上涨,但整体房价却下降了。这种现象被称为辛普森悖论。这些案例表明,如果我们没有充分考虑观察变量,就可能从统计数据中得出错误的结论。同样,新冠疫情的数据也存在类似的问题。例如,全国范围内新冠病例数量在下降,但在某些地区,病例数量仍在增加。如果不同地区的数据差异较大,情况会变得更加复杂。
另一个有趣的例子是,如果我们每年收集尼古拉斯·凯奇出演的电影数量和美国溺死人数的数据,会发现两者高度相关。此外,如果我们收集各国人均牛奶消费量和获得诺贝尔奖人数的数据,也会发现两者之间存在高度相关性。这些表面上看似相关的数据其实都是伪相关,因为背后存在着未被观察到的混杂因素。珀尔在《因果论》中提出了因果分析的解决方案,详细分析和推导了这些问题,强调了因果与统计之间的根本区别。珀尔提出的基本计算模式包括后门原则和具体的计算公式,这是对因果关系最数学化的描述。
在现实世界中,我们采集的数据分布通常不完整,与实际情况可能不一致。在计算机视觉应用中,训练集和测试集的数据分布可能受到像素差异、压缩质量或相机位移等因素的影响。这些变量实际上是因果概念中的“干预”问题。因此,人们提出了简单的算法来模拟干预,以测试分类和识别模型的泛化能力,如空间偏移、模糊、亮度或对比度的变化、背景控制和旋转等。尽管我们已经取得了一些进展,但在独立同分布假设之外进行泛化,需要学习潜在的因果模型,以明确数据生成的机制。
婴儿通过跟踪随时间变化表现一致的物体来理解物体,这种方法可以使婴儿快速学习新的任务。类似地,高效的机器学习系统需要在新场景中重用已学到的知识技能。如果我们将现实世界建模,许多模块在不同任务和环境中表现出相似的行为。因此,面对新环境或新任务,机器只需要调整其内部表示中的几个模块即可。当学习因果模型时,由于大部分知识可以在无须进一步训练的情况下重复使用,因此只需少量样本即可适应新环境或新任务。
可解释性是一个微妙的概念,不能仅仅用布尔逻辑或统计概率来描述,它需要额外的干预概念,甚至是反事实的概念。因果关系中的可操纵性定义关注的是这样一个事实:条件概率无法可靠地预测主动干预的结果。因果关系被视为推理链的一部分,它可以为与观察到的分布相去甚远的情况提供预测,甚至可以为纯粹假设的场景提供结论。因此,发现因果关系意味着获得可靠的知识,这些知识不受观察到的数据分布和训练任务的限制,从而为可解释的学习提供明确的说明。
具体来说,基于统计模型的机器学习模型只能对相关关系进行建模,而相关关系往往会随着数据分布的变化而变化;而因果模型基于因果关系建模,则抓住了数据生成的本质,反映了数据生成机制的关系,这样的关系更加稳健,具有分布外泛化的能力。例如,在决策理论中,因果关系和统计之间的区别更加清晰。决策理论中有两类问题:一类是已知当前环境,拟采取干预,预测结果;另一类是已知当前环境和结果,反推原因。前者称为求果问题,后者称为溯因问题。
统计模型只是对观察到的现实世界的粗浅描述,因为它们只关注相关关系。对于样本和标签,我们可以通过估计来回答这样的问题:“这张照片中有一只狗的概率是多少?”“已知一些症状,心力衰竭的概率是多少?”这样的问题是可以通过观察足够多的独立同分布数据来回答的。尽管机器学习算法可以很好地完成这些任务,但准确的预测结果对于决策是不够的,而因果学习为其提供了一种有益的补充。
进一步讨论干预问题,它更具挑战性,因为干预会跳出统计学习中独立同分布的假设。例如,“今年增加邀请尼古拉斯·凯奇出演电影的数量会增加美国的溺亡率吗?”这是一个干预问题。人为的干预会使得数据分布发生变化,统计学习赖以生存的条件就会被打破。如果我们可以在存在干预的情况下学习一个预测模型,那么这有可能让我们得到一个在现实环境中对分布变化更加稳健的模型。为了在实际应用中使用机器学习算法,必须相信在环境条件改变的情况下,模型的预测结果也是准确的。
反事实问题涉及推理事情为什么会发生,想象实施不同行为所带来的后果,并由此可以决定采取何种行为来达到期望的结果。回答反事实问题比干预更加困难,但也是对AI非常关键的挑战。例如,如果一个干预问题是“如果我们现在让一个病人有规律地进行锻炼,那么他心力衰竭的概率会如何变化?”对应的反事实问题则是“如果这个已经心力衰竭的病人一年前就开始锻炼,那他还会得心力衰竭吗?”回答这样的反事实问题对于强化学习非常重要。
最后,我们来看看如何在各个领域应用因果学习。2021年诺贝尔经济学奖授予了约书亚·安格里斯特和吉多·因本斯,表彰他们在因果关系分析方法论方面的贡献。他们研究了因果推断在实证劳动经济学中的应用。经济学中的重要问题是因果关系问题,如移民如何影响当地人的劳动力市场前景?读研究生能否增加收入?最低工资对技术工人的就业前景有何影响?这些问题很难回答,因为我们缺乏正确的反事实解释方法。
自从20世纪70年代以来,统计学家发明了一套计算“反事实”的框架,以揭示两个变量之间的因果效应。经济学家在此基础上发展了断点回归、双重差分、倾向得分等方法,并大量应用于各种经济政策问题的因果性研究。从6世纪的宗教文本到2021年的因果机器学习,我们可以使用机器学习、统计学和计量经济学来模拟因果效应。经济和其他社会科学的分析主要围绕因果效应的估计,即一个特征变量对结果变量的干预效应。例如,在经济学中,分析最多的是企业补贴对企业收入的因果影响。
尽管经济学家和其他社会科学家对因果效应的精确估计能力强于预测能力,但他们对机器学习方法的预测优势也十分感兴趣。例如,精确的样本预测能力或处理大量特征的能力。但正如我们所见,经典机器学习模型并非旨在估计因果效应,使用机器学习中现成的预测方法会导致对因果效应的估计存在偏差。因此,我们必须改进现有的机器学习技术,以利用机器学习的优势来持续有效地估计因果效应,这促使了因果机器学习的诞生!
目前,根据要估计的因果效应类型,因果机器学习可以大致分为两个研究方向。一个重要的方向是改进机器学习方法以用于无偏且一致的平均干预效应估计。该研究领域的模型试图回答以下问题:客户对营销活动的平均反应是什么?价格变化对销售额的平均影响是多少?此外,因果机器学习研究的另一条发展路线是侧重于改进机器学习方法以揭示干预效应的特异性,即识别具有大于或小于平均干预效应的个体亚群。这类模型旨在回答以下问题:哪些客户对营销活动的反应最大?价格变化对销售额的影响如何随着顾客年龄的变化而变化?
除了这些实际案例,我们还可以感受到因果机器学习引起数据科学家兴趣的一个更深层次的原因是模型的泛化能力。具备描述数据之间因果关系的机器学习模型可以泛化到新的环境中,但这仍然是目前机器学习的最大挑战之一。
珀尔更深层次地分析这些问题,认为如果机器不会因果推理,我们将永远无法获得真正的人工智能,因为因果关系是人类处理和理解复杂世界的关键机制。珀尔在《因果论》中文版的序中写道:“在未来十年里,这个框架将与现有的机器学习系统相结合,从而可能引发‘第二次因果革命’。我希望这本书也能使中国读者积极参与到这场即将到来的革命之中。”