2016 年,AlphaGo 击败了围棋世界冠军、职业九段棋手李世石,以机器学习、深度学习为核心的人工智能技术,势不可挡地进入了大众视野。然而,在经历了之前几年的高速发展后,无论学术届还是工业界,无论基础理论还是实际应用,人工智能技术似乎都遇到了瓶颈,进展相对缓慢。

造成这个现象的本质原因,是当前机器学习技术与通用人工智能(Artificial general intelligence,AGI)之间还存在着巨大的鸿沟。一方面机器学习模型自身存在泛化能力和稳定性差的问题,并且过度依赖数据拟合,缺乏可解释性;另一方面人工智能的目标是实现"决策",而当前机器学习技术只能实现"预测".前者需要提供指导性的分析,例如企业想实现销售增长、用户数量增加的目标,应该如何去做;而后者目前只能根据历史数据进行预测,告知企业未来会发生什么。现在数智化的企业更需要的,是自动化的"决策"而不仅仅是对未来的"预测".以相关性为基础进行预测的机器学习,在面对需要因果关系为前提的决策性问题时就显得力不从心。

正因为如此,2011 年图灵奖得主 Judea Pearl 提到,"机器缺乏对因果关系的理解可能是给它们提供人类水平智能的最大障碍",2019 年图灵奖得主 Yoshua Bengio 也说"因果关系对于机器学习的下一步进展非常重要".因果推断(Causal Inference)开始被认为是人工智能领域的一次范式革命,成为近年来的研究热点之一。

从古希腊到 2022 年,因果推断正在成为 AI 领域热点研究方向

因果推断(Causal Inference),是关于因果关系的推断,研究如何更加科学地识别变量间的因果关系。

因果问题是一个非常古老的问题,当人们意识到某些事物的变化会导致另一些事物产生时,便有了对因果的直觉性思考。古希腊时期,亚里士多德提出了 四因说 ,开启了对因果的哲学性思辩。18 世纪,英国哲学家大卫·休谟提出了三大难以解决的问题,对因果关系的普遍性和必然性进行了反思。20 世纪初,美国数学家 Jerzy Neyman 提出了用于因果推断的"潜在结果"(potential outcomes)数学模型,把因果推断从一个哲学思考变成一个科学问题,成为因果推断发展过程中奠基性的突破。

20 世纪 70 年代,哈佛大学着名统计学家 Donald Rubin 在 Neyman 的研究基础上进行了进一步延伸,将其从完全随机实验的领域扩展为在观察性和实验性研究中思考因果关系的一般框架,也就是鲁宾因果模型 Rubin Causal Model (RCM)。差不多同一时期,另一位着名科学家,图灵奖得主、"贝叶斯网络之父"Judea Pearl,利用结构因果图以及 do-操作、反事实分析等概念,创建了结构因果模型 Structural Causal Model(SCM)。现代有关因果推断的理论研究就主要基于以上两个基本理论框架。

因果推断主要解决因果发现(Causal Discovery)、因果量识别(Identification of Causal Quantities)、因果效应评估(Causal Effect Estimation)、反事实预测(Counterfactual Inference)和策略学习(Policy Learning)五大类的问题。

国内外的一些大型企业,近些年都在逐步加大对因果推断领域的投入和应用。UBER、滴滴等共享汽车的平台,在弹性定价上高度依赖因果分析模型来提高整体收益率,腾讯等视频平台则使用基于因果分析模型的广告投放工具来帮助提升用户 ROI.

现有的一些因果推断工具集

目前国际上关于因果推断的产品和工具也有很多,例如 CausaLML、EconML、CausaLearn、DoWhy 等等。不同产品和工具的侧重点都有所不同,例如 CausaLML 由 UBER 开源,定位是一个 uplift 建模专用的工具,主要解决因果效应评估类问题。EconML 由微软研究院开源,重点也是围绕因果效应评估类问题。还有 Causal-learn,专注于解决因果发现类问题。可以发现,市面上的工具包各自解决了因果推断中的部分问题,缺少系统、完整的、综合性、端到端的因果学习工具包。

YLearn:全球首款一站式处理因果学习完整流程的开源算法工具包

九章云极DataCanvas是国内一家专注于人工智能、机器学习与数据智能基础软件的公司, 2020 年公司就看到了因果推断对人工智能未来发展的重要性,并将因果推断作为重要的研发与突破方向,2021 年 6 月正式启动了 YLearn 因果学习开源项目(https://github.com/DataCanvasIO/YLearn)。

YLearn 因果学习开源项目(以下简称"YLearn"),是全球首款能够一站式处理因果推断完整流程的开源工具包,它几乎包含并解决了因果推断领域中所有的核心问题,包括因果发现、因果量识别、因果效应估计、反事实预测、策略学习等,同时提供了面向用户的基础 API.YLearn 还提供了重要模块的可视化输出,如因果图、因果效应解释、决策树等,帮助用户更直观地理解数据、调整策略、实现预期。

YLearn 工具包组成

我们能看到,与上述其他产品和工具相比最大的不同,是 YLearn 具有一站式、新而全、用途广等特点。

首先,YLearn 一站式地支持从数据中发现因果结构、对因果结构建立因果模型、使用因果模型进行因果识别、对因果效应进行估计等一系列功能,使用户能以最低的学习成本使用与部署。

其次,YLearn 实现了多个在因果推断领域中发展出的算法,例如 Meta-Learner、Double Machine Learning 等,也将一直紧跟前沿进展,保持因果识别与估计模型的先进和全面。

最后,YLearn 还支持对因果效应进行解释、根据因果效应在各种方案中选取收益最大的方案并可视化决策过程等功能。除此之外,YLearn 也支持将因果结构中识别出的因果效应的概率分布表达式以 LaTex 的形式输出等小功能,帮助用户将因果学习与其他方向的研究进行交叉融合。

YLearn 工作流程图

据介绍,YLearn的应用目前主要集中在两个领域,一个是用于弥补机器学习理论上的缺陷。在机器学习模型中加入因果机制,利用因果关系的稳定性和可解释性,优化模型、提升效率;另一个是帮助实现用户需求从预测到决策的迁移,例如使用基于因果推断的推荐算法帮助企业进行客户增长和智能营销等。

目前九章云极DataCanvas已正式对外发布了第一个版本,后期也会持续进行版本的迭代。

九章云极DataCanvas的主任架构师杨健对 CSDN 透露,接下来,YLearn 将做大量落地实践和验证的工作,并结合DataCanvas APS自动机器学习平台、DataCanvas RT实施决策中心 等平台级产品,进一步实现客户在决策任务上的需求。同时结合客户实际场景,沿着帮助企业建立决策图谱、解决因果学习的自动调参和优化问题、实现高效的特征发现和特征工程,提高机器学习的泛化能力、解释性等不同路线进行演进。最终,就像机器学习中的 scikit-learn 一样,九章云极DataCanvas希望 YLearn 能够成为因果推断领域的基础算法包和必选项。

人工智能发展到今天,业界涌现了层出不穷的机器学习和深度学习技术,都是希望帮助人们更准确的分析问题,甚至预测未来。现在,因果推断能够帮助 AI 模型赋予因果关系,弥补机器学习理论的缺陷,正在解决从"是什么"到"为什么"的问题,也因此,因果推断将是进一步发展人工智能技术的必经之路。又或许,因果推断将成为 AI 能否像人类一样思考、强人工智能是否能够实现的关键。

前沿技术的演进道路从来都是未知而迷人的,也希望中国有更多人工智能技术的研究人员和爱好者,能够进入因果推断这个充满机遇和挑战的领域,充分发挥自己的聪明才智,为人工智能技术带来跨越式的发展。CSDN 将持续关注与报道因果推断与九章云极DataCanvas YLearn因果学习开源项目的发展。