德甲多特蒙德球员向球迷解释 全局解释:通过 Clarify 可解释性分析深入了解 xGoals 训练集

在我们对整个训练集运行可解释分析之后,我们可以快速轻松地查看总 SHAP 值及其每个特征的分布,从而使我们能够绘制给定特征值的正向或负向变化如何影响最终预测。我们使用开源 SHAP 库来绘制我们处理作业中计算的 SHAP 值。

下图是一个全局解释的示例,它使我们能够理解模型及其在多个数据点上的总特征组合。 、 和 t 是在预测我们的目标变量(即是否对目标进行评分)中起最重要作用的特征。

这种类型的图可以更进一步,为我们提供比条形图更多的背景信息,让我们更深入地了解每个特征的 SHAP 值分布(允许您映射给定特征值的变化如何影响最终预测),以及预测因子和目标变量之间的正负关系。下图中的每个数据点代表一次射门尝试。

如图中右侧纵轴所示,红色数据点表示较高的特征值,蓝色数据点表示较低的特征值。x 轴上显示了对射门预测值的正面和负面影响,这些影响源自 SHAP 值。例如,您可以逻辑地推断,射门角度的增加将增加预测的对数赔率(这与是否进球的预测为真有关)。

值得注意的是,对于结果垂直偏差较大的区域,重叠数据点的集中度较高,这使我们能够了解每个特征的值的分布情况。

这些特征按其重要性从高到低排序。当我们将此图与三个时间段(2017-2018 年、2018-2019 年和 2019-2020 年)进行比较时,我们发现特征重要性的分布及其相关的 SHAP 值几乎没有变化。德甲联赛所有俱乐部都是这种情况,只有少数俱乐部偏离了常态。

尽管我们的比赛事件均不涉及惩罚(特征值 = 1),但它仍必须包含在处理作业中,因为它也包含在初始模型训练中。我们需要在模型训练和处理之间保持这两个特征集的一致性。

功能依赖关系

我们可以更深入地研究 SHAP 特征依赖关系图,这可以说是最容易全局解释的。我们只需选择一个特征,在 X 轴上绘制特征值,在 Y 轴上绘制相应的 SHAP 值。下图显示了我们最重要的特征之间的这种关系:

如果我们更仔细地观察这两个(影响力较小的)分类变量,我们会发现,在其他条件相同的情况下,头球总是会降低进球的机会,而任意球则会增加进球的机会。鉴于 =Yes 和 =No 在 0 SHAP 值附近的垂直分散性,我们无法得出关于它们对进球预测的影响的任何结论。

功能互动

在考虑了单个特征的影响之后,我们可以通过突出不同特征之间的相互作用(附加影响)来改进依赖关系图。我们使用博弈论中的交互指数来计算所有特征的 SHAP 交互值,以获得每个实例的维度为 FXF 的矩阵,其中 F 是特征的数量。使用此交互指数,我们可以用最强的相互作用为 SHAP 特征依赖关系图着色。

例如,假设我们想知道变量和如何相互作用,以及它们对的SHAP值的影响。的计算非常简单,只需将对方球员对射手施加的所有个人压力相加即可。我们可以看到和进球变量之间存在负相关性,距离球门越近,进球的几率就越高。当然,在那些进球预测较高的比赛中,和之间存在很强的反比关系;也就是说,前者减少,后者增加。

几乎所有接近球门的射门都是以大于 45 度的角度射门。距离球门越远,角度就越小。这很有道理;你什么时候见过有人在距离球门 40 米的边线处进球?

回想一下前面的结果,射门角度越大,进球的机会就越大;我们可以看看防守队员数量的 SHAP 值,并确定只有当一两个防守队员靠近攻击者时才会发生这种情况。

回顾我们最初的全局摘要图,我们可以看到特征和中存在一些不确定性(由零 SHAP 值标记周围的密集点簇表示)。我们可以使用交互图深入研究这些值,并尝试揭示和识别导致这种情况的原因。

经过检查,我们发现,即使对于两个最重要的特征,它们对变化的 SHAP 值的影响也微乎其微。这里的关键点是,当球员几乎没有压力时,低压力会增加进球的机会,而当球门附近压力很大时,情况则相反:球员进球的可能性较小。这些影响对于 是相反的:我们看到,随着压力的增加, 的 SHAP 值会降低。令人欣慰的是,我们的特征交互图能够证实我们的远见并量化各种作用力。

毫不奇怪,只有极少数头球射门角度小于 25 度时能得分。然而,更有趣的是,当比较头球对进球机会的影响时,我们发现在 25-75 度之间的任何角度,头球都会降低进球机会。这可以简化为以下内容:如果您最喜欢的球员将球保持在脚下并以大角度射门,那么进球的机会比球飞到空中更高!

相反,如果角度大于 25 度,与以更快速度带球向球门的球员相比,以较慢速度带球的球员进球的机会可能会减少。从两张图可以看出,<25 和 >25 对进球预测的影响存在明显差异。我们可以开始看到使用 SHAP 值分析赛季数据的价值,因为我们可以快速识别数据中的共同趋势。

局部解释

到目前为止,我们的分析仅关注整个数据集的可解释性结果(全局解释)。现在,让我们探索一些特别有趣的比赛及其进球事件,看看可能存在哪些局部解释。

让我们回顾一下 2019-2020 赛季最有趣的比赛之一德甲多特蒙德球员向球迷解释,即 2020 年 2 月 8 日勒沃库森 (Bayer 04) 以 4-3 击败多特蒙德 ( ) 的惊天大胜,看看每个特征对值(我们在横轴上看到的模型输出)的不同影响。我们看到,从底部开始向上,特征开始对最终预测产生越来越大的影响,一些极端情况表明,t 和模型的概率预测起着决定性的作用。虚线表示进球的比赛事件。

如果我们看一下比赛中的第六个进球,由莱昂打进(该模型之前相对容易地预测到了这个进球),我们可以看到,许多(关键)特征值都高于平均值,并增加了进球的可能性,如下方力图中相对较高的 0.36 值所反映的那样。

我们看到的基值是过去三个赛季德甲联赛中每次射门的平均值,即 0.0871!模型从这个基线开始预测,正向和负向的力量可以增加或减少预测值。在图中,特征的 SHAP 值表示为箭头,可以使预测值更高(正值)或更低(负值)。这次射门有高(56.37)、低(1.0)和低,而在前一种情况下,没有具有抵消作用的特征。所有定性描述(例如小、低和大)都是相对于数据集中每个相应特征的平均值。

在另一个极端,有些进球是我们的模型无法预测的,SHAP 值也无法解释的。22% 的德甲观众将埃姆雷·詹评为 2019-2020 赛季最佳射手。考虑到他与球门的最佳距离(约 30 米)和与球门的角度接近平角(11.55 度),他能打进这个球真是太神奇了,他的得分机会几乎为零(3%)。唯一有助于他得分的特点是他当时压力不大,附近只有两名球员可以阻止他得分。然而,这显然很难阻止詹。就像足球比赛中经常出现的情况一样,射门的每个细节可能都太完美了,任何人都无法预测最终结果,更不用说高级 ML 模型了。

仅使用进球时球员的位置跟踪数据,我们就可以创建一个 2D 动画,展示 Can 实际进球的过程。

演示 1

演示 2

结论:德甲联赛的教训

德甲联赛由亚马逊网络服务提供支持,其主要启示有两点。本文的实验结果向我们展示了:

在足球比赛这样复杂的现实场景中,传统或临时的基于规则的系统在应用时开始失效,无法提供任何类型的比赛预测,更不用说对具体情况的深入解释。通过应用这一点,我们不仅可以增强进球预测模型,还可以根据每场比赛的情况分析足球比赛。

近年来,捕捉足球数据的技术取得了长足进步,我们拥有可以对这些海量数据进行建模的模型。随着德甲联赛数据集的复杂性、深度和丰富性不断增加,团队不断探索新的、令人兴奋的想法,以更多地了解这项运动,以及如何根据富有洞察力的可解释结果调整我们出色的生产模型。更新和改进是不可避免的,也是持续不断的德甲多特蒙德球员向球迷解释,这为了解德甲联赛开辟了许多令人兴奋的途径。

“借助 STS,开发人员可以在几分钟内体验到先进的可解释 AI 算法的强大功能,并将它们与 STS 数字平台的其余部分无缝集成,”STS(由亚马逊网络服务提供支持的 STS 的主要合作伙伴组织)数据科学家 Anzer 表示。“该平台是我们长期战略的重要组成部分德甲多特蒙德球员向球迷解释,旨在标准化网络上的 ML 工作流程。”

无论该解决方案是帮助狂热的足球运动员在当地联赛中获得优势,为管理人员提供对球员当前和预测未来表现的客观评估,还是作为知名足球专家的谈话开场白,帮助他们识别特定球员和球队的进攻和防守倾向,通过观察它在德甲联赛中的应用,您已经可以看到它在足球生态系统的所有领域创造的有形价值。

关于作者

缺口

亚马逊网络服务专业服务团队数据科学家

Nick 是 Web 专业服务团队的数据科学家。他与医疗保健、金融、体育和媒体等不同行业的 AWS 客户合作,利用 AI/ML 加速业务成果。工作之余,他喜欢旅行、尝试新美食以及阅读科学技术方面的书籍。Nick 的背景是天体物理学和机器学习,但他偶尔会关注德甲联赛,从小就是曼联的球迷!

卢克

亚马逊网络服务专业服务团队数据科学家

Luuk 是 Web 专业服务团队的数据科学家。他与各行各业的客户合作,帮助他们利用机器学习挖掘数据以获得见解。在业余时间,他喜欢学习有关心理学、经济学和人工智能 (AI) 的思想和交叉学科。

安泽尔

AG 首席数据科学家

Anzer 是德国足球联赛子公司 AG 的首席数据科学家。他致力于借助 AI/ML 从足球数据中为球迷和俱乐部提取有趣的见解。他的教育背景是数学和机器学习,但他也在图宾根大学攻读体育分析博士学位,并正在努力获得足球教练执照。

我听说点击以下 4 个按钮后

你不会遇到错误!

标签: 德甲多特蒙德球员向球迷解释