大数据文摘出品。 编译:halcyon、小鱼。 离2018俄罗斯世界杯开幕的日子越来越近,学术界的球迷们也抑制

大数据文摘出品

编译:halcyon、小鱼

离2018俄罗斯世界杯开幕的日子越来越近,学术界的球迷们也抑制不住等待的表情,纷繁用算法对2018世界杯的角逐成果停止预测。

巧的是,AI的预测成果纷繁看好德国队。前有德国帕绍大学(Universität Passau)操纵ELO评级预测德国胜算更大,后有俄罗斯彼尔姆国立研究大学操纵神经收集预测世界杯前三名将是德国队、巴西队和阿根廷队,并称那项预测的准确度超越80%。

从AI的预测成果来看,德国队更胜一筹。那么是若何停止预测的呢?一路和文摘菌来看看帕绍大学那篇比来颁发的论文。

在大数据文摘后台回复“世界杯”可下载论文~

下面是论文精华内容:

本文提出了一种阐发和预测足球锦标赛的办法。该办法基于泊松回归模子,由做为协方差的团队Elo评级和球队特定效应的差别构成。

通过天然中立的拟合从2010年以来所有参与角逐的球队的数据获得预测2018年世界杯的模子。基于单场角逐的估量模子,操纵蒙特卡罗模仿计算了2018年世界杯各球队抵达差别阶段的概率。

我们提出了两个基于随机序级变量的评分函数,并与排名概率分数对2010~2014年世界杯模子成果停止验证。

所有模子的预测成果都暗示,德国队将成为2018年俄罗斯世界杯的冠军。所有可能的角逐和获胜概率操纵桑基图停止了可视化。

我们提出了四个复杂度依次递增的泊松回归模子。模子的验证涉及拟合优度查验、残差阐发和最小信息原则(AIC)。此外,我们还对2010~2014年世界杯的模子停止了验证。

起首,操纵技巧得分排名概率(RPS)和随机序级变量对每个单场角逐的成果停止了建模,暗示为G_A:G_B,此中G_A和G_B别离是球队A和B的进球个数,并操纵提出的评分函数在RPS和布莱尔分数长进行了比力。在2010~2014年世界杯的验证上,评分函数与角逐成果十分接近。

模子

我们的模子是基于球队的世界足球ELO评级成立的。该评级来自Elo评级系统,但是为了考虑到各类足球特定变量,我们做了一些批改。2018年3月28号排名更高的5个球队的ELO评级如下:

下面我们展现了四个愈加复杂的模子,在那些模子中,(G_A,G_B)为二维泊松散布随机变量,(G_A,G_B)的散布将取决于A球队和B球队以及两个步队的ELO排名Elo_A和Elo_B。

独立泊松回归模子

在那个模子中我们假设G_A和G_B别离是参数为λ_A|B和λ_B|A的独立泊松散布变量。我们通过A和B的ELO分数停止泊松回归来估量λ_A|B和λ_B|A。详细过程如下:

1.第一步,对球队A与另一收给定Elo分数Elo=Elo_B的球队B的进球数目停止建模,

2.同理,对球队B与另一收给定Elo分数Elo=Elo_A的球队A的进球数目停止建模,

3.我们建模进球数目G_A为具有如下参数的泊松散布:

以此类推,我们有:

关于每个步队,别离估量他们的回归参数α0,α1,β0和β1。那么A和B之间的角逐就通过两个泊松随机变量G_A和G_B停止模仿。

回归做图

我们操纵公式(2.1)做出了德国队和巴西对的回归成果(如下图),此中,红色的点代表不雅测到的数据(进球数目(y轴)依赖于敌手(x轴)的实力)。曲线暗示根据敌手的Elo实力得到的估量均值。

类似的,下图暗示公式(2.2)的回归成果:

拟合优度查验

我们对所有参赛步队的(2.1)和(2.2)中的泊松回归停止拟合优度查验,关于肆意一收步队T,我们计算它的χ^2统计量:

此中,n_T是T的角逐场数,x_i是T在角逐i中的进球数目,μ^_i是估量的泊松回归均值。

我们发现回归模子对大大都步队的拟合水平较好。下表给出了排名前5的步队的p值:

误差阐发

起首,我们计算每个球队在公式(2.1)回归时的空模子误差和残存误差。下表显示了误差值和当前Elo排名前五的团队残存误差的p值。虽然一些p值十分低,但是还能够承受。

公式(2.2)的回归误差和p值如下表:

二维泊松回归模子

上一个模子的缺陷在于进球数目G_A和G_B是独立散布。在那一章节中我们提出了一个二维回归模子,模子利用下面的回归办法:

1.关于每收参赛步队T,我们估量参数

那些参数会依赖于敌手步队O的Elo实力Elo_O,为此,我们利用下面的泊松回归模子:

也就是说,步队T与Elo实力为Elo_O的敌手角逐的估量期望进球数为μ_T(Elo_O)+τ_T,而Elo实力为Elo_O的步队与T角逐的估量期望进球数量为ν_T(Elo_O)+τ_T。

2.估量λ1、λ2和λ0如下形式:

3.最初,我们假定(G_A,G_B)为具有参数(λ1,λ2,λ0)的二维泊松散布。

具有对角膨胀的二维泊松回归

我们以概率p膨胀对角线元素,膨胀通过向量(θ0,θ1,θ2)给定来描述角逐成果0:0,1:1,2:2的概率,我们比力了前5收步队的对角膨胀模子和非对角膨胀模子的AIC值,如下表所示。从表中能够看出,虽然对角膨胀的ACI值降低了,我们也不认为膨胀模子改善了预测成果。

嵌套的泊松回归模子

该模子的泊松比率λ_A|B和λ_B|A由如下体例确定:

1.我们经常假定比拟与B,A具有更高的Elo值,那种假定是有事理的,因为凡是强队会主导弱队的战术,进而,强队的进球数目会对弱队的进球数目产生影响。好比,若是A队进了5个球,那么B队可能会进1~2个球,因为A队的防卫会因为预期的成功而留意力不集中,若是强队A进了一个球,那么B队是不成能进球的或者只能进一个球,因为A会愈加集中于防卫,来守护那来之不容易的成功。

2.G_A的泊松比率由如下公式决定:

3.B队进球数目G_B依赖于Elo值E_A=Elo_A以及G_A的成果,因而G_B建模为具有参数λB(E_A,G_A)的泊松散布:

4.A和B角逐的成果通过起首实现G_A,然后实现G_B停止模仿。

那种办法可以通过前提概率的的定义停止断定:

我们操纵汗青数据停止了模子验证。

评分函数

下面我们想比力前两届世界杯的预测值和实在值的成果,为了那个目标,我们起首引进了下面的公式,关于步队T:

下面的评分函数丈量和比力预测成果和实在成果:

1.极大似然分数:步队T的错误定义如下,

总的错误分数由累加所有参赛步队的错误给出:

2.加权差别:步队T的错误定义如下,

总的错误分数由累加所有参赛步队的错误给出:

3.布莱尔分数:步队T的错误定义如下,

总的错误分数由累加所有参赛步队的错误给出:

4.RPS:步队T的错误定义如下,

总的错误分数由累加所有参赛步队的错误给出:

在2014年世界杯成果长进行模子验证

仿实成果如下表格所示,关于每收步队,我们估量了它抵达某一轮或者博得锦标赛的概率:

那意味着巴西队有20.30%的概率博得世界杯,30.30%的概率抵达决赛,40.30%的概率抵达半决赛。最初一列给出了在小组赛分开的概率。独立回归模子和嵌套回归模子的成果如下表所示:

独立回归模子成果

嵌套回归模子成果

在2010年世界杯成果长进行模子验证

独立回归模子和嵌套回归模子的成果如下:

独立回归模子成果

嵌套回归模子成果

2018年世界杯模子

所有模子的预测成果都暗示,在考虑球队特点和以下事实的根底上,德国队会博得冠军:若是德国队和巴西队都博得了他们的小组赛,他们只会在决赛中相遇。2018年世界杯预测成果:

独立回归模子预测成果

嵌套回归模子预测成果

二维泊松回归模子预测成果

对角膨胀泊松回归模子预测成果

桑基图

我们用桑基图展现了嵌套泊松散布的预测成果,如下图所示。线条的宽度暗示了每个球队在差别的赛程胜出的概率。

在大数据文摘后台回复“世界杯”可下载论文~

相关报导:

https://tech.sina.com.cn/roll/2018-06-09/doc-ihcscwxc1117168.shtml?sendweibouid=1642634100

本文由世界波发布,如若转载,请注明出处:https://www.worldball.cc/2022117325.html