2010年世界杯,章鱼哥保罗一夜成名。它几乎百分之百的预测准确率,让人叹为不雅行。
我们堂堂万物之灵,怎么能输给一只章鱼呢?!
为了挽回人类的威严,城南将目光投向了2018年的俄罗斯世界杯。
2018年世界杯,但城南颠末一番阐发,根本上已经锁定了最末的冠军花落谁家!
话不多说,先上结论:
要预测2018年世界杯最末的夺冠球队,有以下四个步调:
1、利用爬虫获取数据;
2、计算各球队的进攻和防卫实力;
3、构建泊松模子;
4、屡次模仿赛程并统计成果;
下面城南为各人逐个拆解。
(一)
操纵爬虫获取数据
起首给各人介绍一个奇异的网站:球探网。
世界上大大小小的各类足球角逐,球探网城市停止统计,数据相当详细,除了每场角逐的比分之外,还包罗犯规数、红黄牌、控球率等详细数据。
通过球探网,能够轻松获取到2018年世界杯参赛的32收球队,在过去十几年参与的各类角逐的数据。
关于我们来说,最末目标是为了预测2018年世界杯的夺冠球队,那么太长远的数据显然并没有多大的意义。所以城南选择了2008年及以后的数据做为预测的根底。
(二)
计算各球队的进攻和防卫实力
数据获取到了之后,我们需要操纵数据计算出每收球队的进攻和防卫实力。
那里要向各人介绍一个算法。
关于一收球队A,我们能够按照获取到的数据,计算出球队A每场角逐的均匀进球数,假设为2个。
随后,我们需要按照获取到的数据,计算出所有32收参赛球队的场均进球数,做为基准线。假设所有球队的场均进球数为1个。
如今,我们能够按照那两个数据,计算出A的进攻实力,即:球队A的场均进球数/所有32收球队的场均进球数。
在我们那个例子中,球队A的进攻实力为2/1=2。
同样的,我们能够按照获取到的数据,计算出球队A每场角逐的均匀失球数(假设为1),然后再计算出所有32收参赛球队的场均失球数(假设为2)。
那么球队A的防卫实力就等于球队A的场均失球数/所有32收球队的场均失球数(本例入彀算成果为1/2=0.5)。
城南根据那个算法停止计算,别离做出了下面两张图:
进攻实力方面,德国一马领先,紧随其后的是西班牙、巴西、英格兰和葡萄牙;防卫实力方面,西班牙则位列第一,法国、伊朗、巴西和英格兰排列第二到第五位。
等下,那里仿佛混入了什么奇异的工具,伊朗的防卫实力竟然排名第三吗?!
那个问题留到后面来阐发。
别的需要提醒各人留意的是,那里的进攻实力和防卫实力,并非进球数和丢球数,并且防卫实力更低,暗示那收球队的防卫越强。
(三)
构建泊松模子
泊松散布是一个数学概念,描述的是某段时间内,某个事务的发作概率。
举个例子,假设你在公交站等车,固然站牌上写着公交车均匀5分钟一班,但你若是在公交站等上5分钟,你有可能等来1辆、也有可能等来3辆,当然若是命运欠好,1辆公交都没等来也是常事。
所以,你在公交车等公交时,5分钟内你等来的公交车的数量,就契合一个泊松散布的模子。
同样的事理,我们能够操纵上面获取的数据,计算出某收球队在一场角逐中可能的进球数,也就是进球数的期望值,但在一场角逐中,那只球队详细能打进几球,却是一个契合泊松散布的事务。
关于泊松散布来说,最重要的值就是那个期望值,也就是我们需要计算出,某收球队在一场角逐中进球的期望值。
那么,当球队A和球队B停止角逐时,怎么计算两收球队进球的期望值呢?
城南利用了另一个算法。
当球队A和球队B角逐时,A进球的期望值即为A的进攻实力*B的防卫实力*所有32收球队的场均进球数。同理,B进球的期望值即为B的进攻实力*A的防卫实力*所有32收球队的场均进球数。
若是我们假设球队A进球的期望值是1.5,球队B进球的期望值是1.7,并非说最末的比分是1.5:1.7。那么,要如何才气得到最末的比分呢?
我们能够操纵泊松散布来求解,若是某个泊松散布中的期望值是给定的,那么事务发作次数的概率即可以求出。
例如,若是球队A进球的期望值是1.5,球队B进球的期望值是1.7,那么按照泊松散布,球队A和球队B进球的概率散布如下表所示:
因为在世界杯的角逐中,呈现一收球队进球超越4个的情况不太常见,所以在计算的时候,我们假设进球总数不得多于4个。
有了如许的概率散布表,那么当球队A和球队B停止角逐的时候,我们能够计算出肆意比分呈现的概率了。
好比球队A和球队B打成0-0的概率为0.041(0.2231*0.1872),打成4-2的概率为0.017(0.0657*0.1827)。
(四)
屡次模仿赛程并统计成果
成立好泊松模子之后,关于肆意两收球队,我们都可以预测他们的比分。那么接下来要做的,就是按照2018年世界杯的分组成果和赛程,对每一场角逐停止模仿,并产生冠军。
城南总共停止了100000次模仿,得到的成果如下:
差点夺得欧洲杯的法国公然风头正劲,在城南停止的十万次模仿中,法国队有一万屡次夺得了冠军。完成了新老瓜代的西班牙紧随其后,究竟结果曾经缔造了统治世界的王朝,永久不克不及低估一颗冠军的心。
等一下,若是说永久星光灿烂的英格兰和五星巴西排在第三和第四位还能够承受的话,那么后面的伊朗、尼日利亚之类的是什么情况?
城南没有贬低那些球队的意思,但恐怕连他们的铁杆球迷,也历来没等待过那些球队夺得世界杯吧。
若是你还记得,前面我们在计算各收球队的进攻实力和防卫实力时,伊朗的防卫实力高居第三位,其时城南就说过,那个问题我们后面再说。
如今,是时候聊聊那些问题了。
(五)
数据清理与调整
完成了上面四步,我们已经能够得出结论了,但显然如许的结论其实不太令人满意,所以我们需要回到最后,对获取的数据停止进一步的处置。
起首,我们获取的数据,是每收球队过去十年的所有角逐的进球和失球数据。当我们在计算每收球队的场均进球数和场均失球数时,假定了那些角逐是同样的重要。换句话说,以法国为例,假设法国在上届欧洲杯决赛中打入1球,在对中国的友谊赛中打入4球,那么,我们能说法国队的场均进球数是2.5球吗?同样,假设伊朗在上届世界杯的一场小组赛中丢了4球,在另一场对阵叙利亚的友谊赛中一球未失,我们能说伊朗的场均丢球数是2球吗?
所以,我们需要按照角逐的重要性,对球队的进球和失球,付与差别的权重。
城南将“世界杯”、“欧洲杯”、“美洲杯”、“亚洲杯”、“非洲杯”、“世界杯预选赛”等角逐的权重设为1,将其他杯赛(例如“东亚杯”)等的权重设为0.8,将友谊赛的权重设为0.6,随后从头计算了各个球队的进攻实力和防卫实力,并再次对2018年世界杯停止了模仿,得到的成果如下图所示。
如今,西班牙代替了法国的位置荣登榜首,五星巴西紧随其后,紧接着是无与伦比的德国战车。前三名似乎十分有说服力。
但是,日本肿么会排名第四?伊朗为什么还在里面?克罗地亚排名第八仿佛还蛮靠谱?
那申明,咱们的数据还有进一步优化的空间。
打开世界杯的汗青,就会发现所有的世界杯冠军,都是来自欧洲和南美洲的球队,那申明欧洲和南美洲的足球程度是较为领先的。
在我们的数据中,各收球队跨大洲停止的角逐其实不多。好比日本,它大部门角逐都是和亚洲球队停止的,而法国队的大大都角逐则是和欧洲球队停止的。但是在计算各收球队的进攻实力和防卫实力时,我们仍然没有加以区别,那显然也是有问题的。
好比,在一场世界杯的角逐中,法国队对阵巴西队,法国队攻入3球,在另一场亚洲杯的角逐中,日本队对阵中国队,日本队同样攻入3球,那么能说日本队和法国队的进攻实力差不多吗?
为领会决那个问题,城南将32收球队分为两档,欧洲和南美洲的球队为第一档,他们的权重为1,其他大洲的球队为第二档,他们的权重为0.8。
随后,城南从头计算了各个球队的进攻实力和防卫实力,并再次对2018年世界杯停止了模仿,得到的成果如下图所示。
那张图也就是开篇城南放出来的图。
西班牙继续高举榜首,究竟结果过去几年,出格是从2008年到2012年的四年间,西班牙的战绩过分耀眼,以致于他们在2018年世界杯中的夺冠概率超越了15%。
五星巴西做为获得世界杯冠军次数最多的球队,紧随西班牙之后位列第二。第三名被德国占据,他们是世界杯卫冕冠军,并且如今世界排名第一。
那份榜单中比力让人不测的可能是克罗地亚和瑞士,但每届世界杯都有冷门产生,那两只球队未必能夺冠,但极有可能成为2018年世界杯的更大黑马。
(六)
最初,城南还发现了一些好玩的数据。
固然上面显示,西班牙夺冠的概率更大,但世界杯究竟结果分为小组赛和裁减赛两个阶段,良多强队就因为在小组赛表示欠安而遭遇滑铁卢,好比西班牙本身,就有过小组赛间接出局的为难。
因而,城南还阐发了顺利从小组赛呈现之后,各收球队的夺冠概率,并从中发现了一些纷歧样的工具。
若是西班牙顺利从小组赛中出线,那么它夺冠的概率会飙升到24.2%,那也是所有球队中夺冠概率独一打破20%的球队。
德国完成了对巴西的超越,排名第二。那意味着若是顺利从小组赛突围,那么德国比巴西有更大要率夺冠。
此外,葡萄牙和阿根廷的夺冠概率也增长敏捷,那可能意味着,那两只球队要想从小组赛中顺利出线其实不容易,可是一旦出线,它们也将成为夺冠的大热门。
略感遗憾的可能要数法国队。
固然在刚刚过去的欧洲杯上,法国队击败了德国队,差点就成为了欧洲杯冠军,但本届世界杯它们的夺冠前景似乎困难重重。不外,那可能是因为法国队在过去十年中的角逐表示欠安,但其实不意味着现在那收弥漫着青春风暴的法国队就实的技不如人。
最初,城南还趁便统计了一下,在十万次模仿的成果中,每个小组中各收球队的出线概率,成果也让人吃惊。
葡萄牙、阿根廷和比利时,别离拥有C罗、梅西和阿扎尔,那三收球队不论是绝对实力仍是球星魅力,都是万寡注目的。但从数据预测的角度来看,他们可能都将无法从小组赛呈现,从而构成2018年世界杯的更大冷门。
此外,在德国所在的小组中,韩国可能超越墨西哥和瑞典而冲出重围,那可能也是一个不大不小的冷门。
最初,固然城南操纵数据做出了预测,但是仍是想听到各人的声音,你们觉得2018年世界杯,谁会夺冠呢?
最初的最初,城南想说的是,影响足球角逐最末成果的因素太多,例如气候、球员形态、角逐时间,以至是裁判,所以以上预测,只是一种视角,仅供娱乐,各人切勿当实哦。
PS:
大老板说,见证奇观的时刻到了!(他默念,我翻译的... ...)
最初附送和我一样足球小白的人:伪球迷常识(zi shi)。。。