2022世界杯小组赛已经全数完毕了,十六强对阵也全数出炉,接下来的角逐会更令人等待。今天我做了一个预测,基于机器进修的预测成果显示:决赛将上演梅西与C罗对决,那实是一个令人惊讶又令人兴奋的成果,因而决定用此文分享出来!
十六强对阵
本年的世界杯,除了角逐自己外(诚恳说,我看的角逐很少),我最存眷的其实是与世界杯相关的数字手艺和数据,好比之前曾经《聊聊世界杯的半主动越位手艺》,也深深感触感染到《数字手艺改良了世界杯的旁观体检
》。
在接下来的裁减赛阶段,相信各人留意力会更侧重在角逐自己,我想到操纵人工智能(机器进修)来预测裁减赛的赛果,在存眷世界杯的同时也趁便练练手艺。
有了那个设法,还想晓得有没有现成的经历可借鉴。找了一下发现Kaggle上还实有于是我就借鉴了此中一个做者的设法和数据(https://www.kaggle.com/code/sslp23/predicting-fifa-2022-world-cup-with-ml/data?scriptVersionId=111479915)来完成预测,在此对该文做者暗示感激。下面进入正题,对实现过程和手艺不感兴趣的伴侣可间接下拉到“四、预测成果”查看成果。
一、数据筹办
咱们需要几个数据,别离是:
各个国度队在FIFA的排名数据,以下如许的数据有6万多行。
各个国度队彼此之间的汗青战绩数据,以下如许的数据有4万多行。
FIFA2022世界杯的角逐对阵情况,对阵的数据获取比力容易,老外能够在维基百科上爬,因为寡所周知的原因,我们需要本身生成数据。
咱顺带看看中国国度队在过去的三十年间在FIFA的排名情况吧,国度队在还处在“上升期”,原谅我又扎了一下老铁们的心!
二、数据理解和特征工程
所拥有的原始数据是很难间接用于预测的,因而需要做很多的工做来生成可用于预测的特征,在此过程中也需要连系对足球的理解(从术语的角度来说就是营业与手艺的连系),细节不多说了,从需要的东西和次要的工做两方面来简要描述一下要点:
1、那一阶段最次要的手艺包罗-Python-Pandas-Excel2、 一些次要的工做包罗:
-需要将几张表
交融
-将对阵进球数转换成胜负平
-将对阵进球数转换成得分(310)
-查抄一些维度之间的相关性-汗青对阵中主场因素处置
-标识表记标帜角逐重要度(友谊赛)
-有一些空值需要处置(舍弃)
-数据归一化
-其它操做
理论一再证明,数据处置是所有工做傍边最耗时的,也确实需要技巧!颠末一波操做,最末得到如下示例的表。
target一列是角逐成果,0代表赢球,其余的数字列是颠末精心筹办后决定用于建模预测的维度。
三、建模
建模过程相对容易些,选择几个模子,利用网格搜刮超参数。因为本次的使命是一个分类使命(并且是二元的,裁减赛只要晋级和被裁减两个选项),因而能够接纳的算法也是挺多的。
本次利用sklearnt,颠末了一些挑选,最初确定利用梯度提拔决策树(GradientBoostingClassifier)
在训练中,它实现了86%的准确率,在测试集中实现了76%,略优于随机丛林等算法。
四、预测成果
每一次预测成果由几部门构成:
对阵两边
预测会晋级的球队名称
博得角逐的概率值,那个值介于0.5~1.0之间,该值越大代表预测的置信度越高。
1、预测十六进八的成果
显然,除了南美的巴西和阿根廷赢球的概率很大以外,其它球队角逐过程中若是遭到一个很强的临场因素(好比红牌,固然本届世界杯小组赛打完才呈现2张红牌,不排除裁减赛也会呈现2张红牌)或其它未包罗在预测模子中的因素影响,鹿死谁手其实还蛮难说
。
2、预测八进四的成果
在8强还未产生的情况下预测4强以以至最末的冠军其实是很有挑战的,从概率也可看出,英国和法国之间其实十分接近,谁晋级都绝不令人不测。
3、预测半决赛成果
同样,南美双雄之间其实也难分昆季,阿根廷若是能一路走到半决赛,相信球队的凝聚力会大大增加,希望他们之间的化学反响可以填补年龄上的优势吧,那是阿根廷的球迷们希望看到的。
4、预测决赛成果
若是决赛实的能在阿根廷与葡萄牙之间展开,那场角逐的收视率会有多高应该都能想到了,它对决定梅西和C罗的汗青地位也是不言自明的。若是如许的一场角逐最末会呈现,它必然会成为数十亿计的球迷一生的记忆!
如今,那一切还只停留在本次模子的预测傍边,会成实吗?有一点等待……
五、总结
做为一个球迷,一个曾经对国足角逐都很痴迷的球迷,固然近几年用在看球赛的时间不多,但关于世界杯的存眷仍然是每四年一次的必修课。预测是人类不断孜孜以求的事,数据科学似乎是一个“奇异”的范畴,将数据科学用于世界杯的预测,对我来说是第一次测验考试。最重要的事是通过此案例学到或加深了对相关常识和手艺的理解与应用,那是更大的收成。
再弥补一点,虽有汗青角逐数据和模子支持,究竟结果足球是圆的,一些不成预测的因素可能会临场影响角逐成果,本文中所有的预测成果仅做参考,请勿用做彩票购置指南或相关目标,本人对因而带来的任何成果不承担任何相关的责任!
(全文完)
喜好就存眷吧!
往期文章㈠:工做智能造造▶关于造造业量量办理数字化转型的摸索弄清IT和OT交融相关的概念两化交融出新尺度了造造的素质是什么?数字化转型中的数字才能模子(附下载图)数字化六西格玛▶做评委的感触感染——再谈数字化转型与持续改善的交融
选用SPC控造图的要点
数字化六西格玛处理数字化时代的三个难题!
ISO9000量量办理原则在数字化时代得到更好落实
是时候放弃利用FMEA阐发的RPN办法了!
论FMEA中简化SOD评分标准的得失……
是时候放弃利用Xbar-R控造图了!
探寻Xbar-R与Xbar-s图的素质区别
讨论应用Xbar-R/s图的常见问题:丈量数据的独立性
数字化六西格玛项目及东西
数字化时代的数据思维与客户价值思维
数字化六西格玛
数据阐发与编程▶用闭环思维对待数据阐发的条理
中美两国农业关键数据大比照
处理VBA轮回期间Excel屏幕不刷新的问题
奇特思绪、超详细讲解,一文弄懂Python Generator!
奇特思绪、超详细讲解,一文弄懂Python Closure!
常见持续散布及彼此关系
常见离散散布之间的关系
在Minitab中利用Python代码——软件安拆、设置及编程详解
Python科学计算不成不知的随机数常识
Measurement System Analysis Design
概率散布之间的关系(附最全关系图)
一个有趣的概率题
往期文章㈡:游览
爬山徒步▶登天津更高峰太白山穿越(上)太白山穿越(下)安徽黄山(一)安徽黄山(二)安徽黄山(三)《黄山游记》跋文庐山●秀峰游记南岳衡山爬山记在天堂与天堂之间行走身进桃花源,心入魔幻界凤凰古城游览攻略(交通、门票、住宿、餐饮)罗浮山爬山记广东丹霞山游记中岳嵩山游览攻略北岳恒山游览攻略广东丹霞山·奇异的巴寨湖南屋脊 | 壶瓶山浙江屋脊 | 百山祖 - 黄茅尖穿越(上)浙江屋脊 | 百山祖 - 黄茅尖穿越(下)巅峰之旅 | 登武夷山更高峰(上)
巅峰之旅 | 登武夷山更高峰(下)巅峰之旅 | 海南●五指山爬山记游览杂记▶骑行海南岛云南12日游览印象海南岛从万州到利川腾龙洞及恩施大峡谷南华寺上班路上的游览科普游览 | 去海南认识热带生果动物神农架游览总攻略2018全国徒步大会江夏站 往期文章㈢:读书比来▶数字手艺改良了世界杯的旁观体检聊聊世界杯的半主动越位手艺解读二十陈述美妙的事物,需要时间!6种迹象表白你有一段有毒的关系双语好文-小我投资理财的五条建议更多▶请戳公家号内菜单……