登录 注册 发布

小蜜蜂

2018 俄罗斯世界杯半决赛豪华阵容比拼,法国比利时谁能挺进决赛?



推荐

比利时是冠军,比利时是冠军,比利时是冠军!!

首答,让我冷静下。

世界杯打到四强,关注度越来越高。谁是冠军?有理性的人,也有阴谋论者,似乎每个人都有内幕消息,但说来说去,都是一句“听说”。今天,我说说观点,如果靠机器算,谁会赢。

声明:

以下观点仅代表我个人,不代表我所供职的乐信AI Lab,不对大家购买彩票的结果负责。天台风景虽好,想想家中妻小,赛前分析猛如虎,不如感觉更靠谱。

01

先说原则

从足球的角度来说,世界杯开赛前,夺冠赔率前四的球队——德国、巴西、西班牙和阿根廷都回了老家,最令人想不到的就是稳如德国,竟也应了最近几届世界杯卫冕冠军小组不出线的魔咒。这都正中了那句“大热必死”的俗话。

如果抛开偶然因素,仅从纸面分析,这些强队输的冤不冤?敌暗我明,技战术吃透,摆大巴密集防守,遇上强队,所谓的弱队有100种方法,让他们生不如死,从这个角度看,强队输的一点也不冤。

我的结论,是搜集了从2002年韩日世界杯到本届世界杯,8强球队的近50个维度数据依靠机器学习计算出来的。不接受抬杠,但愿意和我讨论技术的,十分欢迎。

02

再说结论

从计算结果看,4强中比利时队拥有更大的概率获得冠军,法国和英格兰基本持平,克罗地亚稍稍下风。

03

我的过程

我选用的是近年来被炒得非常火热的机器学习,在建模的过程中,一般会有以下几个步骤:样本收集、特征处理、训练模型、预测结果,接下来详细说一下这几个步骤。

机器学习,其实是一个从已有的数据中发现和学习潜在规律的过程。我认为,世界杯冠军的预测,其实就是从过去的比赛中,分析出结果与特征的关系,让机器学习到一个函数y =f(x), 其中y是队伍的得分,x是队伍的特征。

因此,我搜集了2002年至2014年四届世界杯八强的数据,规定前四名分别得分4 、3 、2 和1,未进入四强的队伍得0分,这样共得到32条数据,再结合这32条数据当届世界杯的其他特征,作为训练集。

选哪些特征呢?一方面,是比赛特征,包括控球率,射门和射正比,传球成功率等,另一方面就是球队特征,例如在国际足联的排名,历史最佳排名,近4年最佳排名,球员平均年龄,顶级联赛球员比例,球员身价,教练胜率等,最后就是球队所代表的国家特征,来自哪个大洲、国家GDP世界排名等等。

一个小思考:哪些维度最重要?这是个有意思的话题,计算后的发现让我有点惊讶,如果真的侥幸中了,我会再单独分析。

虽然从机器学习的角度来说,数据仍然显得有些少,但仔细数一数,也有将近50个了(这个过程花了码叔整整3天啊~~~本来组里有个妹子发现我偷偷搞这个,硬要陪着我加班帮我搜集数据,我觉得她是个球盲,什么也不懂,很碍事,就让她先回家了,现在想想,我是不是错过了什么)。

说仔细一些,我发现进入历届世界杯八强的队伍,主要是欧洲和南美洲的球队,而中北美洲、非洲、亚洲的球队很少(在此鸣(bi)谢(shi)亚洲某世界杯四强队),因此我将大洲分为欧洲、南美洲和其他三种,使用one-hot编码(用三个特征,分别表示球队国家所在的大洲是否是欧洲、南美洲、其他大洲,是的话为1,否则为0,这样对每一个球队来说,这三个特征只有一个是1,其他两位都是0)。

我先计算了特征与得分之间的皮尔森系数,系数绝对值越大,说明特征与得分相关度越高,根据皮尔森系数,筛选出一些相关度比较高的特征进行建模。

训练模型方面,我用了现在使用较为广泛的随机森林模型。随机森林是一种集成学习算法。

如上图所示,随机森林是由很多棵决策树构成的一片“森林”,对于一个样本,“森林”中的每棵“树“都会给出自己的预测结果,然后所有“树”根据民主方式进行投票,决定最终预测结果。

例如在分类问题中,共有10棵树,8棵树预测为A,2棵树预测为B,则投票结果显示为A。

在训练模型时,因样本数量有限,我将每棵树深度设置的较浅,并且通过限制叶子节点的样本数目进行剪枝。部分图和代码如下:

图中没有子节点的节点被称作叶子节点,每个样本,从根节点开始,判断是否满足每个节点的条件,如果满足条件,则进入左侧节点,否则进入右侧节点,最终会落入一个叶子节点,叶子节点的value就是这棵树对该样本的预测值,所有树预测值的平均值,作为预测的最终得分。

用这个方法,最后四强球队的得分分别是:

从这个角度看,比利时将会战胜法国,最终也会夺冠。

足球是圆的,就像谁也不会想到德国会输给亚洲某世界杯四强队一样,这个结论我也不知道准不准,但是我用这个方法验算了2014年世界杯的结果,发现……是准的。

2014年的八强,德国夺冠概率明显高于其他队伍

纯属娱乐,请勿抬杠。

479

评论