您的位置首页  综合体育  体育赛事

足球比赛中的实时数据是如何统计出来的?人工 or 人工智能?

  • 来源:互联网
  • |
  • 2023-01-11
  • |
  • 0 条评论
  • |
  • |
  • T小字 T大字

  本推文的部分内容来自狗熊会2018年推文《足球比赛中的实时数据是如何统计出来的?人工 or 人工智能?》,感谢推文原作者婷婷和曦郴提供的帮助。本文作者邓天昂,来自中央财经大学统计与数学学院。

  2022卡塔尔足球世界杯正在如火如荼的进行,相信无论您是否是球迷,都一定在过去的几周里或多或少地了解到了世界杯的相关新闻,也能说出一两个球星的名字,比如屡屡刷新纪录的足坛“绝代双骄”梅西和C罗。

  言归正传,对足球有稍微有一点了解的人,应该对赛事转播过程中出现的统计数据并不陌生。那么,你有没有想过,足球比赛中的实时数据是怎么统计出来的?

  11月28日,世界杯小组赛E组焦点战“西德大战“的转播过程中出现了诸如比分、控球率等实时数据,图中左下角弹出的就是实时控球率数据(图片来源:央视直播回放截图)

  以上的两种回答代表了绝大多数人内心的想法,但这两种说法都不全面。首先来看看现在的赛事转播过程中常出现哪些统计数据。

  这些数据到底是如何统计出来的,人工 or 人工智能?在回答这个问题之前,我们先来看看早期的足球比赛的数据统计。

  现代足球起源于19世纪末的英国,紧接着便疯狂发展并席卷全球,当时主要的传播媒介是报纸。足球比赛结束后,报社将比分、照片以及比赛中的各项数据,配以简单的评述传播至世界各地。可以想象当时的足球数据仅限于“场面数据”的统计,简单的比分、扑救、定位球个数、红黄牌数等由各大报社工作人员拿小本本记录下来,赛后大家一比对,记的都差不多,那就给写稿子的人发稿吧,如此就是最初的数据统计。这种在现在看来缺乏时效性与参与度的方法,在当时却在世界各地播种下了足球文明的种子。

  球迷们显然对于纸媒的时效性非常不满,于是1927年1月27日,英国BBC电台首次通过电台广播对阿森纳VS谢菲尔德的比赛进行了转播。这场比赛BBC安排了两名评论员,一位负责对场上状况进行评述,一位指出足球在下图所示的网格中的位置,两人配合,给听众传播最正确的比赛信息。这种转播方式在现在看来是一种非常考验想象力以及反应力的转播方式,由此可以想到早期的球迷足球素养非常高。

  同样是在英国,同样是阿森纳,同样是BBC,1939年,一场阿森纳一线队与预备队的比赛录像被呈现在电视屏幕上。录播虽然是令人遗憾的,但这却开了球迷们在电视机前观看比赛的先河。观众可以独立进行数据统计及核对,这就对转播公司的实时数据统计提出了更高的要求,要更准确、更及时。这个时期的足球数据统计依然是依靠人工。

  就在此时,计算机技术逐渐发展起来,计算机成了专业的统计辅助工具。专业的统计人员将球场上的每一个动作变成一个一个事件,将每一分钟30次以上的各种高密度动作转化为事件存储下来,再由人工进行验证,并通过程序进行实时发布。这种方法对人工要求极高,因而准确度也高,多常见于第三方数据服务商,为转播方、解说员、公司等提供服务。

  要回答这个问题,首先要清楚足球比赛中的实时数据是谁来统计的。作为一名电视机前的观众,比赛过程中得到信息的渠道有两个,一是眼睛获取的画面,二是耳朵听到的解说。转播画面带给球迷的是最原始的视觉冲击,而解说则是帮助球迷更加深入的理解比赛。球迷们经常能听到“***队本场的射门次数已经达到15次之多,其中射正的仅仅3次”诸如此类的话,难道解说员在比赛过程中还要一边拿小本本记数据,一边解说,再把数据加加减减,算出控球率?

  一般来说,一些大型的足球联赛,比如欧洲五大联赛,转播是由专业的信号制作公司提供。通常他们在比赛场馆架设十几台甚至几十台摄像机,尽力追捕球员从赛前采访到进球后的每一个眼神,然后在一个布满电线的大型制作场所内,将比赛信号通过卫星传输到世界各地。而赛中的实时数据则大多是由专门的数据公司提供的,转播公司向数据公司购买服务,数据公司使用专业的数据采集方法对实时数据进行采集。一部分数据在直播中展示,一部分更深入详细的数据在赛后进行整理分析和展示。举个例子,今年我们在CCTV5台看到的中超转播信号是由北京广播电视台等多家“中超联赛公用信号制作服务商库”的入库企业分别制作的,而看到的实时数据,则是由知名体育数据公司Stats Perform提供的。

  除了通过数据公司来获得数据外,现在也有少数高水平联赛选择自己开发数据平台。比如西班牙足球甲级联赛的转播信号是由一家名为Mediapro的公司制作的,西甲联盟和Mediapro共同开发的可视化数据系统Mediacoach则负责提供数据。

  国外从事数据服务的公司非常多,而且很多公司的技术已经非常成熟,竞争相当激烈。这些公司中不乏一些巨头,比如中超联赛目前的官方数据服务商——美国的Stats Perform公司,英国的Genius Sports公司,法国的Sport Universal Process公司等等。不同的公司有着不同的数据采集系统,下面以Stats Perform旗下的OPTA为例展开分析。

  OPTA数据原为英国的一家体育分析公司,经多次收购后,成为了美国Stats Perform公司旗下的数据品牌。OPTA数据目前是英超、西甲、中超等多个大型比赛的官方数据合作伙伴,其数据收集范围覆盖了全球超过1000个联赛和比赛。除了为俱乐部提供服务以外,OPTA同时也与Canal+,天空体育,ESPN等电视台合作,在赛前、赛中以及赛后提供数据分析服务。

  比赛过程中,OPTA会对场上超过200项的技术统计进行统计分析,实时更新,并为客户提供XML数据接口,方便来自全世界的客户调取。OPTA兼有世界上最完备的体育历史数据库,从1996年起搜集各种比赛数据,渐渐形成了世界上数量最大、权威性最高的比赛数据库。另外,OPTA会按照不同需求提供不同的数据服务,其中就包括解说支持。球迷对比赛过程中的历史数据一定不陌生,解说员总是清楚的知道下一个进球是球员职业生涯的第几个进球,甚至是欧冠历史上第几个进球等等,其实这很大程度上要依靠OPTA这样的数据服务商。总而言之,这个公司真的是在做与足球数据相关的几乎所有生意。

  而赛中的数据又是如何去统计呢?大家普遍认为职业联赛都用了很多了不起的高科技,只需要把机器一架,数据就像水一样哗啦啦自己流出来了,这种想法显然是不现实的。其实无论是哪家公司,采用什么样的高科技,其实核心还是解决两个问题,一是球在哪儿,人在哪儿;二是人对球做了什么,人对人做了什么。

  图:OPTA的数据专家在进行实时数据采集(图片来源:Stats Perform官网OPTA板块)

  OPTA的实时统计系统就是这种人工+智能的方式,每个记录小组有三个人,其中两个人进行实时数据采集,每个人分别负责场上的一支球队,而第三个人则对收集到的信息进行查验。最终结合人工记录、计算机视觉和人工智能建模的技术,实时生成深入而详细的数据。可能有人会质疑这种掺杂人工的方式的准确度。实际上,不同公司给出的比赛数据的确是存在差异的,每一家公司数据收集的背后都有一套独特的哲学。

  比如在12月2日世界杯小组赛最后一轮H组加纳队对阵乌拉圭队的比赛结束后,数据网站WhoScored的统计数据显示,两队的控球率分别为50.5%和49.5%,而另一家数据网站SOCCERWAY给出的控球率则为53% VS 47%。甚至连射门数这样看似简单的统计指标,两个网站都分别给出了10 VS 12和7 VS 9这样相去甚远的结果。说明两个公司的统计人员对于射门这个事件的判断有差异,尤其是足球场上常出现的”似传似射“的情况更容易被不同的人进行不同的解读,而这便是足球比赛数据统计中的“人为误差”。

  人工+智能的数据采集方式可以说是八仙过海各显神通,而统计指标的计算方法也会影响最终的统计结果。结合上面对采集方法的介绍,大致可以知道对于射门、角球、任意球、点球、犯规的统计方法,就是一个字:数。这一类事件,记录员有很长的时间去反应球场上究竟发生了什么,出错的可能性也比较小。控球率也是一个很容易记录的指标,控球率=控球时间/两队总控球时间,而控球时间则是指传出的球未被对方接触之前的时间。机器能够记录此时是哪一队拿球,拿球时间是多久,只需要人工进行一些简单的修正,例如剔除死球时间(庆祝时间、角球、任意球时间),即可得出控球率。同理,传球成功率=传球成功次数/本队传球总次数,其实就是没有被抢断的次数,同样是机器和人工共同采集,人工校验的方式进行统计。

  实际上,每个公司对指标的统计方法都是不一样的,这也就是为什么我们看到的结果不一样的原因。同时也说明,足球统计学,是一个值得统计学家们深入研究的领域,而懂足球的人,也是这个行业目前最核心的生产力。

  人工+智能的方式当然不等同与人工智能,但这一定只是足球统计史上的一个时期。实际上,现在有很多可穿戴设备可以用于球员数据采集,能够对球员各项身体数据,甚至脑电波进行监测。但是由于竞技体育对于球员的衣着和穿戴有着严格的要求,所以可穿戴设备在赛场上并没有得到很广泛的应用,反而一些俱乐部在训练的时候用的较多。希望在不久的将来,我们能够看到梅西踢球时的脑电波,而解说员在他拿球突破的时候便吼道“梅西拿球了,他准备传给前叉的内马尔,不,这一刻他改变主意了,他准备在前场打一脚远射,应该是在球门的左下角,此刻门将的脑电波显示他准备扑球门的右边,梅西这一脚打门的成功率在80%左右,果然,球进了!!!”

  在主裁判做出判罚后,系统会生成3D动画来清晰地反映越位情况,这一动画将通过场内的大屏幕和转播信号及时地呈现给每一位观众。正是这一技术的应用使得阿根廷队在小组赛第一轮对阵沙特的比赛中,多粒进球因越位在先被判无效。这间接改变了比赛走势,造就了本届世界杯第一大冷门。

  除了对控球率计算方式进行改革外,包括防线项全新统计指标,也会通过实时转播以数据表或虚拟动画的形式展示给广大观众。值得一提的是,上述全部 11项新统计指标,都从足球行为和统计方式两个角度给出了严谨的定义,并辅以视频解释说明,很好地解决了我们前文提到的,不同的数据收集者对同一项数据的理解可能不同的问题。除了对这些新增设的统计指标给出严谨的定义外,国际足联还推出了一套十分详细的足球语言体系( Football Language),通过详细的文字介绍和视频介绍,对足球场上每一个可能发生的事件进行了严格的定义和清晰的划分,方便全球各地的足球从业者、爱好者掌握最专业、最权威的足球术语,也为未来足球数据统计的规范化提供了可能性。或许在不久的将来,不同数据供应商因对术语理解不同而造成的统计误差将越来越小。

  图中左下角给出的数据为球员在对手中场和后卫两条防线项新统计指标中较常出现在转播信号中的一个(图片来源:央视直播回放截图)

  在规范定义了足球术语并推出了新的统计指标后,国际足联立即对他们进行了充分的利用。在世界杯期间,国际足联推出了一款球员专用的 APP(FIFA Player APP),供全部世界杯参赛球员及球队使用。每场比赛结束的几分钟后,球员们就可通过APP查看到自己本场比赛的详细数据。根据FIFA官网给出的信息,这些数据也是经人工+智能共同收集,其中足球分析师主要负责根据足球语言体系收集球员在场上种种行为的信息,而球场内大量的追踪摄像机则负责记录球员跑动范围、跑动速度等数据。这些数据将帮助球员更加了解自己在场上的表现,并帮助球队更好地分析和准备比赛。此外,国际足联还推出了足球数据生态系统( Football Data Ecosystem)。基于足球语言体系,足球数据生态系统将融合多个数据源、多个数据处理器以及多层次的数据,为参赛球队、教练员、球员以及媒体等提供大量的高质量数据。

  如果说前文提到的球员APP和数据生态系统都太过专业,也无法直接为我们广大观众提供数据,那么世界杯每场比赛的赛后总结报告一定能为我们提供相当专业且丰富的数据。本届世界杯的每一场比赛结束后,国际足联都将给出一份约 50页的赛后总结报告。从球队阵容名单到控球率、射门次数等常见统计数据,再到防线高度等新增统计指标,从球队整体数据,到球员间传球网络、每一次射门的落点,再到传中方向,接球位置等细致入微的数据,这份公开的总结报告将为每一位观众全方位地展示比赛数据,帮助我们更好地理解足球这项运动。

  大数据悄然改变着每一个行业,足球也不例外。对于足球数据的应用,大家首先想到的,一定是。对于公司而言,一份真实完整的历史数据报告,能为精算师们计算初始赔率提供数据支持。而源源不断及时输入比赛实时数据,则会帮助公司及时调整实时赔率,以获取更大的收益。值得注意的是,公司初始赔率虽然是基于球队数据,但起着决定性因素的,其实是市场期望,这也是足球数据行业值得关注的一个领域。

  当然,人工智能技术在现阶段还不足以取代解说员的工作,但合理地运用人工智能,可以帮助解说员更专业地为观众们带来实时点评。2021年10月,德国足球甲级联赛评论直播系统(CLS)中新增了一项功能——数据故事查找器(Data Story Finder)。数据故事查找器通过智能算法,将赛场上实时收取的数据同其他比赛数据、历史数据相关联,并将这些数据实时反馈给解说员,帮助解说员评述比赛。

  回归到足球本身,如何帮助球队取得胜利,如何用最低的溢价签到最合适的球员,或许是足球数据最具意义的应用。众所周知,每支球队都有各自赖以成名的球队风格,比如巴萨的Tiki-Taka战术以传控为主,而死敌皇马善用防守反击。每种球风各有特色,相生相克。又比如西甲中下游球队加的斯和英超中游球队西汉姆联,虽然在联赛中战绩不佳,但却是名副其实的强队收割机,这些隐藏在表面数据之下的特殊规律则可以交由足球大数据去探索。

  可能有人会说强大的数据让足球失去了原有的魅力,甚至担心有一天人工智能机器人会打败人类足球,但其实数据只是让大家更理性的参与足球活动,甚至从中受益。足球永远是那个充满不确定性的运动,因为,足球是圆的。

免责声明:本站所有信息均搜集自互联网,并不代表本站观点,本站不对其真实合法性负责。如有信息侵犯了您的权益,请告知,本站将立刻处理。联系QQ:1640731186