最近因为欧洲疫情的原因,好多足球比赛都不得不停止,相信很多球迷现在在家中都没办法看比赛了。

而同样作为球迷的我突发奇想,如果用数据分析的角度去看欧洲的世界级球员,是否每个都名副其实呢?

说做就做,我赶紧用python从网上爬取了这个赛季五大联赛的球员数据,然后用国产数据分析工具FineBI做了一次全面的可视化分析,果不其然发现了问题!

注:数据来源于T足球网,爬取工具为python,分析工具为FineBI(下载方式文末点击“阅读全文”即可获得)数据获取

本次分析的数据来源于T足球网,这个网站应该是中文足球数据网站里最全面的了,不论是球员的详细比赛数据,还是球队的全队记录都能很容易查到,其中我们需要的数据就在“球员数据”页面,点进去就可以开始爬取了

查看球员数据页面的源代码,发现页面结构比较简单,我们需要提取的数据有“球员”、“球队”、“年龄”、“进球”、“创造机会”、“助攻”、“出场时间”、“传球率”、“出场次数”、“争顶”、“全场最佳”、“位置”等

从结构上可以看出这些信息大概分成了两个部分进行储存,我们获取球员个人信息时只要定位到这两个标签提取其文本信息就行了,不过要注意运用try,except,只有自己不断的试才能发现这个东西真的好用,特别是在爬网页的时候,有些数据是空的,用个pass跳过就好了,不然就会一直卡在那

最终爬取下来的数据有大约17000多行,包含了五大联赛大部分球员的详细数据,不过爬取下来的数据会有些混乱,我这里直接在excel里清洗了一下,如图所示

数据处理