在 FIFA 20 将技能相似球员进行分组（1）：K-均值聚类_AI&大模型_Jaemin Lee

引言

足球（欧洲足球）从小就是我最喜欢的运动之一。过去无论我去哪里，都会随身带着足球，这样我就能最大限度地利用踢足球的机会。

我也喜欢玩电脑游戏《FIFA 足球世界》，我觉得，用机器学习来分析 FIFA 中的球员是一件很酷的事情。

在本教程中，我将使用 K-均值（K-Means）聚类算法在 FIFA 20 将技能相似的球员进行分组。

了解聚类

聚类（Clustering）是无监督学习技术的一种（另一种是主成分分析）。

我们可以将观测值聚类（或分组）到相同的子组中，使子组内的观测值彼此相当相似，而不同子组中的观测值彼此相当不同。

聚类示例。

上面的散点图显示了数据集中有三个不同的组。

了解 K-均值聚类算法

K-均值聚类算法是聚类算法中的一种。

基本算法如下：

指定 K-聚类并初始化随机质心。
进行迭代，直到聚类分配停止更改。该方法将每个观测值精确地分配到 K 个聚类中的一个。
对于每个 K 聚类，计算聚类平均值。
继续查看观测值列表，并将观测值分配给平均值最接近的聚类。

其目的是形成聚类，使同一聚类内的观测值尽可能相似。

K-均值聚类算法使用平方欧几里得距离计算相似度。

数据集

我们将使用 Kaggle 的 FIFA 20 数据集。

特征工程

我们只会选择数值和每个球员的名字。

df = df[['short_name','age', 'height_cm', 'weight_kg', 'overall', 'potential','value_eur', 'wage_eur', 'international_reputation', 'weak_foot','skill_moves', 'release_clause_eur', 'team_jersey_number','contract_valid_until', 'nation_jersey_number', 'pace', 'shooting','passing', 'dribbling', 'defending', 'physic', 'gk_diving','gk_handling', 'gk_kicking', 'gk_reflexes', 'gk_speed','gk_positioning', 'attacking_crossing', 'attacking_finishing','attacking_heading_accuracy', 'attacking_short_passing','attacking_volleys', 'skill_dribbling', 'skill_curve','skill_fk_accuracy', 'skill_long_passing', 'skill_ball_control','movement_acceleration', 'movement_sprint_speed', 'movement_agility','movement_reactions', 'movement_balance', 'power_shot_power','power_jumping', 'power_stamina', 'power_strength', 'power_long_shots','mentality_aggression', 'mentality_interceptions','mentality_positioning', 'mentality_vision', 'mentality_penalties','mentality_composure', 'defending_marking', 'defending_standing_tackle','defending_sliding_tackle', 'goalkeeping_diving','goalkeeping_handling', 'goalkeeping_kicking','goalkeeping_positioning', 'goalkeeping_reflexes']]

复制代码

我提取的是总成绩高于 86 分的球员，因为我们不想使用 18000 多名球员进行分组。

df = df[df.overall > 86] # extracting players with overall above 86

复制代码

将空值替换为平均值。

df = df.fillna(df.mean())

复制代码

归一化（标准化/缩放）数据。

我们希望将数据进行归一化，因为变量是在不同尺度上测量的。

from sklearn import preprocessingx = df.values # numpy arrayscaler = preprocessing.MinMaxScaler()x_scaled = scaler.fit_transform(x)X_norm = pd.DataFrame(x_scaled)

复制代码

使用主成分分析将图中的 60 个维度减少到 2 个。

from sklearn.decomposition import PCApca = PCA(n_components = 2) # 2D PCA for the plotreduced = pd.DataFrame(pca.fit_transform(X_norm))

复制代码

执行 K-均值聚类

我们将指定有 5 个聚类。

from sklearn.cluster import KMeans# specify the number of clusterskmeans = KMeans(n_clusters=5)# fit the input datakmeans = kmeans.fit(reduced)# get the cluster labelslabels = kmeans.predict(reduced)# centroid valuescentroid = kmeans.cluster_centers_# cluster valuesclusters = kmeans.labels_.tolist()

复制代码

通过添加球员的名字和他们的聚类来创建一个新的数据帧。

reduced['cluster'] = clustersreduced['name'] = namesreduced.columns = ['x', 'y', 'cluster', 'name']reduced.head()

复制代码

K-均值聚类图的可视化

import matplotlib.pyplot as pltimport seaborn as sns%matplotlib inlinesns.set(style="white")ax = sns.lmplot(x="x", y="y", hue='cluster', data = reduced, legend=False,fit_reg=False, size = 15, scatter_kws={"s": 250})texts = []for x, y, s in zip(reduced.x, reduced.y, reduced.name):texts.append(plt.text(x, y, s))ax.set(ylim=(-2, 2))plt.tick_params(labelsize=15)plt.xlabel("PC 1", fontsize = 20)plt.ylabel("PC 2", fontsize = 20)plt.show()

复制代码

K-均值聚类

看看基于球员位置的聚类是如何形成的，是不是很酷！

我希望本教程对你有所启发，敬请关注下一篇教程！

作者介绍：

Jaemin Lee，专攻数据分析与数据科学，数据科学应届毕业生。

原文链接：

https://towardsdatascience.com/grouping-soccer-players-with-similar-skillsets-in-fifa-20-part-1-k-means-clustering-c4a845db78bc

发布

暂无评论

创作场景

在 FIFA 20 将技能相似球员进行分组（1）：K- 均值聚类

引言

了解聚类

了解 K-均值聚类算法

数据集

特征工程

执行 K-均值聚类

K-均值聚类图的可视化

评论

桌面云服务器是什么？有哪些操作系统

第53期|GPTSecurity周报

桌面云服务器价格怎么样？

云教室如何促进优质资源共享

FL Studio荣获业内权威网站推荐最佳DAW fl studio官方中文

Pencils Protocol与Trust钱包联合活动，参与瓜分超$200K的奖励

兼职福音！API信息录入员火热招募中

桌面云服务器有哪些配置？

如何理解云电脑

满帮集团 Eureka 和 ZooKeeper 的上云实践

检测 CSS 中的 JavaScript 支持

Web3 游戏周报（5.19 - 5.25）

哈银消费金融：科技赋能客诉处理，引领品牌服务新高度

乐曲和弦编配的小技巧有哪些 FL Studio如何编曲

直播预告：TinyVue 组件库实战解析，提升组件库构建技能

云电脑对硬件配置有没有要求？

ChaosMeta V0.7.0 版本发布 & 进入CNCF混沌工程全景图

MacBook Air M3有什么游戏推荐 MacBook 怎么玩Windows游戏

AutoMQ 生态集成 MinIO

过程流程图怎么画？这样做简单又好看！

RAG-GPT实践过程中遇到的挑战

Pencils Protocol与Trust 钱包联合活动，超$200K的积分奖励来了

训练效率提升 40%丨多云架构下高效存储策略详解

云桌面系统对服务器配置有要求么

活动预告｜与 Zilliz 共探亚马逊云科技中国峰会

第七届数字中国建设峰会召开，天翼云启动开源大模型社区发布暨生态繁荣计划

一文搞懂云桌面，简单易懂

龙蜥开发者说：夏日编码奇遇，中国科学院大学学子的开源世界探索记 | 第 27 期

创作场景

在 FIFA 20 将技能相似球员进行分组（1）：K- 均值聚类

引言

了解聚类

了解 K-均值聚类算法

数据集

特征工程

执行 K-均值聚类

K-均值聚类图的可视化

评论

更多内容推荐

推荐阅读

电子书

大厂实战PPT下载