1. Introduction
Ce rapport mensuel présente la méthode développée par l’Observatoire du football CIES pour déterminer le profil technique des footballeurs, les classer dans différents groupes et établir des hiérarchies au sein de ces derniers. Pour ce faire, nous nous sommes basés sur les données relatives aux actions effectuées par les joueurs (tirs, centres, interceptions, etc.) récoltées par notre partenaires InStat.
L’analyse a été effectuée sur un échantillon de 7’215 joueurs ayant disputé au moins 750 minutes de championnat lors de la saison 2021 ou 2021/22 (jusqu’à fin janvier 2022) au sein de 36 ligues de première ou deuxième division d’associations membres de l’UEFA. Du fait de la spécificité de leur poste, les gardiens de but n’ont pas été inclus dans l’analyse.
Figure 1: ligues prises en compte et nombre de joueurs
2. Variables et axes de classification
Parmi les très nombreux indicateurs de jeu collectés par InStat, onze ont été retenus pour déterminer le profil technique des joueurs. Ils renvoient à des actions tant défensives qu’offensives. La sélection a été effectuée afin de limiter les redondances et éliminer les variables trop concentrées sur quelques individus en raison du faible nombre d’événements. Par exemple, les tirs ont été préférés aux buts, les premiers étant fortement corrélés aux seconds, tout en étant mieux répartis entre les joueurs.
Afin de déterminer des profils techniques indépendamment du niveau ou style de jeu du club d’emploi, les valeurs attribuées aux joueurs pour chacune des onze variables sélectionnées ont été définies en référence à la valeur moyenne des autres membres de l’équipe, à savoir comme un ratio entre la valeur du joueur et celle de l’ensemble de ses coéquipiers (gardiens exclus).
Figure 2: indicateurs de jeu retenus pour le profilage
Par exemple, une valeur égale à deux sur le plan des tirs indique que le joueur réalise deux fois plus de tirs que ses partenaires. De cette manière, un joueur évoluant dans une équipe de faible niveau ne voit pas ses valeurs structurellement réduites par rapport aux joueurs d’équipes mieux classées. Ainsi, nous pouvons réellement analyser un profil de jeu plutôt qu’une performance fortement liée à la force des équipes.
À partir des valeurs relativisées, nous avons réalisé une analyse en composantes principales (ACP). Les résultats sont exprimés visuellement dans la Figure 3 sous la forme d’un plan factoriel avec les onze variables retenues représentées par des flèches. Plus une flèche est longue et proche d’un axe, plus la variable en question est importante dans la définition de ce dernier.
Figure 3: le plan factoriel pour le profilage des joueurs
La variable interception est fortement impliquée dans la formation de l’axe horizontal, tout comme celle des tirs à son opposé. Cet axe définit donc le penchant défensif ou offensif des joueurs. Les deux variables les plus discriminantes au niveau de l’axe vertical sont les centres, qui sont surtout le fait de joueurs de couloir, et les duels aériens, qui sont surtout le fait des avant-centres et des défenseurs centraux. Cet axe renvoie ainsi aux différents positionnements des joueurs du même compartiment de jeu (défense, milieu ou attaque).
Les deux axes principaux de l’ACP expliquent presque 70% de la variance totale, l’axe défensif-offensif expliquant à lui seul la moitié de cette dernière. Cela signifie que les onze variables retenues, ainsi que la relativisation par rapport aux co-équipiers des valeurs attribuées aux joueurs, permettent de rendre largement compte des différences dans les profils techniques des footballeurs.
3. Proximité des joueurs
Cette méthode de profilage permet de calculer des distances entre joueurs. À partir d’un footballeur de référence, il est ainsi possible de déterminer les joueurs qui lui sont statistiquement les plus proches. Par exemple, parmi les footballeurs du big-5, celui ayant le profil de jeu le plus proche de Kylian Mbappé est James Maddison (Leicester City). Si on restreint l’analyse aux joueurs de Ligue 1, c’est Stephy Mavididi (Montpellier HSC) qui se rapproche le plus du champion du monde.
Figure 4: les cinq joueurs de Ligue 1 et des autres ligues du big-5 au profil de jeu le plus proche de Kylian Mbappé
Cet exercice peut être effectué en prenant n’importe quel joueur comme référence. A titre d’exemple, toujours au niveau du big-5, Dušan Vlahović apparaît comme le joueur le plus proche d’Erling Haaland, Paulo Dybala de Lionel Messi, Romain Faivre de Neymar Júnior, Dominik Szoboszlai de Kevin de Bruyne, Sadio Mané de Raheem Sterling, Remo Freuler de Jorginho Frello ou encore Jonathan Tah de Virgil van Dijk.
4. Classification des joueurs
Au-delà du calcul des distances entre joueurs, l’algorithme des k-medoids permet de les classer en groupes. Cette méthode, dérivée des nuées dynamiques (k-means en anglais), se base sur le choix de joueurs de référence servant de profils-type pour l’élaboration de classes auxquelles s’agrègent, par proximité statistique successive, tous les individus. Six joueurs de référence aux profils et postes divergents ont été sélectionnés dans le cadre de ce rapport (Figure 5).
Figure 5: les joueurs-type utilisés pour la création de classes
La Figure 6 illustre les gestes techniques dominants pour chacune des six classes construites à partir des joueurs de référence. À titre d’exemple, les joueurs de la classe bâtie à partir de Virgil van Dijk gagnent en moyenne 2,62 duels aériens défensifs de plus que leurs co-équipiers, ceux de la classe construite à partir de Marcos Alonso centrent 2,62 fois plus, et ainsi de suite.
Figure 6: fréquence relative moyenne des gestes techniques par classe (par rapport aux co-équipiers)
Classe Virgil van Dijk
La « classe Van Dijk » regroupe des joueurs dont les valeurs au niveau de toutes les variables défensives sont supérieures à celles de leurs coéquipiers. Il s’agit surtout de défenseurs centraux se distinguant par leur forte présence dans les duels, tant aériens qu’au sol. Cette classe réunit 21.7% des joueurs de notre échantillon.
Classe Marcos Alonso
La « classe Marcos Alonso » identifie aussi des joueurs à vocation plutôt défensive, mais très actifs aussi sur le plan offensif au niveau des centres. Il s’agit surtout de défenseurs latéraux ou de milieux évoluant dans le couloir dans le cadre d’un schéma tactique « 3-5-2 ». Cette classe regroupe 15.7% des footballeurs pris en compte.
Classe Jorginho Frello
La « classe Jorginho Frello » regroupe aussi des joueurs à vocation plutôt défensive, mais relativement actifs aussi offensivement. Il s’agit surtout de milieux axiaux, tant défensifs que relayeurs. Cette classe est non seulement celle qui réunit le plus de joueurs, 26.5% des effectifs analysés, mais aussi la plus hétérogène.
Classe Bruno Fernandes
La « classe Bruno Fernandes » réunit des joueurs plus actifs offensivement que défensivement. Leur spécificité réside surtout dans la capacité à créer des occasions pour les co-équipiers et à l’importance de leur participation à l’animation offensive générale (dribbles, tirs, centres, etc.). Cette classe est numériquement la plus petite : elle ne regroupe que 8.6% des joueurs.
Classe Raheem Sterling
La « classe Raheem Sterling » identifie des joueurs au profil voisin de celui de la classe Bruno Fernandes, mais se différenciant par une propension plus importante aux tirs et aux dribbles et moins importante aux passes décisives et aux centres. Cette classe réunit 18.0% des joueurs de notre échantillon.
Classe Romelu Lukaku
La « classe Romelu Lukaku » identifie surtout des footballeurs jouant en tant qu’avant-centres. Les joueurs qui en font partie sont relativement peu présents dans le jeu et concentrent leurs efforts dans deux domaines qui constituent leur spécificité : la finition et les duels aériens offensifs. Cette classe regroupe 9.8% des joueurs.
5. Une hiérarchisation des joueurs selon les profils définis
Toute hiérarchisation de joueurs se heurte non seulement au problème très souvent sous-estimé de l’impact sur les performances individuelles du différentiel de force collective entre adversaires, mais aussi à la difficulté d’établir des profils de joueurs au style de jeu assez proche pour qu’une comparaison ait du sens.
La relativisation des indicateurs de performance par rapport aux co-équipiers et la création de profils-type à partir de joueurs de référence sont autant de démarches qui limitent ces problèmes, sans cependant les évacuer totalement. En effet, toute classe, aussi homogène soit-elle, comprend toujours des marges où se situent des joueurs au profil atypique ou interclasse.
Une solution réside à élargir le nombre de classes par rapport au schéma de départ en déterminant par l’outil statistique de l’indicateur de silhouette le degré par lequel la classe à laquelle les joueurs ont été attribués les représente. Ce faisant, les footballeurs bien décrits restent affectés à leur classe, tandis que de nouvelles classes peuvent être créées par l’assemblage de joueurs au profil interclasse.
Par exemple, si un joueur comme Thomas Partey d’Arsenal est bien défini comme membre de la « classe Jorginho », Nemanja Matić se situe dans une position intermédiaire entre cette classe et la « classe Van Dijk ». Nous pouvons ainsi établir une nouvelle classe regroupant tous les individus statistiquement plus proches de Matić que de Jorginho ou van Dijk. Au final, deux classes intermédiaires (Matić et Trippier) ont été ajoutées aux six classes de départ.
Pour chacune des huit classes, nous avons identifié les trois variables où les joueurs s’écartent en moyenne le plus de leurs co-équipiers toutes classes confondues (voir Figure 7), et établi des hiérarchies sur la base de ces trois variables. Par exemple, les joueurs de la « classe Van Dijk » ont été classés en prenant en compte leurs écarts par rapport aux co-équipiers au niveau des trois variables suivantes : duels aériens défensifs, duels au sol défensifs et interceptions.
Figure 7: les huit classes utilisées pour la hiérarchisation
La Figure 8 présentent le top 10 des footballeurs pour chacune des neuf classes toutes ligues confondues. Néanmoins, il est aussi possible et judicieux de prendre en compte le niveau de la ligue dans laquelle les footballeurs évoluent afin de comparer seulement des joueurs de championnats de force relativement similaire, le big-5 par exemple.
Figure 8: joueurs les plus actifs par rapport aux co- équipiers
6. Conclusion
Les indicateurs de jeu collectés par InStat constituent un trésor à partir duquel il est possible de développer de multiples recherches innovantes avec des applications très pratiques. Toujours soucieux de jeter des ponts entre science et industrie, ce rapport a été conçu dans cette perspective, qui nous tient particulièrement à cœur.
La méthode de profilage et de classification détaillée dans cette étude est particulièrement utile non seulement dans une perspective descriptive pour comprendre les différents rôles remplis par les joueurs au sein d’une équipe, mais aussi sur le plan de la détection. À ce niveau, le calcul de distances statistiques entre joueurs est un très bon outil pour cibler des recrues potentielles par lesquelles remplacer des joueurs sur le départ.
Le choix de profiler et hiérarchiser les joueurs non pas sur la base de leurs statistiques brutes mais par rapport aux co-équipiers est aussi particulièrement fécond dans une perspective de détection. En effet, cela limite le sempiternel problème de l’impact de la force collective d’une équipe sur la performance individuelle. Ce procédé permet d’identifier des joueurs qui ne se démarquent pas forcément sur un plan absolu, mais dont la productivité est bien supérieure à celle de leurs co-équipiers.
Ce rapport ne constitue qu’un pas supplémentaire dans la direction d’une pleine exploitation des très larges possibilités offertes en termes de recherche et de développement par l’analyse de données techniques de jeu telles que celles récoltées par InStat. Nous nous réjouissons de pouvoir creuser cette question encore davantage et d’être en mesure de diffuser gratuitement les nouvelles avancées auprès de tous les passionnés du jeu.