Le football, un sport de riches?

Publié le par Olivier Bouba-Olga

Petit exercice statistique de saison : existe-t-il un lien entre le niveau de vie des pays et la qualité de leur équipe de football? Je me suis amusé à faire quelques calculs et graphiques, je vous les présente.

Un peu de méthodo, d'abord : j'ai récupéré ici les données de PIB par habitant (PPA) et les données sur les points FIFA des équipes de football. J'ai supprimé les pays qui n'était pas dans une liste ou l'autre, si bien que je me retrouve avec un échantillon de 143 pays.

A partir de ces données, j'ai établi le classement des pays, si bien que je dispose de 4 colonnes de données : i) PIB par habitant, ii) Points FIFA, iii) rang  PIB par habitant, iv) rang FIFA.

Premier petit exercice : récupérer ces données sous R, logiciel libre permettant de faire plein de calculs statistiques, économétriques, et aussi de jolis graphiques très facilement. Je commence juste à explorer les possibilités de ce logiciel, qui me semble vraiment très bien. Pour le télécharger, il suffit d'aller ici.

Une fois installé, j'ai tapé ces quelques lignes de code :

#je précise au logiciel l'endroit où sont stockées mes données:

setwd("C:/R/")

# je lui dis de mettre dans la matrice x les données stockées dans un fichier excel, enregistrées au format "csv (avec ;)",  ce qui correspond au format csv2 sous R:
x<-read.csv2("FIFA.csv")

# j'indique à R que la première ligne correspond au nom des variables :
attach(x)

# je range dans une matrice g les données, en enlevant la première colonne, correspondant au nom des pays :
g<-x[,2:5]

#en moins de temps qu'il n'en faut pour le dire, je demande à R de me faire plein de jolis nuages de points :

plot(g)

Et ça donne ce joli graphique :

Fifa.jpg

Le graphique de la deuxième colonne/première ligne correspond au nuage de point avec en abcisse le PIB par habitant et en ordonnée le nombre de points FIFA. Etc pour les autres graphiques.

Question : a-t-on une bonne corrélation entre Points FIFA et PIB par habitant?

Pour répondre, je teste la relation suivante : PointsFIFA = a*PIBH +b avec ce code :

y<-lm(PointsFIFA~PIBH)

Je demande à R de me montrer les résultats :

summary(y)

J'obtiens ceci :

             Estimate Std. Error t value Pr(>|t|)   
(Intercept) 320.55004   37.51189   8.545 1.89e-14 ***
PIBH          0.01027    0.00211   4.867 2.99e-06 ***
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 323.5 on 141 degrees of freedom
Multiple R-squared: 0.1439,     Adjusted R-squared: 0.1378
F-statistic: 23.69 on 1 and 141 DF,  p-value: 2.989e-06

Explication : le a de mon équation est égal à 0,01027, le b est égal à 320,5504. les trois * après le a signifient que ma variable PIB par habitant est très significative, il y a donc bien une relation entre PIB par habitant et nombre de points Fifa. Cependant, mon "Multiple R-squared" de 0,1439 indique que ma variable PIB par habitant n'explique que 14% de ma variance totale. Il y a d'autres variables, non intégrées dans le modèle, qui doivent expliquer les écarts de points Fifa. J'ai par exemple été chercher les données sur le PIB. J'ai retesté mon modèle, le PIB est également significatif, mais plus faiblement. Mon R² augmente un peu (il passe à 17%).

 

Pour chaque pays, je peux ensuite calculer la différence entre la valeur prédite par mon modèle (PointsFIFA*=a1PIBH+a2PIB+b) et la valeur réelle (PointsFIFA). J'obtiens ce qu'on appelle un résidu. Plus le résidu est fort (en valeur positive ou négative), moins mon modèle est bon. Ce qui permet d'identifier les pays qui ont un faible PIB par habitant et un fort score FIFA, et inversement.

Sous R, il suffit de taper les commandes suivantes :

z<-y$residuals

Je range dans une variable z les résidus de ma relation PointsFIFA=a*PIBH + b

write.table(z,"residus.csv")

Je range dans un fichier csv (lisible sous Excel) mes résidus.

Après avoir collé dans mon fichier de départ mes résidus, je peux réorganiser les pays qui ont les résidus les plus forts, et ceux qui ont les résidus les plus faibles, histoire de voir ceux pour qui le lien PointsFIFA et PIB par habitant marche le moins bien.

J'obtiens ceci :

* liste des 5 premiers pays pour lesquels le nombre de points FIFA devrait être moins élevé, au regard du PIB par habitant et du PIB : Brésil, Espagne, Portugal, Egypte, Argentine

* liste des 5 premiers pays pour lesquels le nombre de points FIFA devrait être plus élevé, au regard du PIB par habitant et du PIB: Luxembourg, Bahamas, Seychelles, Etats-Unis, Singapour.

 

Et la France dans tout ça? Elle est 8ème au classement FIFA, et 13ème en termes de PIB par habitant. Ses défaites successives devraient conduire à la faire descendre dans le classement FIFA. Les joueurs visaient sans doute l'alignement parfait...

 

 

Publié dans Divers

Commenter cet article

qwertz 08/07/2010 17:37



dans le même genre, une animation sympa sur le site du Guardian :


http://www.guardian.co.uk/sport/interactive/2010/jul/06/world-cup-2010-england-brazil



YMB 06/07/2010 14:07



Pour la valeur des équipes de football, vous auriez dû utiliser le World Football Elo Ranking, qui est bien meilleur que l'horrible classement FIFA.



celui 05/07/2010 00:38



Et si on rajoute la taille de la fédé locale de football, on doit certainement pouvoir trouver une corrélation bien meilleure, non?



OBO 06/07/2010 06:36



oui, sans doute. J'ai cherché un peu, mais e n'ai pas trouvé les stats.



pratclif 04/07/2010 13:39


OUI; entre temps ça a marché (stuffit); maintenant il faut que j'apprenne à m'en servir. J'aura peut-être besion de pistes de votre part.... merci.


pratclif 04/07/2010 10:56



le logiciel R est libre mais le décompacteur stuffit ne l'est pas. 50$. Juste une info...



OBO 04/07/2010 11:45



@ pratclif : comprend pas, pas eu besoin de ça (sous windows xp en tout cas...)