J’ai entrepris de faire quelques statistiques sur le Marathon des Alpes-Maritimes.
Les statistiques de base :
La première c’est le nombre de participants par catégorie :
L’évolution en fonction des catégories :
| Catégories | Ecart 2008/2009 | Ecart 2009/2010 | Ecart 2010/2011 | Ecart 2011/2012 | Ecart 2013/2013 |
|---|---|---|---|---|---|
| ESF | 400% | 120% | -59% | 33% | -25% |
| ESM | 80% | 16% | -27% | 21% | -33% |
| HCF | -100% | NA | -20% | -75% | -100% |
| HCH | NA | NA | NA | NA | -100% |
| HCM | -15% | -39% | 114% | -87% | 0% |
| JUF | NA | -100% | NA | -100% | NA |
| JUM | NA | -100% | NA | NA | NA |
| M | NA | -100% | NA | -100% | NA |
| MIM | NA | NA | -100% | NA | NA |
| SEF | 35% | 15% | -9% | -9% | 2% |
| SEM | 7% | -2% | -19% | -7% | -3% |
| V1F | -8% | 8% | -4% | -9% | 4% |
| V1M | -9% | 7% | -12% | -9% | 5% |
| V2F | -32% | 29% | -17% | 3% | 8% |
| V2M | -14% | 2% | -15% | 2% | 8% |
| V3F | -3% | -12% | -4% | -2% | 23% |
| V3M | -11% | 4% | -14% | -6% | 17% |
| V4F | 75% | -86% | 500% | 17% | 0% |
| V4M | -17% | 28% | -6% | 33% | -18% |
| Total général | -5% | 5% | -13% | -6% | 3% |
Pareil avec un petit graphique :
La deuxième c’est la courbe des temps pour faire le marathon :
Pareil, mais uniquement pour la catégorie SEM :
Sachant que vous pouvez retrouver ceci en fonction des années sur l’article suivant.
Le temps moyen pour faire le marathon des Alpes-Maritimes:
Le temps moyen par catégorie pour faire le marathon des Alpes-Maritimes:
Maintenant plus compliqué … le nombre de personnes ayant mis plus de temps dans le second semi-marathon que dans le premier semi-marathon.
En gros, 91% des personnes mettent plus de temps dans la seconde partie, ce qui me semble normal vu qu’il y a la fatigue et le mur des 30 km … enfin je parle pour moi
Maintenant le temps moyen entre le premier et le second semi-marathon pour les personnes qui mettent plus de temps au second … les 91% … les gens normaux
:
On va dire 10 min en moyenne, ce qui représente un premier semi de 1h55 et un second semi de 2h05 pour la personne moyenne (+8,6% … j’avais de chiffre de 8% en tête).
Pour les personnes qui mettent moins de temps :
Les personnes au dessus de 20 min ont du tricher …
ils ont mis plus de 3 heures et moins de 1 heure pour faire le reste … cela sent l’opération covoiturage. J’ai les noms …
Statistique sur le nombre de participation, j’ai pris pour postulat que NOM+PRENOM c’était une clef unique … ce qui est faux mais en grande partie vrai.
J’obtiens donc ceci sur le nombre de participation :
J’ai donc 62 personnes qui ont fait tous les marathons depuis la création.
Si je prends les personnes qui ont fait 5 marathons, est-ce qu’elles se sont améliorées avec le temps ?
Le nombre :
Maintenant prenons les personnes qui ont fait le marathon 2009 et le marathon 2010, combien de personne cela représente ? Environ 1400 …
Est-ce que ces personnes ont fait une meilleure performance au second marathon ?
Quel est l’amélioration ou la régression par tranche de 4 min ?
On va dire que cela se joue à +/- 10 min …
La mise en forme des données : (pour les programmeurs)
La premiere étage consiste à faire des wget sur le site afin de télécharger les pages html.
Ensuite il faut faire la mise en forme :
export LANG=C
export LC_CTYPE=C
grep 'input type="hidden"' MARATHON-NICE-20*/resultat* | awk -F\" '{print $6 }' > liste_tous_marathon.txt
awk 'BEGIN {phrase = " ";} {if (NR % 20 == 0) { print $1 $2 $3 $4 $5 "\t" phrase; phrase = " ";} else { phrase = $1 $2 $3 $4 $5 "\t" phrase}}' liste_tous_marathon.txt > liste_2.txt
Petit contrôle sur le nombre de ligne :
wc -l liste_2.txt
44983 liste_2.txt













