Le but de ce DM est de vérifier que vous avez compris les principales étapes à suivre lorsque l’on analyse un jeu de données.

Pour cela, vous appliquerez la démarche de statistiques descriptives vue en cours aux divers jeux de données proposés:

À chaque étape, vous justifierez que ce que vous calculez ou affichez a bien du sens. Le cas échéant, si le jeu de données ne satisfait pas les hypothèses attendues, vous essayerez de vous restreindre à un sous-ensemble du jeu de données en justifiant vos choix. Si vous avez l’impression qu’il y a plusieurs régimes (successifs ou supperposés), vous séparerez les deux régimes et les analyserez séparément.

On rappelle les différentes fonctions de base de R qui pourront vous êtres utiles: str, summary, mean, diff, sort, var, sd, plot, plot.ts, hist, boxplot.

Récupération des jeux de données

## [1] 1.020 0.763 0.721 0.764 0.714 0.857

Données

Taille de l’échantillon :

## [1] 8381

Statistiques :

##     Min.  1st Qu.   Median     Mean  3rd Qu.     Max. 
##   0.5390   0.6690   0.6990   0.7764   0.7500 102.0000

Mon jeu de données est une liste de 8381 pings variant de 0,53ms à 102ms. Toutefois les valeurs sont relativement mal réparties. En effet presque 99% des valeurs sont comprises entre 0 et 2. Par conséquent faire un histogramme allant de 0 à 100 n’aurait aucun sens car à cause de l’échelle on ne verrait qu’une seule barre à 8000 et celles à 1 seraient imperceptibles.

Afin d’améliorer la lisibilité des données j’ai choisit de couper cet histogramme en 2. Un premier allant de 0ms à 2ms et un deuxième pour les valeurs restantes.

Je suis plutôt content de l’échelle que j’ai choisit car maintenant on peut distinguer beaucoup plus facilement les différentes variations. On peut voir que le nombre de valeurs augmente très rapidement à partir de 0,6ms jusqu’à atteindre un pic aux alentours de 0,7ms à environ 700. La courbe redescant ensuite presque aussi vite entre 0,7ms et 0,8ms et finit par se stabiliser jusqu’à 2ms aux alentours d’une dizaine de valeurs. Le boxplot nous montre encore mieux cette répartition inégale.

Ce deuxième histogramme est relativement plus léger car l’on retrouve un pic entre 2ms et 10ms à 35 puis des pings isolés aux alentours de 40, 70, 90 et 100.