Le but de ce DM est de vérifier que vous avez compris les principales étapes à suivre lorsque l’on analyse un jeu de données.

Pour cela, vous appliquerez la démarche de statistiques descriptives vue en cours aux divers jeux de données proposés:

Ã??? chaque étape, vous justifierez que ce que vous calculez ou affichez a bien du sens. Le cas échéant, si le jeu de données ne satisfait pas les hypothèses attendues, vous essayerez de vous restreindre à un sous-ensemble du jeu de données en justifiant vos choix. Si vous avez l’impression qu’il y a plusieurs régimes (successifs ou supperposés), vous séparerez les deux régimes et les analyserez séparément.

On rappelle les différentes fonctions de base de R qui pourront vous êtres utiles: str, summary, mean, diff, sort, var, sd, plot, plot.ts, hist, boxplot.

Récupération des jeux de données

## [1] 0.358 0.316 0.912 0.296 0.294 0.259
##  num [1:8384] 0.358 0.316 0.912 0.296 0.294 0.259 0.268 0.266 0.271 0.616 ...

Nous sommes dans l’analyse d’un ping. On peut tout d’abord remarquer que sur les 8500 mesures (environ) effectuées, une tendance se dessine autour de 1-2 ms. Toutefois, il existe des irrégularités importantes dans ces mesures avec des pics montant jusqu’à plus de 15 ms.

La première question à se poser est donc : Est-ce des valeurs abérantes ? Bien qu’en quantités négligables par rapport aux 8500 mesures, ces valeurs ne doivent pas être supprimées car elles ne sont pas erronées. Un ping n’est jamais constant et le réseau peut ralentir à certains moments, ce qui explique ces pics. Tout de fois, il risque d’être dur d’analyser la tendance moyenne des valeurs qui se situe à moins de 5 ms.

Nous pouvons donc pour l’analyse de la tendance générale de la courbe “supprimer” ces pics mais cela afin de pouvoir être plus précis et “zoomer” sur les petites valeurs, et non pas car les pics sont des valeurs fausses.

Je propose donc de faire 2 analyses, une “globale” en gardant tout le jeu de données et une plus précise en regardant ce qui se passe pour la plupart des mesures en supprimant les grandes valeurs. Il n’y pas la nécessité de changer l’échelle du graphique ou de le découper en plusieurs parties. En effet, il n’y a pas de phases, la courbe est stationnaire et n’a pas de phase d’initialisation par exemple.

Analyse globale

##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##  0.2020  0.2730  0.3060  0.4203  0.3900 19.0000

Comme dis plus haut, l’histogramme montre qu’hormis 2-3 rares valeurs, l’immense majorité des valeurs se situe autour de 1-2 de ms. On enlevera donc les valeurs supérieures à 0.5 pour tenter de mieux analyser les petites valeurs.

La médiane et la moyenne ne sont pas très proches à cause de l’énorme différence entre le minimum de la courbe (0.2020) et son maximum. Tout de fois, la grande quantité de valeurs proches de 1-2 réduit cet écart. Cela est très bien illustré avec le boxplot…

Analyse plus précise

##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##   0.202   0.269   0.294   0.310   0.339   0.499

Après suppression des grandes valeurs des données, on obtient un histogramme beaucoup plus précis. On peut donc voir que la majorité des valeurs oscille entre 0.23 et 0.30 de ms mais qu’il y en a certaines bien que pas majoritaires avec une latence supérieure. Cela nous conforte sur la validité des données. En effet, un ping n’est jamais constant et peut atteindre à certains moments des valeurs extrêmes mais il a une tendance à avoir des valeurs similaires bien que non égales. Ce qui est le cas ici.

La médiane et la moyenne sont proches car le ping est plutôt constant (et on a supprimé les “lags” du jeu de données). Le boxplot illustre encore une fois ce propos. Ce jeu de données est donc valide, sans valeurs abérantes et j’aimerai bien avoir la même connection internet que l’endroit où vous avez récolté ces données ;-)