Le but de ce DM est de vérifier que vous avez compris les principales étapes à suivre lorsque l’on analyse un jeu de données.

Pour cela, vous appliquerez la démarche de statistiques descriptives vue en cours aux divers jeux de données proposés:

À chaque étape, vous justifierez que ce que vous calculez ou affichez a bien du sens. Le cas échéant, si le jeu de données ne satisfait pas les hypothèses attendues, vous essayerez de vous restreindre à un sous-ensemble du jeu de données en justifiant vos choix. Si vous avez l’impression qu’il y a plusieurs régimes (successifs ou supperposés), vous séparerez les deux régimes et les analyserez séparément.

On rappelle les différentes fonctions de base de R qui pourront vous êtres utiles: str, summary, mean, diff, sort, var, sd, plot, plot.ts, hist, boxplot.

Récupération des jeux de données

## [1] 0.133592 0.127542 0.244698 0.272781 0.323132 0.336879

Ces nombres représentent le taux d’accès réussi dans le cache au cours du temps.

Visualisation des données

Regardons l’évolution de ces données “dans le temps”.

plot.ts(data);

On constate qu’il y a une très forte croissance au début et qu’on atteint rapidement un régime stationnaire autour de la valeur 0,65. C’est-à-dire que le taux d’accès réussi au cache est très faible au départ et qu’il se stabilise rapidement vers une valeur.

On va alors découper nos données en 2 régimes, le régime croissant, jusqu’à la valeur 450, et le stationnaire, depuis la valeur 450 jusqu’à la fin.

break_point = 450;
data1 = data[0:break_point];
data2 = data[break_point:length(data)];

Etude du premier régime

plot.ts(data1);

On constate qu’il y a une croissance logarithmique qui tend vers une valeur légèrement supérieure à 0,6. On étudiera cette valeur dans le second régime.

Etude du second régime

plot.ts(data2);

summary(data2);
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##  0.6235  0.6411  0.6464  0.6454  0.6506  0.6631

On pourrait croire que le régime est instable mais ceci est dut au zoom sur l’échantillon de valeurs, elles sont toutes comprises entre 62 et 67%. On remarque aussi que la moyenne est environ égale à la médiane. On va donc tracer l’histogramme et la boite à moustache pour voir la répartition de nos données entre ces bornes.

hist(data2, breaks = 5);

boxplot(data2);

Nous avons quelques valeurs abberantes mais principalement on voit que nos valeurs sont concentrées autour de la moyenne.

Conclusion

Grâce à l’étude des données du cache, nous avons pu étudier 2 régimes. Un régime croissante très court au lancement qui nous permet de remarquer que le cache n’est pas efficace lors de son lancement. Ensuite on a vu un régime stationnaire proche de la valeur 0,645, c’est-à-dire que le cache a un taux d’accès réussi de 64,5% lorsqu’il est lancé depuis un certain moment.