Le but de ce DM est de vérifier que vous avez compris les principales étapes à suivre lorsque l’on analyse un jeu de données.

Pour cela, vous appliquerez la démarche de statistiques descriptives vue en cours aux divers jeux de données proposés:

À chaque étape, vous justifierez que ce que vous calculez ou affichez a bien du sens. Le cas échéant, si le jeu de données ne satisfait pas les hypothèses attendues, vous essayerez de vous restreindre à un sous-ensemble du jeu de données en justifiant vos choix. Si vous avez l’impression qu’il y a plusieurs régimes (successifs ou supperposés), vous séparerez les deux régimes et les analyserez séparément.

On rappelle les différentes fonctions de base de R qui pourront vous êtres utiles: str, summary, mean, diff, sort, var, sd, plot, plot.ts, hist, boxplot.

Récupération des jeux de données

## [1] 11.8523 10.8011 11.8479 11.8338 11.8437 10.8925

Premiere visualisation des données

On commence par regarder les valeurs de notre jeu de données.

str(data);
##  num [1:23305] 11.9 10.8 11.8 11.8 11.8 ...

On voit donc que l’on a 23305 valeurs dont les premières sont proches de 11.

Regardons mainteant si ces données sont structurées “dans le temps”.

plot.ts(data);

On distingue alors une phase stationnaire autour de 2 ou 3 et plusieurs pics qui montent jusqu’a environ 12. Cependant, on avait remarqué que les premières valeurs étaient autour de 11. On va donc changer l’échelle pour mieux visualiser ces valeurs.

plot(data, xlim=c(0, 80),ylim=c(0,14),type="o");

On remarque alors que l’on a d’abord un premier régime stationnaire jusqu’à environ 78, autour de 12.

plot(data, xlim=c(70, 23305),ylim=c(0,14),type="o");

Ensuite, on remarque que l’on a un deuxième régime stationnaire autour de 3 jusqu’à la fin du jeu de données avec plusieurs pics pouvant monter jusqu’à environ 12.

Nous allons donc étudier ces 3 cas (le 1er régime stationnaire, les pics puis le 2e régime stationnaire).

Le premier régime stationnaire

Nous commençons par nous intéressé aux premières données stationnaires.

plot(data, xlim=c(0, 80),ylim=c(10,13),type="o");

On remarque alors que l’on a de nouveaux pics à environ 10.9 qui n’apparaissaient pas avant. Nous allons donc extraire et étudier ces nouveaux pics.

Les premiers pics

plot(data, xlim=c(0, 20),ylim=c(10,13),type="o");

On voit que les pics sont relativement stationnaires à environ 10.8. Nous les enleverons donc pour la suite de l’étude.

Les deuxièmes pics

Ici, nous étudions tous les pics se trouvant au dessus du 2e régime stationnaire.

plot(data, xlim=c(0, 23305),ylim=c(0,15),type="o");