Le but de ce DM est de vérifier que vous avez compris les principales étapes à suivre lorsque l’on analyse un jeu de données.

Pour cela, vous appliquerez la démarche de statistiques descriptives vue en cours aux divers jeux de données proposés:

À chaque étape, vous justifierez que ce que vous calculez ou affichez a bien du sens. Le cas échéant, si le jeu de données ne satisfait pas les hypothèses attendues, vous essayerez de vous restreindre à un sous-ensemble du jeu de données en justifiant vos choix. Si vous avez l’impression qu’il y a plusieurs régimes (successifs ou supperposés), vous séparerez les deux régimes et les analyserez séparément.

On rappelle les différentes fonctions de base de R qui pourront vous êtres utiles: str, summary, mean, diff, sort, var, sd, plot, plot.ts, hist, boxplot.

Récupération des jeux de données

## [1] 0.133592 0.239150 0.244077 0.254748 0.294999 0.299699

Exploitation du jeu de données

str(data);
##  num [1:2000] 0.134 0.239 0.244 0.255 0.295 ...

Ce sont donc bien des nombres. Il y en a 2000 et les premières valeurs semblent croissantes. Il faut désormais regarder si ces données sont structurées dans le temps.

plot.ts(data);

On distingue clairement 2 phases différentes. La première correspond à la partie croissante de la courbe concernant les données de 0 à 60 environ. La deuxième correspond au régime stationnaire qui s’établit autour de la valeur 0,6.

On remarque aussi plusieurs pics dont un majeur autour de 1000. Nous allons donc les traiter à part dans notre analyse.

break1=60;
X1 = data[0:break1];
X2=data[(break1+1):length(data)]
X3 = X2[X2<=0.53];
X2 = X2[X2>0.53];

Valeurs particulières

Etudions à présent les pics présents sur la courbe. Ils semblent répartis aléatoirement dans le temps et ont des valeurs différentes, regardons si ces suppositions sont vraies.

plot(X3);

Nous avons réussi à isoler les pics majeurs du jeu de données. Ceux ci sont répartis aléatoirement au cours du temps et prennent des valeurs qui semblent aléatoires.Etant très peu nombreux, on ne pas tirer grand chose de leur étude mais les traiter à part semble justifié.

Phase croissante

Regardons si le découpage effectué est correct.

plot.ts(X1);

On a une augmentation rapide des données. La courbe devenant stationnaire par la suite, l’analyse de cette phase s’arrête ici, un boxplot serait inutile.

Régime stationnaire

plot.ts(X2);

Les données ont l’air très éparces mais cela est dû au zoom effectué par le logiciel. Regardons l’histogramme correspondant pour voir les valeurs typiques.

hist(X2);

On observe un fort pic autour de 0.60 et une symétrie autour de cette valeur. On peut penser que la moyenne sera proche de cette valeur. Regardons cela plus en détail avec un summary.

Je peux donc résumer l’échantillon ainsi:

summary(X2);
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##  0.5387  0.5935  0.6044  0.6022  0.6128  0.6359

Comme on pouvait s’y attendre, la moyenne et la médiane sont très très proches. On observe une phase stationnaire où les valeurs oscillent assez uniformément autour de 0.6

boxplot(X2);

Pour finir, on trace le boxplot pour résumer graphiquement l’échantillon.