Récupération des jeux de données

## [1] 0.133592 0.261416 0.256524 0.274576 0.318044 0.142228

On dispose maintenant du jeux de donnée suivant : data.

Vérification du jeu de donnée

Afin de pouvoir faire l’analyse des données on les visualise afin de regarder/vérifier le type des données.

str(data);
##  num [1:2000] 0.134 0.261 0.257 0.275 0.318 ...

Ce sont donc des nombres. Il y en a 2000 ( c’est un jeu de données de taille moyenne) et les premières valeurs semblent relativement proches les unes des autres.

Regardons si ces données sont structurées “dans le temps”.

plot.ts(data);

On distingue clairement deux phases. L’une concernant les premières mesures ( de 0 à environ 20 ) ou la progression des valeurs peut être considérée comme exponentielle, d’environ 0.10 à 0.50. C’est une phase de transition vers la deuxième phase qui peut être considéré comme plus stationnaire. La deuxième phase comporte des valeurs qui oscillent rapidement entre 0.35 et 0.60 avec une concentration qui semble plus forte vers la valeur 0.50 .

Je vais donc décomposer mon ensemble de données en deux, la première phase de progression, et la phase d’oscillation.

breackpoint=20;
data1 = data[0:breackpoint]
data2 = data[breackpoint:length(data)]

Phase de transition

Regardons nos données pour être sûr qu’on a bien découpé:

plot.ts(data1)

Les dernières valeurs auraient pu être rattachées à la seconde phase mais c’est sans importance. On a une augmentation régulière et rapide avec un pic (chute) vers la 6ème seconde. N’ayant pas vraiment d’information sur la nature du phénomène je décide tout de même de traité la valeur.

Chute dans la phase de transition

data3 = data1[4:8]
data3 = data3[data<=0.35]
plot.ts(data3)

Après avoir isolé la valeur, je remarque que c’est une valeur qui “tombe juste” (3). Cela pourrait être une “aberration” il est difficile de savoir ce qui s’est passé exactement, je ne vais pas pouvoir dire grand chose de cette valeur.

La seconde phase

Regardons nos données pour être sur qu’on à bien découpé :

plot.ts(data2)

Ca a l’air très instable. Je ne vois pas de strucutre particulière sinon une plus forte concentration autour de la valeur 0.50, je peux donc regarder l’histogramme correspondant pour voir si les valeurs typiques correspondent à mes suppositions.

hist(data2,breaks = 20)

Il y à effectivement un fort pic pour les valeurs situé entre 0.50 et 0.57. On distingue une asymétrie avec quelques valeurs situé en dessous de 0.50 et beaucoup plus situées au dessus de 0.50.

Je peux donc résumer l’échantillon ainsi:

summary(data2)
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##  0.2643  0.5051  0.5285  0.5213  0.5490  0.6042

Comme on peut s’y attendre la moyenne et la médiane sont très proche avec une médiane plus grande qui la moyenne.

En résumé, on a donc une seconde phase stationnaire où les valeurs sont très proches de 0.52 et quelques valeurs plus à l’écart.

boxplot(data2)

Et voici le boxplot qui permet de résumer graphiquement l’échantillon