Le but de ce DM est de vérifier que vous avez compris les principales étapes à suivre lorsque l’on analyse un jeu de données.

Pour cela, vous appliquerez la démarche de statistiques descriptives vue en cours aux divers jeux de données proposés:

A chaque étape, vous justifierez que ce que vous calculez ou affichez a bien du sens. Le cas échéant, si le jeu de données ne satisfait pas les hypothèses attendues, vous essayerez de vous restreindre à un sous-ensemble du jeu de données en justifiant vos choix. Si vous avez l’impression qu’il y a plusieurs régimes (successifs ou supperposés), vous séparerez les deux régimes et les analyserez séparément.

On rappelle les différentes fonctions de base de R qui pourront vous êtres utiles: str, summary, mean, diff, sort, var, sd, plot, plot.ts, hist, boxplot.

Récupération des jeux de données

On commence tout d’abord par récupérer les données que nous allons analyser. Pour ma part je dois m’occuper les données du cache.

data=read.csv("data.csv",header=F)$V1

Visualisation des données

On veut tout d’abord connaitre la nature de nos données et leur nombre.

str(data)
##  num [1:2000] 0.000961 0.013116 0.021022 0.029383 0.039453 ...

On voit bien que nous avons des nombres dont les premières valeurs sont très petites. On a 2000 valeurs au total.

Et si on essayait de visualiser l’ensemble de nos données sur un graphique maintenant pour pouvoir les analyser et voir leur structure dans le temps.

plot.ts(data)

Avec le plot on peut voir différentes phases. Une première phase avec des valeurs autour de 0,1 de 2 à 200, de 400 à 650, de 1000 à 1200 et de 1400 à 1600. Puis on a une deuxième phase avec des valeurs autour de 0,2 : de 200 à 400, de 650 à 1000, de 1200 à 1400 et de 1600 à 1800. Enfin on observe une dernière phase de 1800 à 2000 avec des valeurs autour de 0,4.

break1 = 200
break2 = 400
break3 = 650
break4 = 1000
break5 = 1200
break6 = 1400
break7 = 1650
break8 = 1820
Phase1_1 = data[20:break1]
Phase1_2 = data[(break2+1):break3]
Phase1_3 = data[(break4+1):break5]
Phase1_4 = data[(break6+1):break7]
Phase2_1 = data[(break1+1):break2]
Phase2_2 = data[(break3+1):break4]
Phase2_3 = data[(break5+1):break6]
Phase2_4 = data[(break7+1):break8]
Phase3 = data[(break8+1):2000]

Premier régime stationnaire

On a une phase de régime stationnaire à environs 0,1 qui revient 4 fois dans le motif que l’on observe. On va étudier seulement une de ces quatres portions qui ont le même comportement.

plot.ts(Phase1_1)

Ça a l’air plus instable, mais c’est juste parceque ne avons zoomé. On ne vois pas de structure particulière, On peux donc regarder l’histogramme correspondant pour mieux voir les valeurs typiques.

hist(Phase1_1)

Il y a un fort pic pour les valeurs entre 0,1 et 0,11. Plus de la moitier des valeur de l’échantillon sont dans cet interval ce qui n’est pas négligeable.

summary(Phase1_1)
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
## 0.08336 0.10530 0.10810 0.10700 0.11010 0.11730

La médianne et la moyenne sont très proche, presque égale même. Les valeurs sont très proches, elles varient entre le min à 0,08 et le max 0,117.

boxplot(Phase1_1)

On voit bien que presque toutes les valeurs sont situé vers 0,11 0,12, avec quelques valeurs basses qu’on peut ignorer.

Deuxième régime stationnaire

On a une autre phase de régime stationnaire à environs 0,2 cette fois et qui revient aussi à 4 reprises. Nous allons procéder comme pour le régime précédent en étudiant seulement une portions des 4 que nous avons.

plot.ts(Phase2_1)

On ne vois pas de structure particulière là aussi, On va donc regarder l’histogramme.

hist(Phase2_1)

Il y a une sorte de symetrie autour de la valeur médianne 0,2 sur l’histogramme. On va vérifier la moyenne et la médianne pour en être sur.

summary(Phase2_1)
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##  0.1185  0.1729  0.1896  0.1876  0.2047  0.2402

La médianne et la moyenne sont presque égale. On peut les arrondir à 0,19.

boxplot(Phase2_1)

On voit bien que presque toutes les valeurs sont situé vers 0,2.

Dernier régime stationnaire

On a une dernière phase de régime stationnaire à environs 0,4 a la fin de notre échantillon de données.

plot.ts(Phase3)

On ne vois pas de structure particulière là non plus. Les valeurs étant vraiments petites le fait de zoomer dessus fait apparaitres des variations qui en réalité sont négligeable.

hist(Phase3)

Il y a un pic sur la valeur 0,35 sur l’histogramme.

summary(Phase3)
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##  0.2436  0.3386  0.3581  0.3558  0.3776  0.4212

Effectivement la médianne et la moyenne sont presque égale. On est finalement plutot sur un régime stationnaire autour de la valeur 0,35 et non pas 0,4.

boxplot(Phase3)

On voit bien grace à ce dernier diagramme que presque toutes les valeurs sont situé vers 0,35.