Le but de ce DM est de vérifier que vous avez compris les principales étapes à suivre lorsque l’on analyse un jeu de données.

Pour cela, vous appliquerez la démarche de statistiques descriptives vue en cours aux divers jeux de données proposés :

A chaque étape, vous justifierez que ce que vous calculez ou affichez a bien du sens. Le cas échéant, si le jeu de données ne satisfait pas les hypothèses attendues, vous essayerez de vous restreindre à un sous-ensemble du jeu de données en justifiant vos choix. Si vous avez l’impression qu’il y a plusieurs régimes (successifs ou supperposés), vous séparerez les deux régimes et les analyserez séparément.

On rappelle les différentes fonctions de base de R qui pourront vous êtres utiles: str, summary, mean, diff, sort, var, sd, plot, plot.ts, hist, boxplot.

Récupération des jeux de données

## [1] 1.59289 2.85683 2.82577 2.85464 2.85962 2.82746

On vas tout d’abord vérifier le jeu de données

##  num [1:21530] 1.59 2.86 2.83 2.85 2.86 ...

Nous avons donc un jeu de 21530 données en float et à première vue les données semblent relativement proche (entre 1.59 et 2.86).

Nous allons ensuite regarder si ces données sont structuré dans le temps. N’ayant aucune indication de temps, nous allons considérer que les captures on étaient faite de manière successive. On peux distinguer une phase stationnaire autour de 3 tout le long de la capture, avec des pics régulier autour de 12. On distingue également une valeur qui pourrait nous sembler abérrante. Cependant, n’ayant aucune information quand à la nature du phénomène mesuré ni sur le protocole expérimental, je décide tout de même de traiter les pics à part.

Je vais donc enlever ces données de mon jeu de données

Les pics I

Je vais commencer par les pics

On remarque que les pics sont très stable autour de 11. Cependant le pic extrême que nous avions déjà remarqué à un fort écart par rapport aux autres pics. Cela nous conforte donc dans l’idée que c’est une donnée abérrante. Le reste des pics stable proviennent sans doute de la nature du phénomène. Nous allons pour le moment les enlever afin d’y voir plus clair dans le jeu de données.

Le régime stationnaire I

Nous allons nous interesser aux données stationnaire.

On peux remarquer de nouveaux pics au dessous de 3 qui n’apparaissaient pas clairement sur le jeu de données précédent. Nous allons donc extraire ces pics et les étudier.

Les pics II

Les pics sont relativement stationnaire avec 5 pics de plus forte intensité. Au vue des ecarts, on ne peux pas dire si les 5 pics sont des abérrations ou non. Comme les autres pics, ceux-ci sont sans doute dû a la nature du phénomène. Nous les enleverons également pour la suite de l’étude.

Le régime stationnaire II

Mis à part quelques pics, les données nous semble clairement stationnaire. Je vais faire abstraction de l’ensemble de ces pics afin d’obtenir le régime stationnaire dans son ensemble.

La majorité des pics étant abstrait, on obtient une courbe stationnaire plus intéressante. Nous pouvons donc observer l’histogramme afin de mieux voir les valeurs typiques.

On remarque que l’histogramme s’approche de la forme gaussienne avec un maximum autour des 2.83

Je peux resumer l’echantillon ainsi :

##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##   2.800   2.829   2.835   2.835   2.840   2.900

On peux remarquer que la moyenne et la médianne sont les mêmes.

On peux donc conclure avec la boxplot de notre régime stationnaire.