Nous allons étudier les données provenant d’un cache. Les valeurs correspondent au ratio d’élément web qui sont fournit par le cache plutot que généré.

Récupération des jeux de données

data=read.csv("data.csv",header=F)$V1
str(data);
##  num [1:2000] 0.608 0.777 0.84 0.84 0.84 ...

On observe que j’ai 2000 valeurs numérique. A la vue des premières valeurs, on peut supposer que l’ordre de grandeur des valeurs est petit.

Visualisation des données

On observe que les valeurs sont essentiellement concentrées dans un petit intervalle.

L’ensemble des valeurs sont comprise entre 0.6 à 1. Grâce à l’affichage de nos valeurs avec des points, on remarque que les valeurs se concentrent essentiellement entre 0.9 et 1. On observe que la courbe tend vers 1 lorsque x tend vers l’infini. La courbe à l’allure d’une fonction logarithmique.

Réduisont l’axe des abscisses pour zoomer sur les premières valeurs.

On observe que la courbe croit de manière moins importante au cours du temps. Les premières valeurs correspondent à la monté en charge du cache, c’est pour ça que leurs disparitées est importante. Ensuite le cache se remplis de plus en plus au fur et à mesure du temps jusqu’a approximer 1 sans jamais l’atteindre.

Isolont les valeurs qui nous parraissent linéaire sur le graphe.

data_lineaire <- data[75:2000];
summary(data_lineaire);
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##  0.9731  0.9874  0.9900  0.9882  0.9907  0.9913

Nous allons maintenant calculer la variance de 50 échantillons successifs contenant 40 valeurs, puis l’afficher sous forme d’une courbe.

nb_echantillon <- 50;
taille <- length(data_lineaire)/nb_echantillon;
i <- 0;
list_data <- c(1:nb_echantillon);
while((i+1) <= nb_echantillon){
  data_i <- data_lineaire[(i*taille+1):((i+1)*taille)];
  list_data[i+1] <- var(data_i);
  i <- i+1;
}
plot(list_data, type="b");

On esperait que l’écart type diminue au fur et à mesure, mais il reste finalement stable (les valeurs en ordonnées sont relativement faibles).

L’histogramme confire bien que les valeurs sont concentrées dans un intervalle restreint, entre 0.99 et 0.995.

On a donc pu observer que le jeu de donnée à tendance à croître. Nous avons détecter deux phases, la première étant la montée en charge du cache. Nous l’avons ensuite écarté pour analyser la seconde phase, et on a pu observer que les valeurs se concentraient dans un intervalle restreint, qui, grâce à l’histogramme, se situent aux alentours de 0.990.