Statistiques descriptives 1D sous-excel : création des tableaux et graphiques

Forme des données

En statistique on veillera toujours à ce que les données aient la forme suivante : les variables en colonne et les individus en ligne. La première ligne devra comporter le nom des variables. Si les données n'ont pas initialement cette forme on veillera à la leur donner. Ceci simplifiera grandement les traitements ultérieurs dans Excel ou tout autre logiciel statistique. Si initialement on a les individus en colonnes et les variables en ligne on pourra par exemple utiliser un collage spécial avec l'option "Transposée" dans Excel.

Importation des données

Une dernière possibilité pour importer les données consiste en un copier-coller par exemple à partir d'un document pdf ou d'une page web. Dans ce cas après collage vous devez voir apparaître dans Excel des options de mise en forme en bas à droite de la zone collée. Ces options vous permettent entre autres d'accéder à l'assistant d'importation pour la zone collée. Il est possible d'accéder directement à cet assistant par un collage spécial. Cette méthode n'est pas la plus recommandée mais elle permet dans de nombreux cas de gagner un temps précieux par rapport à une saisie manuelle ...

Mise en garde sur les graphiques

Attention à la 3D : même si les histogrammes et diagrammes circulaires en 3D peuvent être attrayants, mis à part leur effet esthétique, ils n'apportent pas d'information supplémentaire par rapport aux représentations basiques 2D. Bien au contraire ils ont tendance à fausser nos perceptions.

Attention à la lisibilité des graphiques : prendre des polices assez grandes et s'assurer que la figure est assez grande.

Attention à l'origine des axes : toujours veiller pour la représentation de proportions à ce que la ligue de base se trouve bien à 0.

Attention aux couleurs : toujours se poser la question de l'utilisation finale du document produit ; ce dernier sera-t-il imprimé en noir et blanc ou en couleur ? Si il est imprimé en noir et blanc adapter les couleurs pour que le document reste lisible à l'impression.

Les tableaux croisés dynamiques (TCD)

Dans Excel l'insertion de tableaux croisés dynamiques ainsi que les graphiques associés permet de répondre à nombre de questions en statistiques descriptives 1D et 2D.

Principe : sélectionner la plage de données puis choisir dans le menu "Insertion", "TblCroiséDynamique" puis "Graphique croisé dynamique" (dans le cas ou on souhaite à la fois le tableau croisé dynamique et le graphique). Ensuite il ne reste plus qu'à faire glisser les différents champs dans les catégories souhaitées.

Diagramme en bâtons

Ici il suffit de faire glisser la variable à la fois dans le "Champs Axe (Abscisses)" et le champs "Valeurs". On obtient ensuite directement le tableau de fréquences et le digramme en bâtons. Il est aussi possible de modifier le graphique en fonction des besoins.

Attention pour les variables quantitatives discontinues, bien vérifier que les valeurs sont rangées par ordre croissant.

Histogramme

Pour faire un histogramme à partir des donnée brutes en utilisant un TCD :

  1. Sélectionner les données
  2. Choisir "Insertion", "TblCroiséDynamique" puis "Graphique croisé dynamique"
  3. Sélectionner la variable considérée dans les champs à inclure dans le rapport, elle apparaît alors dans "Valeurs"
  4. Faire glisser cette même variable dans la zone "Champs Axe (Abscisse)"
  5. Dans la feuille de calcul, sélectionner une cellule, puis dans le menu "Outils de tableau croisé dynamique", "Options" choisir "Grouper les champs", modifier les valeurs de début, fin et pas à votre convenance (on pourra s'appuyer sur la règle de Sturges). Attention quand même à ce que la valeur de début soit inférieure au minimum de la série et la valeur fin supérieure au maximum de la série.
  6. Remplacer dans le champs "Valeurs" le choix de "Somme" par "Nombre" dans "Paramètres de champs de valeurs"
  7. Sélectionner la figure puis dans le menu "Outils de graphique croisé dynamique" puis "Création" et dans la zone "Disposition du graphique" choisir la disposition telle qu'il n'y ait pas d'espace entre les barres (Mise en forme 8).
  8. Enfin dans les "Outils de graphique croisé dynamique" peaufiner la figure : "Titre", "Axes", ...

Lister toutes les modalités d'une variable

Pour lister toutes les modalités d'une variables qualitative, on peut copier-coller la plage de données dans un autre colonne puis dans la plage de données ainsi copiée supprimer les doublons à l'aide du menu "Données" puis supprimer les doublons. On obtient ainsi l'ensemble des modalités possibles.

Tableau de fréquences à partir de la fonction "nb.si"

A partir de la liste de l'ensemble des modalités d'une variable on peut utiliser la fonction "nb.si" pour compter dans la plage de données initiale le nombre d'occurrences de chacune des modalités, on pensera à utiliser à bon escient les $ pour le glissement de la formule.

Découper les données en classe avec la fonction "nb.si.ens"

Une fois les limites des classes définies on peut facilement déterminer le nombre de données appartenant à chacune d'entre-elles grâce à la fonction "nb.si.ens".

Calcul des fréquences cumulées croissantes et décroissantes

Calcul des fréquences cumulées croissantes et décroissantes. La solution la plus simple est de repartir de la définition des fréquences cumulées croissantes, c'est-à-dire d'utiliser la fonction "somme" en plaçant judicieusement les $ de sorte à faire glisser la formule.

Remarque : la valeur de la cellule A2 est égale à "somme(A2:A2)".

Courbes cumulatives croissantes et décroissantes

Données quantitatives discontinues

Ici on opte pour une représentation graphique légèrement différente de celle vue en cours car la forme de fonction en escalier n'est pas très adaptée dans Excel. On va simplement réaliser une une nuage de points avec en abscisse la valeur de la variable et en ordonnée la fréquence cumulée correspondante. On pourra superposer sur une même graphique les fréquences cumulées croissantes et décroissantes.

Données quantitatives continues

Courbes des fréquences cumulées croissantes et décroissantes. Attention une attention toutes particulière doit être portée à la construction de cette courbe. Noter avant toute chose que la courbe cumulée croissante vaut 0 au niveau du minium et 1 au niveau du maximum. Inversement la courbe cumulée décroissante vaut 1 au niveau du minimum et 0 au niveau du maximum. Le points d'intersection des deux courbes a pour ordonnée 0,5 et on retrouve en abscisse la valeur de la médiane. Sur machine on peut soit construire cette courbe à partir des données brutes, soit à partir de données regroupées en classe lors de la construction de l'histogramme (ces classes étant généralement obtenues en utilisant la règle de Sturges). L'intérêt de la seconde version est qu'elle permet d'obtenir une version "lisser" de la courbe cumulative, tandis que la première produit une version plus "bruitée".

A partir des données brutes

On commence par réaliser une TCD sur les données afin de regrouper les valeurs identiques on prendra soin dans le champ "Valeurs" du TCD de bien choisir "Nombre". Trier dans ce tableau les valeurs par ordre croissant puis à partir du tableau ainsi obtenu calculer les fréquences cumulées croissantes pour chacune des valeurs. Enfin faire le tracé de la courbe.

A partir des données groupées en classes

On construit les tableaux des fréquences cumulées croissantes et décroissantes, en prenant garde aux points à relier entre-eux on construit les courbes cumulées croissantes et décroissantes.

L'utilitaire d'analyse statistique

Enfin un outil particulièrement utile pour réaliser des statistiques à partir d'Excel est l'utilitaire d'analyse statistique ; il permet de réaliser des histogrammes (en lui précisant les limites de classes), de calcul l'ensemble de statistiques descriptives, ainsi que de nombreuses autres choses ...

Avant toutes choses, il convient d'installer le module "Utilitaire d'analyse" : "Fichier", "Options", "Compléments", sélectionner "Analysis ToolPack", cliquer sur "Atteindre...", cocher la case "Analysis ToolPack" puis cliquer sur "OK". L'utilitaire d'analyse statistique peut ensuite être utilisé en se rendant dans "Données", "Utilitaire d'analyse".

Modifié le: mercredi 25 septembre 2013, 17:40