Distribution et loi de Pareto

P. Trehin

trehinp@aol.COM

 Révisé 09 août 2004

Résumé :

Cet article présente de manière simplifiée une méthode puissante d’analyse de distributions statistiques de populations spécifiques en fonction de la taille des différentes entités qui les composent. Il est fondé sur une expérience concrète au sein d’une grande entreprise, dans le cadres de la mise en place de modèles de prévisions économiques sur la structure des marchés industriels.

Ce type de distributions est remarquablement stable, dans le temps et dans l’espace selon les divers secteurs géographiques et est connu sous le nom de " distributions de Pareto", du nom de Vilfredo Pareto, célèbre économiste/sociologue Suisse. Il a découvert qu'au-dessus d'une certaine taille, la répartition cumulative du revenu des revenus, une fois tracée sur un graphique Log-Log, forme une ligne presque droite. La théorie a été depuis affinée, la méthode n’en est que plus efficace.

L’échelle Log-Log est généralement employée dans l'analyse de la distribution reliant le nombre de personnes à leur niveau de revenu, mais est également employée pour analyser le nombre de réseaux, d’entreprises, de Centraux téléphoniques privés, etc. par rapport à leurs tailles respectives : nombre de postes de travail reliés au réseaux, nombre d'employés dans l’entreprise, nombre de postes de téléphones reliés au central, etc.). Ces distributions suivent, en général, ce qui s'appelle une  "Loi de Pareto" encore appelée "Distribution de Pareto".

Nous proposerons une variation à la technique classique d'analyse de la distribution de Pareto qui donne des résultats plus précis et sur un plus grand domaine de taille que la méthode de Pareto pure. 

Rappels

Pareto a découvert vers 1875 la distribution qui porte maintenant son nom en étudiant la répartition des revenus des familles en Suisse. Il était communément admis qu'il y a plus de familles avec un bas revenu que de familles avec un revenu élevé et l’observation factuelle confirmait cette idée. Ce qui était moins connu c’est que ces distributions ont une forme très régulière.

Pareto analysait des répartitions du revenu des revenus parmi des familles[1]. Etant donné l’étendue de la gamme des revenus d'un côté et l’étendue de la gamme encore plus large du nombre de familles dans les diverses classes de niveau de revenu (Se comptant en millions dans les classes à bas revenu, et en centaines, voir dizaines pour les classes à revenu très élevés), Pareto a décidé d'employer le papier graphique Log-Log afin de condenser les échelles et de pouvoir représenter toutes les valeurs sur un même diagramme.

Il a alors remarqué que non seulement il y a un plus grand nombre de familles avec des revenus plus bas que de familles avec des revenue élevés, mais en outre, que la distribution suivait une ligne droite sur un graphique Log-Log. Plusieurs autres études empiriques ultérieures, à d’autres époques, dans d’autres pays, ont conduit à un résultat surprenant : toutes ces distributions suivaient une loi identique.  

Figure 1 : Distribution des revenus en fonction de la taille du revenu

 

Log du Nombre de familles

Avec un revenu X

Y     A

 1000 !

      !

      !  *    *

 100  !           *

      !              *

      !              ' *

 10   !              '   *

      !              '     *

      !              '       *

 1    !              '         *

      !              '           *

      !              '             *

 .1   !              '               *

      !              '                 *

      !              '                   *

 .01  !              '                     *

      !              '                       *

      !              '                         *

 .001 !              '                           *

      !              '                             *

      !              '                               *

 .0001!              '                                 *

      ------------------------------------------------------> X

                    X0                               Log du niveau de revenu

 

La ligne droite, en échelle logarithmique, sur une partie du graphique se prête aux calculs mathématiques faciles.

Y = A X + B

Dans laquelle grand X est le logarithme du niveau de revenu petit x, et grand  Y est le logarithme du nombre de personnes ayant un revenu petit x  ce qui évite la notation lourde :

                     Log( y ) = A log (x) + B

Après transformation, comme la coefficient A est négatif, l'équation arithmétique correspondante est une hyperbole :

y = b x-a   soit :   y =  b

                                     xa

Cette forme de droite est très reconnaissable et permet d’orienter les recherches ultérieures. Elle permet aussi l'interpolation de valeurs intermédiaires absentes, l'évaluation de valeurs pour des limites de classe de taille différentes, etc.

La distribution de Pareto est cependant en échec pour fournir un bon ajustement à l'extrémité inférieure du continuum de taille, où une ligne droite ne s'adapte plus aux données observées. En fait Pareto lui-même avait exprimé l’idée que son observation n’était valide que seulement au-dessus d'une taille minimum X0.

L'analyse empirique a conduit les statisticiens à employer des distributions plus sophistiquées que la distribution de Pareto : la distribution "log-normale". Une fois transformée par une échelle Log-Log, la technique d'ajustement emploie une équation parabolique au lieu d'une équation linéaire.

Y = A X²+ B X + C

Dans laquelle grand X est le logarithme du niveau de revenu petit x

Et grand  Y est le logarithme du nombre de personnes ayant un revenu petit x 

L'analyse empirique prouve que cet ajustement avec une régression du second degré donne de très bons résultats et qu'au-dessus d'une certaine taille elle est statistiquement indiscernable de la distribution originale de Pareto. Un calcul mathématique simple prouve qu'après transformation et retour à une échelle arithmétique, l’équation du second degré devient celle de la distribution Log-Normale. Dans le reste de cet article j'emploierai le terme de distribution de Pareto comme nom générique puisque ce terme est relativement mieux connu, tout en gardant à l'esprit que le véritable nom de la  distribution est Log-Normale

Domaines d'applicabilité des distributions de Pareto

L'analyse ultérieure des distributions statistiques a démontré que les distributions de Pareto étaient en effet très communes dans divers champs d’application :

·        Distribution des entreprises par taille en nombre d’employés

·        Entreprises par taille de revenu annuel

·        Distribution des établissements distribution par taille en nombre d’employés

·        Distribution des centraux téléphoniques privés par taille en nombre de postes téléphoniques installés

·        Ménages en fonction de leurs revenus annuels

·        Distribution des Ordinateurs par taille de prix

par capacité de la mémoire

par puissance de calcul

·        etc.

Voici un exemple d’application de cette loi statistique aux USA : le nombre d’établissements en fonction de leurs tailles exprimée en nombre de personnes Employées par ces établissements.

 

En vingt ans, malgré la crise pétrolière de 1973/1975, la distribution est restée extrêmement stable.

Autre exemple comparaison entre la distribution des établissements par taille d’employés aux USA et en Europe Midle East Africa (EMEA)[2] :

 

 

(EMEA abbreviation Europe Middle East Africa)

On notera dans cet exemple que la méthode permet de comparer des distributions alors même que les limites de classes étaient différentes en Europe Midle East Africa et aux USA.

La stabilité remarquable de toutes ces distributions, dans le temps mais aussi selon la région géographique fait de cette technique statistique un puissant instrument d'analyse et de prévision.

Quand on doit-on rechercher une distribution de Pareto ?

Les distributions de Pareto ont toutes en commun les caractéristiques suivantes :

 

Elles dénombrent un certain ensemble d'entités par rapport à une mesure de leurs tailles exprimées selon diverses modalités :

·        Nombre des entreprises ayant une certaine taille en nombre d’employés, en revenu annuel, en consommation d’énergie, etc.

·        Nombre des personnes ayant un certain niveau de revenus

·        Nombre des réseaux informatiques ayant un certain nombre de postes de travail connectés

La taille a une limite supérieure ouverte

·        Nombre d’employés dans une entreprise, au moins en théorie, peut se prolonger indéfiniment

·        La puissance d’un ordinateur, de même

·        Nombre de postes de travail connectés dans un réseau aussi

La mesure de taille est homogène

·        L’unité qui mesure la taille est la même pour l’ensemble de la population

·        Ordinateur : la taille est mesurée en fréquence du processeur dans toute l'analyse, si l’on a choisi une autre mesure taille mémoire, on s’y tient.

·        Nombre de postes de travail connectés dans un réseau est utilisée comme mesure de la taille pour tous les réseaux.

 

Populations sont analysées grandes

Il y a évidemment un certain degré d’expertise impliqué dans la décision d’employer une distribution de Pareto, basée sur l'expérience d’avoir fait face à de nombreux cas dans des domaines variés.

Tester l'ajustement à la distribution de Pareto

Rappelons nous que nous avons pour le moment seulement fait l’hypothèse que la distribution que nous analysons est de type « Pareto ».

La première étape consiste à tracer les données sur une échelle Log-Log pour vérifier visuellement que la courbe suit le modèle parabolique attendu. C'est un exercice de tracé très simple qui peut être fait en utilisant soit un papier à échelle Log-Log ou plus facilement, de nos jours, en choisissant l'échelle Log-Log pour l'axe des X et des Y dans le programme graphique de l'ordinateur.

Il y a cependant des pièges à éviter. Les données nous parviennent, en général, déjà groupées par classes de taille : (5 à 9) (10 à 19) (20 à 49) (50 à 99). Les frontières de classes de taille sont arbitraires et fournissent rarement des intervalles égaux.

On doit donc employer la méthode classique du tracé d’histogrammes, celle-ci consiste à employer le tracé normalisé des distributions statistiques et à déterminer le centre de classe pour permettre de tracer une courbe.

* La hauteur de la barre de l’histogramme est calculée en divisant la quantité appartenant à la classe de taille par la largeur de la classe de taille. Cela permet une représentation normalisée des quantités, quelle que soit la largeur de la classe de taille.

* Le centre de la classe de taille n'est pas la moyenne arithmétique des extrémités mais la moyenne géométrique. C’est à dire la racine carrée du produit de la limite inférieure par la limite plus élevée. Le l’abscisse du point tracé doit prendre en compte le fait que la taille moyenne dans chaque classe de taille est biaisée vers l’extrémité basse. Quand c’est possible, il vaut mieux utiliser la taille moyenne réelle. Quand cette moyenne réelle n'est pas disponible l'analyse empirique a prouvé qu'on peut employer la moyenne géométrique des limites de la classe de taille comme approximation acceptable. On notera que sur le tracé en Log-Log, ce point semble être au milieu de la classe, cela est dû à l’échelle logarithmique.

 

Log du nombre d’entreprises

Appartenant à la classe de taille X

      A

   Y  !

      !

      !-------*-------

      !  *        *  '

      !              *

      !              ' *

      !              '---*----

      !              '     * '

      !              '       *

      !              '       ' *

      !              '       '   *

      !              '       '     *

      !              '       '-------*--------

      !              '       '         *     '

      !              '       '           *   '

      !              '       '             * '

      !              '       '               *

      !              '       '               ' *

      !              '       '               '   *

      !              '       '               '-----*------

      !              '       '               '       *   '

      !              '       '               '         * '

      ------------------------------------------------------> X

                    X0                       Log du nombre d’employées

 L'essai visuel confirmera immédiatement ou infirmera l'hypothèse faite que la distribution est en effet une distribution (log-normale) de Pareto. Le plus minime problème sur la courbe[3] indiquerait que les données ne suivent pas une distribution de Pareto. Nous devons nous rappeler que nous analysons une échelle Log-Log et que de petites variations sur le graphique représentent des rapports et non des différences absolues

Par exemple, une déviation de deux unités sur l'échelle signifie que nous avons deux fois la quantité ou la moitié de la quantité comparée à une distribution théorique de Pareto.

Une telle différence peut être explicable, c'est-à-dire que dans la distribution que nous observons, nous avons une situation spécifique se produisant à ce point précis de la courbe. Nous devrions rechercher les causes d’une telle possibilité.

Plus souvent, il s’agit d’un artefact, dû à notre méthodologie, qui déforme la distribution de manière "étrange". Ceci peut être dû à un biais statistique lors du prélèvement de l’information (biais non détecté lors de la saisie des données, naturellement) ou d'une erreur dans l'approche d'extrapolation de l’échantillon, ou à n'importe quelle autre erreur de calcul.

Il se peut toutefois qu’une explication vienne confirmer la singularité de la forme de notre courbe : réglementation légales modifiant le comportement des agents économiques ou sociaux, effet de seuil, etc.

D'autres méthodes de test de validité peuvent être utilisées pour confirmer notre hypothèse avec des formules statistiques, par exemple le test du Chi Deux.

Je n'insisterai pas ici sur les méthodes de test de validité d’une hypothèse de distribution statistique.

Tracé d’une distribution de Pareto étapes par étape

Prenons par exemple la distribution des établissements par des classes de taille des employés aux Etats-Unis en 1970. (source : County Business Patterns, US Department of commerce)

Nous calculerons successivement la largeur de chaque classe de taille, de la valeur moyenne de chaque classe de taille des employés et des tailles de chaque barre correspondante d'histogramme.

Largeur de classe de taille

Pour chaque classe de taille, soustraire la valeur limite inférieure de la valeur limite supérieure et rajouter une unité. Cela nous rappelle les méchants problèmes d'intervalle ?...

Par exemple, si la classe de taille est de 5 à 9 employés, la largeur de la classe sera calculée de la façon suivante :

              (9 - 5) + 1 = 5

Limite inférieure

de la classe

Limite supérieure

de la classe

Largeur

de la classe

 

1     

4     

8     

20     

50     

100     

250      

500      

1000      

1500      

2500      

5000      

 

3 

7

19

49

99

249

499

999

1499

2499

4999

10000

 

3

4

12

30

50

150

250

500

500

1000

2500

5001

 

 

Taille moyenne par la classe de taille

Pour chaque classe, multiplier la valeur limite inférieure de taille par la valeur limite supérieure  et prendre la racine carrée, en arrondissant à une décimale, ce qui est en général suffisant.

Par exemple :

1 x 3 = 3

  ___

V 3 = 1,732  soit 1,7

 

Limite inférieure

de la classe

Limite supérieure

de la classe

Moyenne

géométrique

1     

4     

8     

20     

50       

100      

250       

500       

1000       

1500       

2500       

5000       

3

7

19

49

99

249

499

999

1499

2499

4999

10000

1.7

5.3

12.3

31.3

70.4

157.8

353.2

706.8

1224.3

1936.1

3535.2

7071.1

 Tailles de chaque barre d'histogramme de classe de taille

pour chaque classe, divisez juste le nombre d'unités observées par la largeur de la classe de taille

 Par exemple :1762340 : 3 = 587447.6

Limite inférieure

de la classe

Limite supérieure

de la classe

Largeur

de la classe

Population observée réelle

Population observée normalisée

 

1      

4      

8     

20     

50     

100     

250     

500     

1000   

1500   

2500   

5000  

 

3        

  7        

19       

49       

99       

249       

499       

999       

1499       

2499       

4999       

10000       

 

3

4

12

30

50

150

250

500

500

1000

2500

5001

 

1762340

723019

593038

272635

90103

51566

16597

7233

2077

1250

743

329

 

 

587446.6667

180754.75

  49419.83333

    9087.833333

    1802.06

     343.7733333

       66.388

       14.466

         4.154

         1.25

         0.2972

          0.06578684263

 

Tracé :

Nous pouvons maintenant tracer la courbe en reportant sur l’axe des Y les valeurs normalisées pour les populations observées dans chaque classe de tailles, et en utilisant sur l’axe des X la valeur moyenne géométrique de chaque classe de taille sur le papier Log-Log ou employer un programme de parcelle de terrain sur un ordinateur choisissant l'option Log-Log pour l’axe des X et l'axe des Y.

Moyenne

géométrique

Population observée normalisée

1.7

5.3

12.3

31.3

70.4

157.8

353.2

706.8

1224.3

1936.1

3535.2

7071.1

587446.6667

180754.75

  49419.83333

    9087.833333

    1802.06

     343.7733333

       66.388

       14.466

         4.154

         1.25

         0.2972

          0.06578684263

 

Second exemple :

Distribution des réseaux informatiques en fonction du le nombre de postes de travail connectés. Evaluations venant d’une première analyse conduite en Espagne.

          Taille       Moyenne    largeur de  Nombre de        Valeur

     des réseaux    Géométrique   la classe    réseaux      normalisée

       2       4         2.8           3         22322        7440.6

       5      14         8.4          10         18356        1835.6

      15      49        27.1          35          8484         242.4

      50     149        86.3         100          2708          27.08

     150     499       273.6         350           954           2.725

     500    1499       865.7        1000           484           0.484

    1500    4999      2738.3        3500            32           0.00914

    5000   14999      8660         10000            10           0.001

   15000   49999     27385.9       35000             2           0.0000571

 

L'aspect irrégulier de cette courbe, contrairement à ce qu’on attendrait d'une distribution Pareto / log-normale doit attirer notre attention et nous conduire à l’analyse de  l'accident sur cette courbe.

Ce dernier pourrait être en effet très réel et être lié à une situation spécifique (effet de seuil, réglementation de normalisation ou limites techniques).

Dans la plupart des cas il doit cependant probablement être dû à de la polarisation dans notre technique échantillonnage (ce qui était le cas ici) ou à des erreurs de calcul.

Autres utilisations des distributions de Pareto :

Jusqu'ici nous avons seulement employé la distribution de Pareto pour examiner la forme d'une distribution que notre connaissance de l'environnement nous inciterait à assumer pour être de "type de Pareto".

 

Interpolation à de nouvelles classes de taille :

Nous pouvons employer les propriétés de stabilité de ces distributions pour en déduire des informations non actuellement disponibles, par exemple pour comparer deux distributions pour lesquelles les limites de classe de taille ne sont pas identiques. Nous pouvons renverser la méthode de calcul précédente afin d'obtenir, à partir de la forme de la courbe, la valeur des quantités correspondant à une nouvelle classe de taille hypothétique.

Avant de faire que calcul en sens inverse, nous avons d'abord à calculer les coefficients de l'équation de la courbe. Pour cela nous employons un programme d'analyse de régression, dans ce cas-ci une régression du second degré. Ce programme doit être appliqué au logarithme des variables car c'est seulement dans un espace Log-Log que l'ajustement de la courbe à une équation polynomiale du second degré est appropriée.

REG2DEG (Log nombre d’entités ; Log moyenne Géométrique des classes ) ==>  coefficients.

      \

Nom de programme : employez celui disponible sur votre logiciel de statistiques

Les coefficients (COEF) sont les valeurs  A B et C de l'équation :

Y = A X²+ B X + C

Dans laquelle grand X est le logarithme de la moyenne géométrique de la classe de taille. Et grand  Y est le logarithme de la valeur normalisée du nombre d’entités appartenant à la classe de taille

Une fois que nous avons les coefficients, nous pouvons les employer dans l’équation du second degré pour calculer le logarithme de la valeur théorique normalisée pour la valeur moyenne géométriques interpolée de la nouvelle classe de tailles.

POLYNOM (Log de la nouvelle taille ; COEF)

        \

Nom du Programme qui calcule de nouvelles valeurs en utilisant les coefficients précédents

A, B et C dans l'équation avec la nouvelle valeur moyenne X' correspondent à la nouvelle classe de taille interpolée :

Y = A X' ²+ B X'+ C

Dans laquelle grand X’ est le logarithme de la moyenne géométrique de la classe de taille interpolée. Et grand  Y’ est le logarithme de la valeur normalisée du nombre d’entités appartenant à la classe de taille X’  interpolée

La valeur réelle des tailles de barre d'histogramme peut alors être obtenue par l'élévation à une puissance de la base de logarithme, 10 en général, à la valeur calculée ci-dessus.

Quantité normalisée = 10 Y '

Rappelez-vous alors de multiplier la valeur théorique tirée de la courbe par la nouvelle largeur de classe de taille, afin obtenir la valeur absolue.

Quantité réelle = Quantité normalisée x  largeur de la nouvelle classe

Cette méthode permet de recalculer des valeurs théoriques pour un ensemble de classes de tailles afin de pouvoir comparer des distributions obtenues à partir de sources différentes. Il peut être nécessaire d’effectuer une règle de trois sur les valeurs théoriques calculées afin d'arriver au même total exact que la population originale.

Extrapolation à de nouveaux environnements :

La distribution de Pareto est extrêmement fréquente et montre un degré élevé de robustesse. Elle peut être utilisée pour prévoir avec un degré de confidence assez élevée, l'évolution de certaines populations. Les coefficients  des courbes sont très stables et leur variation, le cas échéant, reste très lente et monotone.

Si nous avons peu d'informations sur un pays, nous pouvons employer la distribution disponible pour la même population dans un autre pour lequel on dispose de meilleures statistiques, et en déduire, avec un degré de confidence assez élevée, une distribution par taille de certaines entités pour le pays pour lequel nous ne l'avions pas.

Conclusion

En résumé, l'analyse de distribution de Pareto est un outil puissant car elle permet à l'analyste d'examiner la validité générale d'une distribution observée et de se sentir confiant sur les quantités d’entités observées. Quand on trouve une déformation anormale de la courbe, c'est aussi une information importante qui nous dirige soit vers un domaine de recherche pour essayer de comprendre la raison véritable de la forme anormale de cette courbe, soit pour la correction d'une cause d'erreur qui avait été négligée dans l'étude.

Paul Tréhin


 

[1] Pareto avait employé une courbe cumulative de distribution. La recherche empirique a prouvé que les caractéristiques de la distribution sont les mêmes dans des distributions non cumulatives. Le reste de cet article se concentrera sur cette dernière situation.

[2] Regroupement alors en vigueur dan l’organisation internationale d’IBM.

[3] Voir l'exemple 2 pour une illustration de ceci