Streuung der Lottozahlen

In diesem Beitrag wird untersucht, ob es Auffälligkeiten bei der Verteilung der gezogenen Lottozahlen gibt. Anders gefragt: Liefert das Lottoziehungsgerät vertrauenswürdige Ziehungsergebnisse? Tatsächlich wird hier auch eine Fragwürdigkeit aufgedeckt.

Zuerst widmen wir uns wieder dem empirischen Datenmaterial, d.h. den tatsächlich vorhandenen Daten. Wie schon in den vorhergehenden Untersuchungen verwenden wir nur die Zahlen (einschließlich Zusatzzahl) der Samstagsziehungen von 1961 bis zum Ende des Jahres 2000. Das sind 2088 Ausspielungen in denen insgesamt n=14616 (=2088*7) Zahlen gezogen wurden.

Ein erster Test besteht darin, das arithmetische Mittel zu bilden, d.h. die Summe aller absoluten Häufigkeiten (siehe Abb.1 in "Langfristiges Verhalten der Lottozahlen") geteilt durch die Anzahl der Ziehungen. Das Resultat ist der "Schwerpunkt" der Lottozahlen, der theoretisch genau in der Mitte zwischen 1 und 49 liegen sollte, also bei 25 (davor und danach gibt es jeweils 24 Zahlen). Empirisch erhalten wir m=25,15 also eine winzige Schlagseite zu den hohen Zahlen.

Das nächste Augenmerk gilt der empirischen Verteilung und der Dichte (als Histogramm) für das Merkmal: absolute Häufigkeit der einzelnen Lottozahlen.

Hier werden die Lottozahlen zuerst nach ihrer relativen Häufigkeit sortiert und dann aufsummiert. Bei uns links am Anfang die "13" (h=252/14616) und am Ende die "32" (h=360/14616). Die Summenbildung ist im obigen Diagramm zu sehen. In der Nähe des Erwartungswertes häufen sich die Summanden, deshalb steigt hier die Kurve steil an.
Die meisten absoluten Häufigkeiten befinden sich in dem Intervall von 300 bis 304. Die Zusammenfassung zu 5er-Gruppen geschieht aus optischen Gründen. Andernfalls wäre die Dichte der Häufigkeit nur undeutlich erkennbar.

Der Median (50%-Quantil) trennt die Daten in zwei gleiche Hälften. Bei uns erhalten wir M=300,5. Mit der Differenz zwischen diesem Wert und der jeweiligen Lottozahlenhäufigkeit errechnen wir eine empirische Varianz:

empirische Varianz: V = 1/49 * Summe[(M-H)^2] = 314

empirische Standardabweichung: S = (Wurzel aus V) = 17,7

Diese Standardabweichung S=17,7 ist ein Maß dafür, wieweit die Lottozahlenhäufigkeiten um den Medianwert M=300,5 streuen. Ist das in unserem Fall viel oder wenig?

Zur Beantwortung dieser Frage brauchen wir keine neuen Forschungen anzustellen. Die Zusammenhänge sind seit ca. 200 Jahren bekannt und mit den Namen von berühmten Mathematikern verknüpft. Interessanterweise wurden die Erkenntnisse größtenteils durch Untersuchungen an Glücksspielen gewonnen.

Beim Lotto haben wir ein sog. Urnenmodell mit Kugeln, die von 1 bis 49 durchnummeriert sind. Zunächst stellen wir fest, dass jede Lottozahl die gleiche Ziehungschance hat - nämlich 1:49. Man nennt so etwas ein Laplace-Experiment.

Unglücklicherweise kommt hier gleich eine Komplikation ins Spiel, weil die Kugeln bei einer Lottoziehung nicht wieder zurückgelegt werden, damit sie nicht doppelt vorkommen können. Nach der ersten Kugelziehung sind nur noch 48 Kugeln in der Urne, somit verringert sich die Chance für die restlichen Kugeln auf 1:48. Bei der dritten Kugel sind es nur noch 1:47 usw., man spricht deshalb auch von einem zusammengesetzten Laplace-Experiment.

Wenn die Zahl der gezogenen Kugeln (bei uns 6 + 1 für die Zusatzzahl), sehr klein gegenüber der gesamten Kugelzahl (bei uns 49) ist, so darf man näherungsweise trotzdem so tun, als ob alle Kugelziehungen die gleiche Wahrscheinlichkeit haben. Diese Annahme wäre für eine geringe Anzahl von Ziehungen etwas gewagt, aber für unsere Fragestellung reicht es aus, zumal wir sehr viele Ziehungen betrachten. (Wer es ganz genau wissen will, muss sich dann mit der sog. hypergeometrischen Verteilung befassen.)

Wir tun also näherungsweise so, als ob JEDE Kugelziehung unabhängig ist, d.h. nach jeder einzelnen Ziehung wird die Kugel wieder zurückgelegt und somit besteht jedesmal eine Ziehungs-Wahrscheinlichkeit von 1:49 für jede Kugel.

Bei dieser Annahme haben wir es in unserem konkreten Fall mit 14616 einzelnen Ziehungen zu tun, die wie eine Kette aneinandergereiht und unabhängigen voneinander sind. Es wird jeweils eine Kugel gezogen, die die Zahl 1 bis 49 tragen kann.

Diese Vereinfachung erlaubt es uns, weitere Standardverfahren der Statistik zu verwenden: die Bernoulli-Kette mit ihrer Binomialverteilung. Der Erwartungswert E und die Varianz V sind hier einfach zu berechnen. Mit einer Wahrscheinlichkeit von p=1/49 und einer Kettenlänge von n=14616 erhalten wir:

E = n p = 14616 * 1/49 = 298,3
V = n p ( 1 - p ) = 14616 * 1/49 * 48/49= 292,2
Standardabweichung: S = (Wurzel aus V) = 17,1

Ein Vergleich dieser theoretischen Werte mit den obigen empirischen Werten zeigt keine großen Differenzen.

Die Binomialverteilung überspringen wir, denn die sehr lange Kette (=14616) führt hier zu rechnerischen Schwierigkeiten. Außerdem mündet diese Verteilung in einen Grenzfall der jetzt kommt.

Die große Anzahl der betrachteten Ziehungen in der Bernoulli-Kette ist gleichzeitig unsere Rettung, denn sie führt zum Lieblingskind der Statistiker, der Normalverteilung auch als Gauß-Verteilung bezeichnet. Die große Anzahl der Ziehungen ist auch deshalb so wichtig, weil die Gauß'schen Funktionen von stetigen Zufallsvariablen ausgehen.

Die Gauß-Verteilung bzw. -Dichte ist in den nächsten beiden Bildern zu sehen. Dem Histogramm in Abb. 2 entspricht die Dichte in Abb. 4. Die Ähnlichkeit ist hier nicht so augenfällig, was wegen der fehlenden Kontinuität aber typisch ist.

Deshalb wird zum Vergleich auch lieber die Verteilungsfunktion herangezogen und hier zeigt die empirische Verteilung aus Abb. 1 eine auffällige Übereinstimmung mit der Abb. 3 der theoretischen Gauß-Verteilung, d.h. trotz unserer Idealisierungen liegen wir mit "Gauß" offensichtlich richtig.

 

Die Gauß'schen Funktionen lassen sich mit elementaren Methoden leider nicht berechnen. Das braucht man auch gar nicht. Werte hierfür findet man in entsprechenden Tabellenbücher für die sog. Standard-Normalverteilung bei der der Erwartungswert=0 und die Standardabweichung=1 gesetzt sind. Die zugehörigen Kurven sind hier abgebildet. Normalverteilungen für andere Werte lassen sich dann umrechnen.
Die Steigung der Verteilungskurve hat ihr Maximum beim Erwartungswert. An der Rändern nähert sich die Kurve beliebig dicht an "0" bzw. an "1" erreicht diese Grenzen aber nie!
Die Dichtekurve hat ihr Maximum beim Erwartungswert. Die Dichtekurve ist die 1. Ableitung der Verteilungsfunktion oder umgekehrt, die Verteilungsfunktion ist das Integral der Dichtefunktion.
Die Standardabweichung wird mit sigma(1) bezeichnet, dort hat die Kurve auch einen Wendepunkt, d.h. die Krümmung wechselt die Richtung.
Wichtig ist aber, dass innerhalb sigma(1) 68% aller Werte liegen. Für sigma(2) und sigma(3) gelten die beiden anderen Werte.

Die angegeben prozentualen Werte für die Standardabweichungen gelten immer für alle Normalverteilungen. Damit haben wir den Kompass zur Orientierung, nach dem wir gesucht haben. Wir können nun mit dem theoretischen Erwartungswert (298,2) und der theoretischen Standardabweichung (17,1) die sigma-Grenzen errechnen und eine Beurteilung vornehmen. Die Grenzen sind auf ganze Zahlen gerundet.

                 Grenzen             betroffene Lottozahlen

             untere   obere       empirisch     normalverteilt

sigma(1)      281      315       37 (75,5%)      33 (68%)

sigma(2)      264      332       45 (91,8%)      47 (95%)

sigma(3)      247      350       48 (97,9%)      49 (99,7%)

100%                             49 (100%)

Die empirisch ermittelte Anzahl der gezogenen Lottozahlen innerhalb der sigma-Grenzen stimmt einigermaßen mit der theoretischen Normalverteilung überein. Da wir eine endliche Zahl von Lottoziehungen mit theoretisch unendlichen Ereignissen bei der Normalverteilung vergleichen, ist eine genaue Übereinstimmung auch nicht zu erwarten. Mit der Zeit wird sie aber immer besser werden.

Bemerkenswert ist die "32". In der Praxis wird die sigma(3)-Grenze quasi als 100%-Grenze genommen. Bei Werten die diese Grenze überschreiten, wie hier die "32", wird dann oft unsachgemäß von Ausreißern gesprochen. Wenn wir genauer hinschauen gibt es nun zwei Möglichkeiten:

Erstens kann irgendeine oder mehrere physikalische Abweichungen (Gewicht, Reibung, Abmessung usw.) der "32" vom Durchschnitt der übrigen Lottokugeln dafür sorgen, dass die Ziehungswahrscheinlichkeit eine Winzigkeit höher als 1:49 ist. In diesem Fall läge kein Ausreißer sondern ein systematischer Fehler vor. Die physikalische Ursache hierfür aufzuspüren ist für die Lottogesellschaft sicher sehr aufwendig und eventuell sogar unmöglich.

Zweitens besteht die Möglichkeit, dass alles im Rahmen der Normalverteilung liegt. Auch dann hätten wir keinen Ausreißer. Die sigma(3)-Grenze umfasst nur 99,7%, es bleibt also ein 0,3% Schlupfloch. In der Abb.4 ist es nicht erkennbar, aber die Dichtekurve konvergiert rechts und links zur Nulllinie, berührt sie aber nicht. d.h. die restlichen 0,3% erstrecken sich rechts und links bis ins Unendliche. Eine 100%-Grenze im endlichen Bereich kann es deshalb bei der Normalverteilung überhaupt nicht geben!

Hierin drückt sich die Tatsache aus, dass der Zufall alles produzieren kann, was physikalisch möglich ist, auch wenn die Wahrscheinlichkeiten gegebenenfalls extrem gering sind.

Fazit: Die Lottokugel "32" für die Samstagsziehungen wäre es wert, genauer untersucht zu werden. Wird keine Auffälligkeit gefunden, so spricht im vorliegenden Fall trotzdem nichts gegen die Erfüllung der Normalverteilung.