Streuung der Lottozahlen
In diesem Beitrag wird untersucht, ob es Auffälligkeiten bei
der Verteilung der gezogenen Lottozahlen
gibt. Anders gefragt: Liefert das Lottoziehungsgerät
vertrauenswürdige Ziehungsergebnisse? Tatsächlich
wird hier auch eine Fragwürdigkeit aufgedeckt.
Zuerst widmen wir uns wieder dem empirischen Datenmaterial, d.h.
den tatsächlich vorhandenen Daten. Wie schon in den vorhergehenden
Untersuchungen verwenden wir nur die Zahlen (einschließlich
Zusatzzahl) der Samstagsziehungen von
1961 bis zum Ende des Jahres 2000. Das sind 2088 Ausspielungen in
denen insgesamt n=14616 (=2088*7) Zahlen gezogen wurden.
Ein erster Test besteht darin, das arithmetische
Mittel zu bilden, d.h. die Summe aller absoluten Häufigkeiten
(siehe Abb.1 in "Langfristiges
Verhalten der Lottozahlen") geteilt durch die Anzahl der
Ziehungen. Das Resultat ist der "Schwerpunkt"
der Lottozahlen, der theoretisch genau in der Mitte zwischen 1 und
49 liegen sollte, also bei 25 (davor und
danach gibt es jeweils 24 Zahlen). Empirisch erhalten wir m=25,15
also eine winzige Schlagseite zu den hohen Zahlen.
Das nächste Augenmerk gilt der empirischen
Verteilung und der Dichte (als
Histogramm) für das Merkmal: absolute Häufigkeit
der einzelnen Lottozahlen.
| Hier werden die Lottozahlen zuerst nach ihrer relativen
Häufigkeit sortiert und dann aufsummiert.
Bei uns links am Anfang die "13"
(h=252/14616) und am Ende die "32" (h=360/14616).
Die Summenbildung ist im obigen Diagramm zu sehen. In
der Nähe des Erwartungswertes häufen sich die
Summanden, deshalb steigt hier die Kurve steil an. |
|
| Die meisten absoluten Häufigkeiten befinden sich
in dem Intervall von 300 bis 304. Die Zusammenfassung
zu 5er-Gruppen geschieht aus optischen Gründen.
Andernfalls wäre die Dichte der Häufigkeit nur
undeutlich erkennbar. |
|
Der Median (50%-Quantil) trennt die Daten
in zwei gleiche Hälften. Bei uns erhalten wir M=300,5. Mit
der Differenz zwischen diesem Wert und der jeweiligen Lottozahlenhäufigkeit
errechnen wir eine empirische Varianz:
empirische Varianz: V = 1/49 * Summe[(M-H)^2]
= 314
empirische Standardabweichung: S = (Wurzel
aus V) = 17,7
Diese Standardabweichung S=17,7 ist ein
Maß dafür, wieweit die Lottozahlenhäufigkeiten um
den Medianwert M=300,5 streuen. Ist
das in unserem Fall viel oder wenig?
Zur Beantwortung dieser Frage brauchen wir keine neuen Forschungen
anzustellen. Die Zusammenhänge sind seit ca. 200 Jahren bekannt
und mit den Namen von berühmten Mathematikern verknüpft.
Interessanterweise wurden die Erkenntnisse größtenteils
durch Untersuchungen an Glücksspielen gewonnen.
Beim Lotto haben wir ein sog. Urnenmodell mit Kugeln, die von 1
bis 49 durchnummeriert sind. Zunächst stellen wir fest, dass
jede Lottozahl die gleiche Ziehungschance hat - nämlich 1:49.
Man nennt so etwas ein Laplace-Experiment.
Unglücklicherweise kommt hier gleich eine Komplikation ins
Spiel, weil die Kugeln bei einer Lottoziehung nicht wieder zurückgelegt
werden, damit sie nicht doppelt vorkommen können. Nach der
ersten Kugelziehung sind nur noch 48 Kugeln in der Urne, somit verringert
sich die Chance für die restlichen Kugeln auf 1:48. Bei der
dritten Kugel sind es nur noch 1:47 usw., man spricht deshalb auch
von einem zusammengesetzten Laplace-Experiment.
Wenn die Zahl der gezogenen Kugeln (bei uns 6
+ 1 für die Zusatzzahl), sehr klein gegenüber der
gesamten Kugelzahl (bei uns 49) ist, so
darf man näherungsweise trotzdem so tun, als ob alle Kugelziehungen
die gleiche Wahrscheinlichkeit haben. Diese Annahme wäre für
eine geringe Anzahl von Ziehungen etwas gewagt, aber für unsere
Fragestellung reicht es aus, zumal wir sehr viele Ziehungen betrachten.
(Wer es ganz genau wissen will, muss sich dann mit der sog. hypergeometrischen
Verteilung befassen.)
Wir tun also näherungsweise so, als ob JEDE
Kugelziehung unabhängig ist, d.h.
nach jeder einzelnen Ziehung wird die Kugel wieder zurückgelegt
und somit besteht jedesmal eine Ziehungs-Wahrscheinlichkeit von
1:49 für jede Kugel.
Bei dieser Annahme haben wir es in unserem konkreten Fall mit 14616
einzelnen Ziehungen zu tun, die wie eine Kette aneinandergereiht
und unabhängigen voneinander sind. Es wird jeweils eine Kugel
gezogen, die die Zahl 1 bis 49 tragen kann.
Diese Vereinfachung erlaubt es uns, weitere Standardverfahren der
Statistik zu verwenden: die Bernoulli-Kette
mit ihrer Binomialverteilung. Der Erwartungswert
E und die Varianz V
sind hier einfach zu berechnen. Mit einer Wahrscheinlichkeit von
p=1/49 und einer Kettenlänge von n=14616 erhalten wir:
E = n p = 14616 * 1/49 = 298,3
V = n p ( 1 - p ) = 14616 * 1/49 * 48/49= 292,2
Standardabweichung: S = (Wurzel aus V) = 17,1
Ein Vergleich dieser theoretischen Werte mit den obigen empirischen
Werten zeigt keine großen Differenzen.
Die Binomialverteilung überspringen wir, denn die sehr lange
Kette (=14616) führt hier zu rechnerischen Schwierigkeiten.
Außerdem mündet diese Verteilung in einen Grenzfall
der jetzt kommt.
Die große Anzahl der betrachteten
Ziehungen in der Bernoulli-Kette ist gleichzeitig unsere Rettung,
denn sie führt zum Lieblingskind der Statistiker, der Normalverteilung
auch als Gauß-Verteilung bezeichnet.
Die große Anzahl der Ziehungen ist auch deshalb so wichtig,
weil die Gauß'schen Funktionen von stetigen Zufallsvariablen
ausgehen.
Die Gauß-Verteilung bzw. -Dichte ist in den nächsten
beiden Bildern zu sehen. Dem Histogramm in Abb.
2 entspricht die Dichte in Abb. 4.
Die Ähnlichkeit ist hier nicht so augenfällig, was wegen
der fehlenden Kontinuität aber typisch ist.
Deshalb wird zum Vergleich auch lieber die Verteilungsfunktion
herangezogen und hier zeigt die empirische Verteilung aus Abb.
1 eine auffällige Übereinstimmung mit der
Abb. 3 der theoretischen Gauß-Verteilung, d.h. trotz
unserer Idealisierungen liegen wir mit "Gauß" offensichtlich
richtig.
Die Gauß'schen Funktionen lassen sich mit
elementaren Methoden leider nicht berechnen. Das braucht
man auch gar nicht. Werte hierfür findet man in entsprechenden
Tabellenbücher für die sog. Standard-Normalverteilung
bei der der Erwartungswert=0 und die Standardabweichung=1
gesetzt sind. Die zugehörigen Kurven sind hier abgebildet.
Normalverteilungen für andere Werte lassen sich dann
umrechnen.
Die Steigung der Verteilungskurve hat ihr Maximum
beim Erwartungswert. An der Rändern nähert sich
die Kurve beliebig dicht an "0" bzw. an "1"
erreicht diese Grenzen aber nie! |
|
Die Dichtekurve hat ihr Maximum
beim Erwartungswert. Die Dichtekurve
ist die 1. Ableitung der Verteilungsfunktion oder umgekehrt,
die Verteilungsfunktion ist das Integral der Dichtefunktion.
Die Standardabweichung wird mit sigma(1) bezeichnet,
dort hat die Kurve auch einen Wendepunkt, d.h.
die Krümmung wechselt die Richtung.
Wichtig ist aber, dass innerhalb sigma(1) 68% aller
Werte liegen. Für sigma(2) und sigma(3) gelten die
beiden anderen Werte. |
|
Die angegeben prozentualen Werte für die Standardabweichungen
gelten immer für alle Normalverteilungen.
Damit haben wir den Kompass zur Orientierung,
nach dem wir gesucht haben. Wir können nun mit dem theoretischen
Erwartungswert (298,2) und der theoretischen Standardabweichung
(17,1) die sigma-Grenzen errechnen und eine Beurteilung vornehmen.
Die Grenzen sind auf ganze Zahlen gerundet.
Grenzen betroffene
Lottozahlen
untere
obere empirisch normalverteilt
sigma(1) 281 315 37
(75,5%) 33 (68%)
sigma(2) 264 332 45 (91,8%) 47
(95%)
sigma(3) 247 350 48
(97,9%) 49 (99,7%)
100%
49 (100%)
Die empirisch ermittelte Anzahl der gezogenen
Lottozahlen innerhalb der sigma-Grenzen stimmt einigermaßen
mit der theoretischen Normalverteilung
überein. Da wir eine endliche Zahl von Lottoziehungen mit theoretisch
unendlichen Ereignissen bei der Normalverteilung vergleichen, ist
eine genaue Übereinstimmung auch nicht zu erwarten. Mit der
Zeit wird sie aber immer besser werden.
Bemerkenswert ist die "32".
In der Praxis wird die sigma(3)-Grenze quasi als 100%-Grenze genommen.
Bei Werten die diese Grenze überschreiten, wie hier die "32",
wird dann oft unsachgemäß von Ausreißern gesprochen.
Wenn wir genauer hinschauen gibt es nun zwei Möglichkeiten:
Erstens kann irgendeine oder mehrere physikalische
Abweichungen (Gewicht, Reibung, Abmessung usw.) der "32"
vom Durchschnitt der übrigen Lottokugeln dafür sorgen,
dass die Ziehungswahrscheinlichkeit eine Winzigkeit höher als
1:49 ist. In diesem Fall läge kein
Ausreißer sondern ein systematischer Fehler
vor. Die physikalische Ursache hierfür aufzuspüren
ist für die Lottogesellschaft sicher sehr aufwendig und eventuell
sogar unmöglich.
Zweitens besteht die Möglichkeit, dass alles im Rahmen der
Normalverteilung liegt. Auch dann hätten wir keinen Ausreißer.
Die sigma(3)-Grenze umfasst nur 99,7%,
es bleibt also ein 0,3% Schlupfloch. In
der Abb.4 ist es nicht erkennbar, aber
die Dichtekurve konvergiert rechts und links zur Nulllinie, berührt
sie aber nicht. d.h. die restlichen 0,3% erstrecken sich rechts
und links bis ins Unendliche. Eine 100%-Grenze
im endlichen Bereich kann es deshalb bei der Normalverteilung überhaupt
nicht geben!
Hierin drückt sich die Tatsache aus, dass
der Zufall alles produzieren kann, was physikalisch möglich
ist, auch wenn die Wahrscheinlichkeiten gegebenenfalls extrem gering
sind.
Fazit:
Die Lottokugel "32"
für die Samstagsziehungen
wäre es wert, genauer untersucht zu werden. Wird keine Auffälligkeit
gefunden, so spricht im vorliegenden Fall trotzdem nichts gegen
die Erfüllung der Normalverteilung.
4/05
|