10. Häufig auftretende Verteilungen

Leitfragen

Was ist die Binomialverteilung und warum taucht sie häufig auf?
Was ist die Normalverteilung und warum taucht sie häufig auf?

Binomialverteilung

Sei Ω = {u,d} der Stichprobenraum eines Bernoulli-Experiments, sei P(u) = p und P(d) = q= 1 -p. Wir betrachten den Stichprobenraum = ⊗ _i=1ⁿΩ, also etwa n Münzwürfe. ⊗ soll dabei für ein mehrfaches kartesisches Produkt stehen, ganz, wie ∑ für eine mehrfache Summe steht. Wir haben also einfach ein Produktexperiment von Bernoulliexperimenten. Auf diesem Raum betrachten wir X, ” Zahl der u in ∈ “. Die Verteilung von X heißt Binomialverteilung (oder Bernoulli-Verteilung):

$( ) n k n - k P (X = k) = b(k;n, p) := k p q .$

Das lässt sich so einsehen: Jedes Element des Ereignisses A=” genau k-mal u in “ hat die Wahrscheinlichkeit p^kq^n-k. Es bleibt die Frage nach der Kardinalität dieses Ereignisses. Effektiv ziehen wir k Positionen der u ohne Zurücklegen aus n Kugeln, wobei die Reihenfolge keine Rolle spielt, was unserem Modell Ω_III entspricht. Damit ist |A|= (n k)

Es gilt E(X) = np und Var(X) = npq. E(X) für n= 1 ist natürlich p, wegen der Linearität des Erwartungswerts summiert sich das einfach n Mal. Var(X) für n= 1 ist

$2 2 2 2 2 E (X ) - E(X ) = p ⋅ 1 + q ⋅ 0 - p = p(1 - p) = pq;$

hier addieren sich die individuellen Varianzen, weil die X alle unabhängig sind. Verteilungen dieser Art treten immer auf, wenn unabhängige, identisch verteilte Experimente (independent identically distributed, i.i.d.) hintereinander ausgeführt werden.

Normalverteilung

Die Standard-Normalverteilung ist definiert als

$1 2 φ(x) = √----exp (- x ∕2). 2π$

Es handelt sich hier um eine Dichte, x ist reell. Mit solchen Dichten können wir eigentlich nicht umgehen, weil unsere Wahrscheinlichkeitsräume und damit auch Zufallsvariablen immer diskret waren und das auch bleiben sollen. Wir ignorieren diese Probleme so gut wie möglich.

Diese ” Gaußkurve“ sieht so aus:

Es gilt der Zentrale Grenzwertsatz: Seien X_i, i= 1,…,n i.i.d. Zufallsvariable mit E(X_i) = 0 und Var(X_i) = 1. Sei S_n = (∑ni=0 Xi ) ∕ √n-- . Dann gilt

$|| ∫x || | | sup||P (Sn < x) - φ(t)dt|| → 0 f¨ur n → ∞. x∈< strong><em>X</em></strong>| - ∞ |$

Der Beweis ist relativ schwierig. Die Einschränkung für die Zufallsvariablen ist nicht wichtig, man sie kann (fast) immer durch Einfühung einer neuen Zufallsvariablen erzwingen, etwa durch Subtraktion des Erwartungswerts und Division durch Standardabweichung. Damit besagt dieser Satz im Wesentlichen, dass alle Experimente, wenn ich sie nur oft genug hintereinander ausführe, schließlich auf normalverteilte Zufallsvariablen führen werden.

Vorsicht: Der Satz macht keine Aussage darüber, wie schnell das geht. Solange n ” klein“ ist (und ” klein“ kann durchaus noch drei Dezillionen sein), kann die tatsächliche Verteilung von der Normalverteilung beliebig abweichen.

Die Funktion ∫ _-∞^xφ(t)dt, die angibt, wie viel ” Wahrscheinlichkeit“ unterhalb von x liegt, heißt Verteilungsfunktion. Verteilungsfunktionen sind vor allem wichtig, wenn man mit kontinuierlichen Verteilungen arbeitet; die Verteilung (hier auch Dichte) ergibt sich als Ableitung der Verteilungsfunktion.

Standard-Normalverteilung heißt die oben vorgestellte Verteilung, weil sie Erwartungswert Null und Varianz 1 hat. Normalverteilungen zu beliebigen Erwartungswerten μ und Varianzen σ² werden durch die Funktionen

$( ) 1 (x - μ)2 φμ,σ (x ) = √------exp - -----2--- 2πσ2 2 σ$

dargestellt.

Übungen zu diesem Abschnitt

Ihr solltet euch wenigstens an den rötlich unterlegten Aufgaben versuchen

(1)

Seht nach, ob ihr aus einer Folge unabhängiger Bernoulli-Experimente wirklich eine Binomialverteilung erhaltet. Das Bernoulli-Experiment soll das Werfen einer Münze sein. Werft sie vier Mal und zählt, wie oft ” Zahl“ kommt. Wiederholt das fünf Mal. Kombiniert eure Ergebnisse mit denen eurer Mitstudis. Wie gut passt euer Gesamtergebnis auf die für dieses Experiment zu erwartende Binomialverteilung? Wie gut auf eine Gaußverteilung, die diese Binomialverteilung annähert?

(2)

Holt euch von der Webseite zur Vorlesung das Programm gaussBinomi.py, das die Binomialverteilung für verschiedene Parameter mit der ihr entsprechenden Gaußverteilung vergleicht.

Lasst das Programm laufen und verändert systematisch die Parameter der Bernoulli-Verteilung. Beobachtet, wie sich die entsprechende Gauss-Verteilung anpasst und wie gut die Übereinstimmung ist. Das Programm wird mit folgenden Tasten bedient:

8/2 - N erhöhen/reduzieren.
6/4 - p erhöhen/reduzieren
z/Z: Zoom erhöhen/reduzieren (i.e. Bereich um 0 genauer ansehen)

(3)

Macht euch klar, warum die Gaussverteilung, die wir hier verwenden, die ” zu erwartende“ für die entsprechende Bernoulliverteilung ist. Die Antwort dazu steht in GaussVsBernComparer.setParameters

(4)

Beobachtet genau, was für kleine p und nicht zu große n um die Null rum passiert. Im Allgemeinen wird das Kriterium, ab wann Gauss eine gute Näherung für Bernoulli ist, in Abhängigkeit des Produkts np gegeben. Wo würdet ihr die Grenze setzen?

Anmerkung: Das rücksichtslose (und noch dazu schreibende) Reinpfuschen in die Attribute von Klassen, wie ich das hier bei den Funktionen mache, ist in der Realität natürlich verboten und hier nur durch die Faulheit des Lehrenden entschuldigbar.

(5)

Sei X die Zufallsvariable ” Ordnungszahl des ersten Zeichens eines Wortes“. Wir ziehen jetzt die Wörter eines Textes in ihrer Reihenfolge und rechnen P(X= 1) (also ” Das erste Zeichen ist ein a“) aus. Wird das eine Bernoulliverteilung sein? Warum (nicht)?

Dateien zu diesem Abschnitt

gaussBinomi.py -- Ein Python/Tkinter-Programm zum Interaktiven Vergleich von Normal- und Bernoulli-Verteilung. Eine Anleitung steht am Kopf des Skripts.

Zurück: Erwartungswert und Varianz

Inhalt

Weiter: Das schwache Gesetz der großen Zahlen

Index

Markus Demleitner