4. Wahrscheinlichkeit I

Leitfragen

Intuitiv: Wenn ein Experiment bei 100 Versuchen im Mittel 30 Mal ein bestimmtes Ergebnis liefert, würden wir sagen, dieses Ergebnis habe eine Wahrscheinlichkeit von 30100, der relativen Häufigkeit. Das ist axiomatisch schwierig zu fassen, deshalb Zugang von der ”anderen Seite“.

Eine Ergebnismenge (auch Stichprobenraum, sample space) Ω ist eine endliche (tatsächlich darf sie auch abzählbar unendlich sein, aber um solche mathematischen Feinheiten kümmern wir uns erstmal nicht) Menge von Ergebnissen (Stichproben, Realisierungen, sample points, basic outcomes) eines Experiments. Ein Experiment kann dabei ziemlich viel sein: Das Werfen eines Würfels, die Bestimmung des Typs eines Worts, die Frage, ob ein Pixel schwarz ist oder nicht usf.

Teilmengen von Ω heißen Ereignis (event). Das Ereignis AΩ ist eingetreten, wenn das Experiment ein Ergebnis ωA geliefert hat.

Sind A, B zwei Ereignisse, so ist

  • AB das Ereignis, dass A oder B sich ereignen,
  • AB das Ereignis, dass A und B sich ereignen,
  • ¯A das Ereignis, dass sich A nicht ereignet,
  • ∅ das unmögliche Ereignis,
  • Ω das sichere Ereignis

Wenn AB= ∅, sind A und B unvereinbar.

Die Menge aller Ereignisse ist ℘(Ω). Eine Abbildung

P :<ignored>P< /ignored>℘(Ω ) → [0,1]

heißt Wahrscheinlichkeitsmaß oder Wahrscheinlichkeitsverteilung (probablity function), wenn

Vorsicht: Es gibt auch eine Verteilungsfunktion (distribution function) – die ist aber was ganz anderes. Unsere Verteilungen heißen auf Englisch Distribution oder, wenn Ω etwas wie die reellen Zahlen ist, auch gern probability density function (PDF, Wahrscheinlichkeitsdichte).

P(A) heißt Wahrscheinlichkeit von A. Das Paar (Ω,P) heißt Wahrscheinlichkeitsraum (probability space). Wahrscheinlichkeitsräume sind unsere Modelle für Experimente. In der Sprachverarbeitung ist die Wahl des geeigneten Modells häufig die schwierigste Aufgabe überhaupt. Einerseits ist klar, dass Sprache mit Zufallsexperimenten zunächst wenig zu tun hat, andererseits müssen meist eher gewagte Annahmen gemacht werden, um ein gegebenes Phänomen überhaupt einer statistischen Analyse zugänglich zu machen. Dass statistische Verfahren in der Sprachverarbeitung häufig so gut funktionieren, ist eigentlich eher überraschend.

In einem realen Experiment ist die absolute Häufigkeit eines Ereignisses kn(A) die Zahl der Versuchsausgänge in A in den ersten n Versuchen, die relative Häufigkeit hn(A) = kn(A)∕n. Vorerst postulieren wir keinerlei Zusammenhang zwischen hn und P.

Übungen zu diesem Abschnitt

Ihr solltet euch wenigstens an den rötlich unterlegten Aufgaben versuchen

(1)

Was ist der Stichprobenraum für das Werfen eines (fairen, sechsseitigen) Würfels, für das Werfen zweier Würfel, für Sprache (die aus Buchstaben, Wörtern, Phonen, Texten oder was immer ihr wollt bestehen kann). Was sind darin jeweils denkbare Ereignisse?

(2)

Nehmt an, wir modellieren Sprache als ein Zufallsexperiment über dem Stichprobenraum aller Wörter. Wie sieht das Ereignis ” Wort fängt mit A an“ aus?

(3)

Was ist der Unterschied zwischen dem Ereignis ” 1 fällt“ und dem Ergebnis ” 1 fällt“ beim Würfel?

(4)

Sucht euch ein paar Leute und macht mit diesen folgendes Experiment: Alle würfeln 10 Mal (zwecks intellektueller Hygiene am Besten mit dem selben Würfel) und rechnen unter der naiven (und falschen) Annahme, dass Wahrscheinlichkeit die relative Häufigkeit eines Ereignisses sei, die Verteilung ” ihres“ Würfels aus. Was stellt ihr fest? Was folgt daraus über die Annahme über das Verhältnis von Wahrscheinlichkeit und relativer Häufigkeit?


Markus Demleitner

Copyright Notice