Leitfragen
Warum könnten nicht-unabhängige Ereignisse besonders spannend sein?
Welche Standardwerkzeuge haben wir, um mit voneinander abhängigien Ereignissen zu arbeiten?
Gibt es einen Zusammenhang zwischen Kausalität und Bayes-Formel?
Zwei Ereignisse A und B heißen unabhängig, gdw. P(A∩B) = P(A)P(B). In der Realität wird man meistens argumentieren, die Ereignisse seien unabhängig und man dürfe die Formel deshalb so anwenden. Das Eintreten des einen Ereignisses beeinflusst also die Wahrscheinlichkeit des Eintretens des anderen nicht.
Was ist, wenn A und B nicht unabhängig sind?
P(A|B) heißt bedingte Wahrscheinlichkeit von A unter B, die Wahrscheinlichkeit, dass A eintritt, nachdem B schon eingetreten ist, und ist definiert als
Diese Definition ist vernünftig. Wir wollen nur Ereignisse aus A betrachten, für die B schon eingetreten ist. Es können also nur noch die Stichproben aus A auftreten, die schon in B sind (deshalb A∩B). Außerdem hätte man gern, dass P(B|B) = 1 – wenn B schon eingetreten ist, ist B sicher, deshalb die Division durch P(B). Für unabhängige Ereignisse ist
Natürlich ist diese Definition nicht anwendbar, wenn P(B) = 0.
Beispiel: Würfel. Es werde zwei Mal gewürfelt, A sei das Ereignis, dass beim zweiten Mal eine 1 fällt, B, dass beim ersten Mal eine 1 fällt. Der Stichprobenraum besteht also aus Tupeln (z1,z2) mit z1,z2 ∈{1,…,6}.
Offenbar ist P(A) = P(B) = 1∕6. Was ist P(A|B)? Es ist
Werde nun ein Mal gewürfelt, B sei das Ereignis, dass eine gerade Zahl fällt, A, dass die Vier fällt. Es gilt:
Ein anderes Beispiel: Sei Ω die Menge aller Texte am Netz (ein Text soll dabei einfach durch die Menge der in ihm vorkommenden Wörter repräsentiert sein), P(ω) = 1∕|Ω| für alle ω∈Ω. Wir interessieren uns für die Ereignisse A= {ω| Bundeskanzler ∈ω} und B= {ω| Schröder ∈ω} und nehmen an, dass google Ω ausschöpft, also für die Berechnung von |A|, |B| und |Ω| taugt. Dann ist
Die Wahrscheinlichkeit, dass ein Text das Wort Bundeskanzler enthält, wenn es das Wort Schröder enthält, ist also
Umformung der Definition bedingter Wahrscheinlichkeit:
Weil Vereinigung kommutiert, ist das auch gleich P(B)P(A|B). Zusammen Bayes’sche Umkehrformel:
Beispiel: Sei A das Ereignis, dass eine bestimmte Person die Krankheit Burizystose hat, B das Ereignis, dass der der Plutopharma-Test
der Sachse AG anschlägt. Es sei P(A) = 0.001, P(B|A) = 0.9 und die Wahrscheinlichkeit, dass der Test bei Nichtinfizierten
positiv ausfällt, P(B|) = 0.01. Die Wahrscheinlichkeit, dass jemand infiziert ist, wenn der Test positiv ausfällt,
ist
P(B), die Wahrscheinlichkeit, dass ein Test ohne Kenntnis des Gesundheitszustands des Probanden positiv ausfällt, kennen wir nicht. Wir können sie aber ausrechnen:
Jetzt P(A|B) = 0.001 ⋅0.9∕0.011 = 0.08, die Wahrscheinlichkeit, dass jemand gesund ist, wenn der Test positiv ausfällt:
Ihr solltet euch wenigstens an den rötlich unterlegten Aufgaben versuchen
(1)
Macht euch klar, dass und warum das
(2)
Überlegt euch beim Würfelbeispiel, wie die Ereignisse ” gerade Zahl“ und ” kleiner als zwei“ sowie ” kleiner als drei“ aussehen. Berechnet die bedingten Wahrscheinlichkeiten, die sich aus der gegenseitigen Bedingung auf diese drei Ereignisse ergeben. Denkt euch weitere Aufgaben dieser Art aus und löst sie.
(3)
Überlegt euch Wortpaare, bei denen ihr die Ereignisse ” A bzw. B kommt in einem zufällig gezogenen Dokument im Netz vor“ für abhängig oder unabhängig halten würdet. Benutzt Google (oder einen Suchmaschine eurer Wahl), um die relativen Häufigkeiten von A, B und ihrem gemeinsamen Vorkommen zu bestimmen. Unter der Annahme, dass Google wirklich den kompletten Stichprobenraum ausschöpft, könnt ihr P(A), P(B) und P(A∩B) ausrechnen. Wie sieht es hier mit der Unabhängigkeit aus? Bringt eure Beispiele ins Tutorium mit.
(4)
Nehmen wir an, in 1% der guten und 40% der Spam-Mails komme das Wort ” click“ vor Außerdem seien 10% der Mails gut und 90% Spam. Berechnet mit der Bayes-Formel, wie groß die Wahrscheinlichkeit ist, dass eine Mail, in der ”click“ steht, Spam ist.