Probabilità Condizionale

In questa lezione esaminiamo i principi fondamentali della probabilità condizionata, analizzando come la conoscenza preliminare o aggiuntiva possa modificare la stima della probabilità di un evento.

Approfondiamo i concetti di eventi congiunti, spazio campione ridotto e probabilità marginale, illustrando come questi aspetti consentano di formalizzare situazioni reali in cui gli esiti non possono essere considerati completamente casuali. Mettiamo in evidenza il ruolo della legge della probabilità totale nel gestire le partizioni dello spazio campione e nel semplificare i calcoli probabilistici.

Cos'è la probabilità condizionale?

Nelle lezioni precedenti abbiamo determinato le probabilità relative ad alcuni esperimenti semplici.

Un esempio è stato il lancio di un dado che produceva un numero da 1 a 6 in modo casuale. Pertanto, a ciascun esito possibile è stata assegnata una probabilità di 1/6.

In molti esperimenti del mondo reale, gli esiti non sono completamente casuali poiché disponiamo di alcune informazioni pregresse. Ad esempio, sapere che ha piovuto nei due giorni precedenti potrebbe influenzare la nostra stima della probabilità di avere una giornata di sole successiva. Un altro esempio consiste nel determinare la probabilità che un individuo scelto da una popolazione generale pesi più di 80 kg, sapendo che la sua altezza supera il metro e ottanta, 1,80 m.

Questi esempi evidenziano il nostro interesse nel capire come determinare la probabilità di un evento, dato che possediamo informazioni preliminari. Nel caso del lancio di un dado, potremmo chiederci quale sia la probabilità di ottenere un 4, se sappiamo che il risultato è un numero pari.

Questa conoscenza aggiuntiva, con ogni probabilità, cambierà le nostre assegnazioni di probabilità. Ad esempio, se sappiamo che l'esito è un numero pari, la probabilità di qualunque numero dispari diventa zero.

È proprio l'interazione tra le probabilità originali e le probabilità alla luce di questa conoscenza precedente che vogliamo descrivere e quantificare, introducendo così il concetto di probabilità condizionata.

Eventi congiunti e Probabilità Condizionata

Consideriamo due eventi. L'evento A è il nostro evento di interesse, mentre l'evento B rappresenta la conoscenza preliminare di cui disponiamo. Nel caso dell'esempio del lancio di un dado equo descritto nella sezione precedente, l'evento di interesse è A = \{4\} e l'evento che descrive la nostra informazione precedente è che l'esito sia un numero pari, cioè B = \{2, 4, 6\}.

Si noti che quando affermiamo che l'esito deve essere pari, non entriamo nel merito del perché ciò accada. Potrebbe darsi che qualcuno abbia osservato l'esito dell'esperimento e ci abbia trasmesso questa informazione parziale. La probabilità condizionata non si occupa delle ragioni di questa informazione preliminare, ma solo di come incorporarla nel nostro modello probabilistico.

Proseguendo con l'esempio del dado equo, la figura che segue illustra una sequenza tipica di lanci ripetuti. I risultati dispari sono indicati con linee tratteggiate e vanno ignorati.

Lanci di un dado. 50 ripetizioni.
Figura 1: Lanci di un dado. 50 ripetizioni.

Dalla figura notiamo che la probabilità di ottenere un 4 è circa 9/25 \approx 0.36, ossia circa 1/3, se adottiamo un'interpretazione frequentista della probabilità. Questo valore è stato ottenuto prendendo il numero totale di 4 ottenuti e dividendolo per il numero totale di 2, 4 e 6 ottenuti. In particolare:

\frac{N_A}{N_B} = \frac{9}{25}.

Un altro problema potrebbe essere quello di determinare la probabilità di A = \{1,4\} sapendo che l'esito è pari. In questo caso, dovremmo utilizzare \frac{N_{A \cap B}}{N_B} per essere certi di contare solo gli esiti che possono realmente verificarsi alla luce della nostra conoscenza B. Ad esempio, solo il 4 in \{1,4\} avrebbe potuto presentarsi. Se un esito non è in B, allora non verrà incluso in A \cap B e non sarà considerato in N_{A \cap B}.

Ora, sia S = \{1,2,3,4,5,6\} lo spazio campione, e sia N_S la sua dimensione. La probabilità di A sapendo che B si è verificato è:

\frac{N_{A \cap B}}{N_B} \;=\; \frac{N_{A \cap B} / N_S}{N_B / N_S} \;\approx\; \frac{P[A \cap B]}{P[B]}.

Questa è definita probabilità condizionata ed è indicata con P[A \mid B], per cui abbiamo:

P[A \mid B] \;=\; \frac{P[A \cap B]}{P[B]}.

Da notare che, per determinarla, abbiamo bisogno di P[A \cap B], la probabilità che sia A sia B si verifichino, ossia la probabilità dell'intersezione.

In modo intuitivo, la probabilità condizionata rappresenta la proporzione di volte in cui A e B si verificano sul totale delle volte in cui B si verifica. L'evento B = \{2,4,6\} costituisce un nuovo spazio campione, talvolta detto spazio campione ridotto. Il termine al denominatore nell'equazione di sopra serve a normalizzare le probabilità condizionate in modo che la probabilità dello spazio campione ridotto sia 1 (cioè si assume A = B nell'equazione come normalizzazione di riferimento).

Tornando al lancio del dado, la probabilità di ottenere un 4, sapendo che l'esito è pari, si calcola come:

A \cap B = \{4\} \cap \{2,4,6\} = \{4\} = A

e

B = \{2,4,6\}.

Se, per esempio, volessimo calcolare P[A \mid B] sapendo che:

P[A \cap B] = \frac{1}{6}, \quad P[B] = \frac{3}{6},

allora

P[A \mid B] = \frac{P[A \cap B]}{P[B]} \;=\; \frac{P[A]}{P[B]} \;=\; \frac{\frac{1}{6}}{\frac{3}{6}} \;=\; \frac{1}{3},

come previsto. Si noti che P[A \cap B] e P[B] vengono calcolate in base allo spazio campione originale, S.

L'evento A \cap B è generalmente chiamato evento congiunto, poiché entrambi gli eventi devono avere un'intersezione non vuota.

Analogamente, P[A \cap B] è definita probabilità congiunta, anche se non è altro che la probabilità dell'intersezione. Inoltre, P[A] è detta probabilità marginale, per distinguerla da quella congiunta e da quella condizionata. Il motivo di tale terminologia verrà approfondito a breve.

Nella definizione di probabilità condizionata, si assume che P[B] \neq 0. Altrimenti, sia dal punto di vista teorico sia da quello pratico, la definizione non avrebbe senso.

Definizione di Probabilità Condizionata

Adesso possiamo definire formalmente la probabilità condizionata.

Siano A e B due eventi di uno spazio di probabilità (\Omega, S, P). Volendo mettere in relazione gli eventi A e B, introduciamo una misura dell'incertezza residua su A sapendo che B si è verificato. Tale misura è fornita dalla cosiddetta probabilità condizionale di A dato B, indicata con P[A \mid B]:

Definizione

Probabilità Condizionale

Sia (\Omega, S, P) uno spazio di probabilità, e siano A, B \in S due eventi, con P(B) \neq 0.

La probabilità condizionale (o condizionata) di A dato B è:

P[A \mid B] \;=\; \frac{P[A \cap B]}{P[B]}.

Poiché A \cap B \subseteq B, si ha che:

P(A \cap B) \leq P(B)

e quindi

P(A \mid B) \leq 1

Ovviamente P(A \mid B) è sicuramente positiva perché rapporto di due quantità positive. Quindi:

P(A \mid B) \in [0, 1]

Vedremo che la probabilità condizionale soddisfa gli assiomi della probabilità di Kolmogorov e quindi definisce una legge di probabilità a tutti gli effetti.

Esempio: Altezze e pesi di studenti universitari

Una popolazione di studenti universitari presenta altezze H e pesi W, raggruppati in intervalli come mostrato nella tabella che segue:

Altezza (m) W1: 45–59 kg W2: 59–72.5 kg W3: 72.5–86 kg W4: 86–100 kg W5: 100–114 kg P[H_i]
H_1: 1.52–1.63 0.08 0.04 0.02 0 0 0.14
H_2: 1.63–1.73 0.06 0.12 0.06 0.02 0 0.26
H_3: 1.73–1.83 0 0.06 0.14 0.06 0 0.26
H_4: 1.83–1.93 0 0.02 0.06 0.10 0.04 0.22
H_5: 1.93–2.03 0 0 0 0.08 0.04 0.12
Tabella 1: Tabella dei pesi e delle altezze degli studenti universitari del problema.

La tabella riporta la probabilità congiunta che uno studente abbia una determinata altezza e un determinato peso, denotata con P[H_i \cap W_j]. Ad esempio, se si seleziona uno studente, la probabilità che la sua altezza sia compresa tra circa 1.63 m e 1.73 m e che il suo peso sia compreso tra circa 59 kg e 72.5 kg è 0.12.

Consideriamo ora l'evento che lo studente abbia un peso nell'intervallo 59–72.5 kg. Chiamiamo questo evento A e determiniamone la probabilità. Poiché

A = \{(H, W) : H = H_1, \ldots, H_5; \; W = W_2\},

è esplicitamente

A = \{(H_1, W_2), (H_2, W_2), (H_3, W_2), (H_4, W_2), (H_5, W_2)\}.

Dal momento che gli eventi elementari sono per definizione mutuamente esclusivi, in base al terzo assioma di Kolmogorov, la probabilità di A è la somma delle probabilità di ciascun evento elementare:

P[A] = \sum_{i=1}^5 P(H_i, W_2) = 0.04 + 0.12 + 0.06 + 0.02 + 0 = 0.24.

Successivamente, determiniamo la probabilità che il peso dello studente sia nell'intervallo 59–72.5 kg, sapendo che l'altezza è inferiore a 1.83 m. L'evento di interesse A è lo stesso di prima. L'evento che costituisce la nostra conoscenza preliminare è:

B = \{(H, W) : H = H_1, H_2, H_3; \; W = W_1, \ldots, W_5\},

così che

A \cap B = \{(H_1, W_2), (H_2, W_2), (H_3, W_2)\},

e dunque

P[A \mid B] = \frac{P[A \cap B]}{P[B]} = \frac{(0.04 + 0.12 + 0.06)}{(0.14 + 0.26 + 0.26)} = \frac{0.22}{0.66} = 0.33.

Osserviamo che è più probabile che lo studente pesi tra 59 e 72.5 kg se si sa in anticipo che la sua altezza è minore di 1.83 m. Da notare che per trovare P[B] abbiamo usato:

P[B] = \sum_{i=1}^{3} \sum_{j=1}^{5} P(H_i, W_j),

dove prima si sommano i valori su ogni riga per ottenere le probabilità P[H_i] riportate in tabella, e poi si sommano le P[H_i] per i=1,2,3. Analogamente, avremmo potuto sommare per colonne per ottenere P[W_j]. Le probabilità P[H_i] sono dette probabilità marginali.

È importante osservare che, utilizzando l'informazione sull'altezza inferiore a 1.83 m, la probabilità dell'evento è passata da 0.24 a 0.33. Può anche capitare il contrario. Se volessimo determinare la probabilità che lo studente abbia un peso tra 59 e 72.5 kg, sapendo invece che la sua altezza supera 1.83 m, allora definiamo

B = \{(H, W) : H = H_4, H_5; \; W = W_1, \ldots, W_5\},

così che

A \cap B = \{(H_4, W_2), (H_5, W_2)\},

e

P[A \mid B] = \frac{0.02 + 0}{0.22 + 0.12} = \frac{0.02}{0.34} = 0.058.

In questo caso, la probabilità condizionata è diminuita rispetto alla probabilità incondizionata P[A].

Relazione tra probabilità condizionata e probabilità marginale

Come abbiamo visto nell'esempio precedente, può accadere che la probabilità condizionata di un evento possa essere diversa dalla probabilità marginale dello stesso evento. Questo è dovuto al fatto che la probabilità condizionata tiene conto di informazioni aggiuntive che possono influenzare l'evento di interesse.

In particolare possono verificarsi tre casi:

  1. P[A \mid B] > P[A]: l'evento B aumenta la probabilità dell'evento A. In tal caso si dice che l'evento A è attratto dall'evento B.
  2. P[A \mid B] < P[A]: l'evento B diminuisce la probabilità dell'evento A. In tal caso si dice che l'evento A è respinto dall'evento B.
  3. P[A \mid B] = P[A]: l'evento B non ha alcun effetto sulla probabilità dell'evento A. In tal caso si dice che gli eventi A e B sono statisticamente indipendenti.

Quest'ultimo caso è particolarmente importante e verrà trattato in modo più dettagliato in seguito.

Definizione

Eventi Statisticamente Indipendenti

Due eventi A e B sono statisticamente indipendenti se la probabilità condizionata di A dato B è uguale alla probabilità marginale di A, cioè:

P[A \mid B] = P[A].

Probabilità Condizionata e Assiomi

Prima di procedere, desideriamo sottolineare che la probabilità condizionata è una probabilità a tutti gli effetti, poiché soddisfa tutti gli assiomi di Kolmogorov. Di conseguenza, tutte le regole che consentono di operare con le probabilità si applicano anche alle probabilità condizionate.

Per dimostrare che questi assiomi valgono, partiamo dall'ipotesi che essi siano veri per le probabilità "ordinarie" e poi verifichiamo:

  • Assioma 1:

    P[A \mid B] = \frac{P[A \cap B]}{P[B]} \;\geq\; 0

    poiché P[A \cap B] \geq 0 e P[B] \geq 0. Inoltre, P[B] \neq 0 per definizione di probabilità conditionata.

  • Assioma 2:

    P[\Omega \mid B] = \frac{P[\Omega \cap B]}{P[B]} = \frac{P[B]}{P[B]} = 1.
  • Assioma 3:

    Se A e C sono eventi mutuamente esclusivi, allora

    P[A \cup C \mid B]
    = \frac{P[(A \cup C)\,\cap\,B]}{P[B]}

    usando la proprietà distributiva otteniamo:

    = \frac{P[(A \cap B)\,\cup\,(C \cap B)]}{P[B]}

    E poiché A \cap B e C \cap B sono mutuamente esclusivi, si ha:

    (A \cap B) \cap (C \cap B) = \varnothing,

    quindi si può scrivere:

    P[A \cup C \mid B]
    = \frac{P(A \cap B) + P(C \cap B)}{P[B]}
    = P[A \mid B] + P[C \mid B].

Analogamente si può estendere la dimostrazione per un numero finito di eventi mutuamente esclusivi:

P\left[ \bigcup_{i=1}^n A_i \mid B \right] = \sum_{i=1}^n P[A_i \mid B].

Quindi, la definizione di probabilità condizionata è coerente con gli assiomi della probabilità ordinaria.

La conseguenza è che, fissata una legge di probabilità P[\cdot], possiamo definire una nuova legge di probabilità P[\cdot \mid B] che soddisfa gli stessi assiomi. Il verificarsi dell'evento B ci permette di raffinare la legge di probabilità iniziale.

Probabilità Condizionale e Spazio Campione

Possiamo applicare alla probabilità condizionale una seconda interpretazione.

In particolare, possiamo vedere la nuova legge di probabilità, P_B, come una legge di probabilità definita su di un nuovo spazio campione \Omega_B, dove \Omega_B = B.

Tale spazio campione è composto da tutti quegli eventi E tali che:

E = A \cap B, \quad A \in \mathcal{S}.

In base a questa interpretazione, il fatto di conoscere che si sia verificato l'evento B ci permette di restringere lo spazio campione originale \Omega a \Omega_B = B. In tal senso, stiamo eliminando tutti gli eventi che non appartengono a B e che, quindi, non possono essersi verificati.

Proviamo a dimostrare che P_B è una legge di probabilità su \Omega_B = B.

Dimostrazione

Consideriamo come spazio campione:

\Omega_B = B.

come insieme degli eventi, consideriamo:

\mathcal{S}_B = \{A \cap B : A \in \mathcal{S}\}.

e come legge di probabilità:

\forall E \in \mathcal{S}_B, \quad P_B[E] \triangleq \frac{P[A \cap B]}{P[B]}.

Una prima osservazione riguarda il complementare di un evento E \in \mathcal{S}_B. Esso va inteso rispetto a \Omega_B:

E^c = B \setminus E.

Per prima cosa, dobbiamo dimostrare che \mathcal{S}_B è un σ-campo.

  1. \mathcal{S}_B non è un insieme vuoto perché:

    \varnothing \in \mathcal{S}_B
  2. Se E \in \mathcal{S}_B, allora:

    E = A \cap B

    per un certo A \in \mathcal{S}. Quindi:

    E^c = B \setminus E
    E^c = B \setminus (A \cap B) = B \cap (A \cap B)^c
    = B \cap (A^c \cup B^c) = (B \cap A^c) \cup (B \cap B^c)
    = (B \cap A^c) \cup \varnothing
    = B \cap A^c

    Quindi E^c \in \mathcal{S}_B in quanto A^c \in \mathcal{S}.

    Pertanto, per ogni evento E \in \mathcal{S}_B, il suo complementare E^c appartiene a \mathcal{S}_B.

  3. Se E_1, E_2, \ldots \in \mathcal{S}_B, allora:

    E_1 = A_1 \cap B \quad E_2 = A_2 \cap B

    dove

    A_1, A_2 \in \mathcal{S}.

    Se consideriamo l'unione di questi eventi:

    E_1 \cup E_2 = (A_1 \cap B) \cup (A_2 \cap B)
    = (A_1 \cup A_2) \cap B \; \in \mathcal{S}_B

    in quanto

    A_1 \cup A_2 \in \mathcal{S}.

    quindi \mathcal{S}_B è chiuso rispetto all'unione.

    La stessa cosa si può dire per un unione numerabile di eventi in \mathcal{S}_B.

Queste tre proprietà appena dimostrate ci consentono di affermare che \mathcal{S}_B è un σ-campo.

Adesso, alla luce di questa informazione, dobbiamo dimostrare che la legge di probabilità P_B è coerente con gli assiomi della probabilità.

  1. Assioma 1:

    P_B[E] = \frac{P[A \cap B]}{P[B]} \geq 0

    poiché P[A \cap B] \geq 0 e P[B] > 0.

  2. Assioma 2:

    P_B[\Omega_B] = \frac{P[\Omega \cap B]}{P[B]} = \frac{P[B]}{P[B]}
    P_B[\Omega_B] = 1.
  3. Assioma 3:

    Se E_1, E_2 \in \mathcal{S}_B sono eventi mutuamente esclusivi, allora:

    P_B[E_1 \cup E_2] = \frac{P[(A_1 \cup A_2) \cap B]}{P[B]}
    = \frac{P[A_1 \cap B] + P[A_2 \cap B]}{P[B]}

    Tuttavia, A_1 \cap B e A_2 \cap B sono mutuamente esclusivi, quindi:

    P_B[E_1 \cup E_2] = \frac{P[A_1 \cap B]}{P[B]} + \frac{P[A_2 \cap B]}{P[B]}
    = P_B[E_1] + P_B[E_2]

Quindi i tre assiomi della probabilità sono soddisfatti e P_B è una valida legge di probabilità su \Omega_B = B.

In Sintesi

In questa lezione abbiamo introdotto il concetto di probabilità condizionata.

In particolare, abbiamo visto che:

  • la probabilità condizionata è una misura dell'incertezza residua su un evento A sapendo che un altro evento B si è verificato;
  • la probabilità condizionata è definita come il rapporto tra la probabilità dell'intersezione di A e B e la probabilità di B:

    P[A \mid B] = \frac{P[A \cap B]}{P[B]}.
  • la probabilità condizionata soddisfa gli assiomi della probabilità di Kolmogorov e definisce una legge di probabilità a tutti gli effetti;

  • la probabilità condizionata può essere interpretata come una legge di probabilità definita su un nuovo spazio campione, \Omega_B = B, che rappresenta tutti gli eventi che appartengono a B.
  • la probabilità condizionata può essere maggiore, minore o uguale alla probabilità marginale dell'evento A, a seconda che l'evento B aumenti, diminuisca o non abbia alcun effetto sulla probabilità di A.
  • due eventi A e B sono statisticamente indipendenti se la probabilità condizionata di A dato B è uguale alla probabilità marginale di A.