Korelacja a przyczynowość — dlaczego "lody powodują utonięcia"?
W świecie statystyki często mówi się o korelacjach, czyli związkach między dwiema zmiennymi. Czasem słyszymy zaskakujące nagłówki w stylu:
"Wzrost spożycia lodów powoduje wzrost liczby utonięć."
Brzmi absurdalnie? Słusznie. Ten przykład to klasyczna ilustracja zasady, że korelacja nie oznacza przyczynowości. Choć liczby mogą pokazywać związek między dwoma zjawiskami, nie oznacza to, że jedno z nich jest przyczyną drugiego.
Przyjrzyjmy się temu dokładniej.
Czym jest korelacja?
Korelacja to statystyczna zależność między dwiema zmiennymi. Jeśli wraz ze wzrostem jednej zmiennej rośnie lub maleje druga — mówimy, że występuje korelacja:
- Dodatnia korelacja — obie zmienne rosną razem (np. wzrost temperatury i sprzedaży napojów chłodzących).
- Ujemna korelacja — jedna zmienna rośnie, druga maleje (np. wzrost aktywności fizycznej i spadek masy ciała).
Korelację najczęściej mierzymy współczynnikiem r Pearsona, który przyjmuje wartości od -1 (pełna korelacja ujemna) do +1 (pełna korelacja dodatnia). Wartość bliska 0 oznacza brak liniowego związku.
Korelacja ≠ Przyczynowość
Kluczowe jest zrozumienie, że fakt współwystępowania dwóch zjawisk nie dowodzi, że jedno powoduje drugie. Możliwe są różne scenariusze:
- A powoduje B
- B powoduje A
- Istnieje trzecia zmienna, która wpływa na A i B jednocześnie
- Związek jest czysto przypadkowy
Brak rozróżnienia między korelacją a przyczynowością prowadzi do błędnych wniosków — co w badaniach naukowych, medycynie czy ekonomii może mieć poważne konsekwencje (Freedman, 1999).
Lody i utonięcia — klasyczny przykład fałszywej korelacji
Wróćmy do naszego przykładu: "Więcej osób je lody, więcej osób tonie". Statystyki to potwierdzają — w okresie letnim obie wartości rosną. Czy to znaczy, że lody powodują utonięcia? Oczywiście, że nie.
Wyjaśnienie jest proste:
→ Lato to zmienna trzecia (tzw. zmienna zakłócająca), która wpływa zarówno na spożycie lodów, jak i liczbę osób kąpiących się w jeziorach czy morzu. Więcej ludzi nad wodą = więcej utonięć. Więcej słońca = większa ochota na lody.
To klasyczny przykład, który pokazuje, że korelacja może wynikać z działania wspólnej przyczyny, a nie z bezpośredniego wpływu jednej zmiennej na drugą.
Fałszywe korelacje — zabawne, ale niebezpieczne
Internet pełen jest przykładów absurdalnych korelacji, np.:
- Spożycie sera mozzarella a liczba doktoratów z inżynierii (Vigen, 2015).
- Liczba piratów a globalne ocieplenie (przykład parodystyczny używany przez Kościół Latającego Potwora Spaghetti).
Choć takie zestawienia bywają zabawne, w rzeczywistości błędna interpretacja korelacji może prowadzić do poważnych pomyłek — np. w badaniach medycznych czy ekonomicznych (Pearl, 2009).
Jak wykryć prawdziwą przyczynowość?
Aby ustalić, czy między zjawiskami istnieje związek przyczynowo-skutkowy, stosuje się różne metody, m.in.:
- Eksperymenty kontrolowane (np. badania kliniczne z grupą placebo).
- Analizy statystyczne z uwzględnieniem zmiennych zakłócających.
- Modelowanie przyczynowe, np. za pomocą diagramów DAG (Directed Acyclic Graphs).
- Metody quasi-eksperymentalne, np. analiza różnic w różnicach (Difference-in-Differences).
Jak podkreśla Judea Pearl, jeden z czołowych badaczy w tej dziedzinie, zrozumienie przyczynowości wymaga nie tylko danych, ale też solidnego modelu teoretycznego (Pearl, 2009).
Podsumowanie
Korelacja to nie to samo co przyczynowość. Dane mogą wskazywać na związek między dwoma zjawiskami, ale zanim uznamy, że jedno powoduje drugie, musimy dokładnie zbadać temat i poszukać innych możliwych wyjaśnień.
W świecie analizy danych, marketingu czy nauki to zasada, którą warto mieć zawsze z tyłu głowy — by nie dać się złapać na "lodową pułapkę".
Źródła:
- Freedman, D. A. (1999). "From association to causation: Some remarks on the history of statistics." Statistical Science, 14(3), 243–258. https://doi.org/10.1214/ss/1009212245
- Pearl, J. (2009). Causality: Models, Reasoning, and Inference (2nd ed.). Cambridge University Press. https://doi.org/10.1017/CBO9780511803161
- Vigen, T. (2015). Spurious Correlations. Hachette Books.