Nebo: jak vybrat špatná data a přijít ke špatnému závěru.
1Tři fakta
2Paradox
3Odkrytí
4Insight
Tři nezpochybnitelná fakta
Rok 1971. Kalifornie. Výzkumník Jacob Yerushalmy studuje zdraví novorozenců.
Matky nekuřačky jsou strašně nudné. Aspoň z hlediska statistiky — jejich děti jsou zdravé a předvídatelné. Kuřačky jsou ale mnohem zajímavější. Z důvodů, které vás za chvíli překvapí.
🚬
Fakt #1
Kouření snižuje porodní váhu
−6%
Děti kuřaček váží průměrně o 6 % méně. Jsou častěji klasifikovány jako nízká porodní váha (<2 500 g).
⚖️
Fakt #2
Nízká porodní váha je nebezpečná
21×
Mortalita zdravých novorozenců: 8 / 1 000. Mortalita dětí s nízkou porodní váhou: 170 / 1 000. To je 21× vyšší riziko.
📊
Závěr — logicky vyplývá
Tedy: kouření škodí novorozencům
✓
Kouření → nižší váha → vyšší mortalita. Kauzální řetězec. Nic překvapivého. Věda funguje.
Mortalita novorozenců (na 1 000 porodů, 1971)
Normální váha
8
8 ‰
Nízká váha
170
170 ‰
Zatím normální věda. Kouření je škodlivé. Nízká porodní váha je riziková. Obojí bylo dobře zdokumentováno. Žádné překvapení, žádná diskuze.
Počkejte... co?
Yerushalmy se zaměřil jen na děti s nízkou porodní váhou. A něco se rozbilo.
🔍 Výběr vzorku
Yerushalmy vybral ze svých dat jen děti s nízkou porodní váhou. Logická otázka: mají děti kuřaček i v této skupině horší výsledky?
97 ‰
Mortalita dětí nekuřaček (nízká váha)
→
50 ‰
Mortalita dětí kuřaček (nízká váha)
Mezi dětmi s nízkou porodní váhou mají děti kuřaček nižší mortalitu o téměř 50 %.
Děti kuřaček přežívají lépe než děti nekuřaček.
A co z toho vyplynulo? Yerushalmy napsal:
"These results raise doubt against the proposition that cigarette smoking acts as an exogenous factor." — Yerushalmy, 1971 — "Možná kouření dětem vůbec nevadí."
Média to pochopitelně milovala:
Family Health Magazine · 1971
„In defence of smoking moms"
Výzkum ukazuje, že obavy matek-kuřaček jsou přehnané.
Tisková zpráva · 1971
„Mothers needn't worry — smoking little risk to the baby"
Nový výzkum zpochybňuje dopad kouření na novorozence.
📰 Retrospektivní analýza z roku 2014 odhaduje, že tato chyba zdržela protikuřácká opatření o přibližně dekádu.
Jak je to možné? Fakta 1–3 jsou stále pravdivá. Kouření škodí. Nízká váha je riziková. A přesto — v podskupině dětí s nízkou váhou děti kuřaček přežívají lépe?
Kauzální diagram zachraňuje situaci
Výzkumníci Hernández-Díaz, Schisterman a Hernán v roce 2006 nakreslili jeden diagram — a bylo jasno.
Dvě věci mohou způsobit nízkou porodní váhu:
Kolider = uzel do kterého vcházejí dvě šipky.
Nízká porodní váha je kolider: dvě příčiny ji mohou způsobit — kouření matky, nebo jiné rizikové faktory (vrozené vady, infekce, komplikace).
Co se stane, když vyberete jen děti s nízkou váhou?
Logika výběru
→Víme, že dítě má nízkou porodní váhu. (Podmínka výběru.)
→Zjistíme: matka kouřila. → To vysvětluje nízkou váhu! Kouření je pravděpodobná příčina.
→Pokud kouření vysvětluje nízkou váhu → jiné příčiny jsou méně pravděpodobné.
→Jiné příčiny (vrozené vady) jsou horší než kouření.
∴Děti kuřaček s nízkou váhou jsou v relativně lepším zdravotním stavu — ne proto, že kouření je dobré, ale proto že alternativní příčina je horší.
🍞
Berksonův spálený toast
Jdete do kuchyně a cítíte kouř. Vidíte spálený toast v toustovači. Jste ulevenými. Ze všeho, co může způsobit kouř v kuchyni, je spálený toast nejlepší zpráva.
Lékař vidí dítě s nízkou porodní váhou — a zjistí, že matka kouřila. Jde o špatnou zprávu, která je relativně dobrou zprávou. Vysvětluje nízkou váhu jinak než vrozené vady.
Berksonův Paradox — co to skutečně je
Nebo: proč vybírat kolider jako filtr je statistická sebevražda.
Feynmanova verze: Pokud může jednu věc způsobit více příčin, a vy vybíráte jen případy kde ta věc nastala — pak přítomnost jedné příčiny dělá ostatní příčiny méně pravděpodobnými. I když příčiny spolu nemají nic společného.
Berksonův Paradox v přírodě
🍔
Paradox obezity
Obézní pacienti s onemocněním ledvin žijí déle
Obezita → onemocnění ledvin (jedna příčina). Jiné faktory → onemocnění ledvin (druhá příčina). Pokud vybíráte jen pacienty s onem. ledvin, obezita jako příčina = méně závažná prognóza.
📚
Film vs. kniha
Film podle knihy je vždy horší než kniha
Film se natočí buď protože kniha je skvělá, nebo protože příběh je komerčně atraktivní. Pokud víme, že film existuje a není skvělý — kniha musí být komerčně atraktivní, ne nutně dobrá.
🍕
Špinavá restaurace
Nejlepší kebab vypadá nejhůř
Restaurace přežije buď protože má dobré jídlo, nebo protože má dobrou polohu. Pokud je na špatné adrese a stále existuje — jídlo musí být výjimečné.
Jak poznat Berksonův Paradox
✓Výzkum říká "mezi pacienty s X..." nebo "u zákazníků kteří..." — výběr podskupiny je rizikový.
✓Nakreslte kauzální diagram. Existují dvě šipky vedoucí do jednoho uzlu? → Možný kolider.
✓Výsledek je překvapivý a kontraintuitivní. Média to milují. Statistika by ale měla zvýšit podezření.
✗Kontrolovat za kolider v regresním modelu — to problém zhorší, ne zlepší.
💡 Výzkum Yerushalmyho z roku 1971 se šíří médiemi. Dekáda zpoždění protikuřáckých kampaní. Kolik životů to stálo? Statistická chyba — ne podvod. Prostá nevědomost o kolideru.
Dokonalý recept na ideální rande: Najdi ošklivého (bude hodný — statisticky). Vezmi ho do restaurace na špatné adrese (jídlo bude výborné). Objednej si to co nejhůř zní (to nejlepší přežívá jen díky chuti). Pak jdi na film podle špatné knihy. Berksonův Paradox ti zaručí perfektní večer.
Přednáška: Allen Downey — Probably Overthinking It, Kapitola 7: Causation, Collision and Confusion Google Tech Talk · 2023