“Rethinking” vědeckého výzkumu

Na tomto místě se obvykle můžete dočíst o výsledcích zajímavých studií. A protože každý den takových studií vycházejí stovky, málokdy se někdo pozastaví nad tím, jak by měla vypadat studie, která bude nejen zajímavá, ale především hodnotná: teda, že skutečně rozšíří naše poznání o něčem důležitém. Dělat vědu a dělat ji pořádně totiž zdaleka není to samé a druhý způsob často šanci na publikaci spíše snižuje, což nepřekvapí nikoho, kdo četl aspoň něco o replikační krizi. A že i výzkumnící mohou někdy jen slepě opakovat smysluproste rituály nepřekvapí nikoho, kdo zná Feynmanovu přednášku.

Tento raz proto místo psaní o výsledcích výzkumu představíme způsob, jak o výzkumu lépe přemýšlet (a následně jej i lépe provádět). Richard McElreath na svém blogu píše:

“JEDNA. Co se vlastně pokoušíme pochopit? Mnoho výzkumů si klade za cíl řešit nějaký velký problém, vyhledává data, která jsou s problémem nějak (vzdáleně) spojená, spočítá (adjustované) korelace a pak vypráví příběh o statisticky významných zjištěních. Na konci však často není jasné, co jsme doopravdy zjistili, jelikož na počátku nebyl stanoven jasný kvantitativní cíl. Je nutné jasně definovat fenomén, alternativní vysvětlení a určit, které statistické odhady nám pomohou tyto alternativy rozlišit nebo je zpřesnit.

DVA. Jaká data jsou ideální pro dosažení cílů z bodu JEDNA? Odpověď musí být podložena explicitním, logickým či výpočetním modelem zkoumaného jevu. Dokažte to. Nespokojte se s odkazem na intuici. Simulujte nebo odvoďte. Ano, vše bude záviset na předpokladech. Ale závěr, který na žádných předpokladech nezávisí, je zřídka k něčemu. Samotná data nejsou dostatečná.

TŘI. Jaká data máme k dispozici? Jaká data můžeme získat? Jak se tyto zdroje dat liší od ideálního stavu popsaného v bodě DVA? Co nám chybí? Existují nějaké náhradní / proxy proměnné? Jaké jsou zdroje chyb? Jaké jsou příčiny chybějících dat a chyb měření? Existuje selekční zkreslení? Téměř vždy. Proto je třeba jej také modelovat. Tyto předpoklady pro generativní modelování jsou nezbytné pro následující krok.

ČTYŘI. Lze najít způsob, jak statisticky využít body DVA a TŘI pro pochopení bodu JEDNA? I toto musí být prokázáno pomocí logiky. Přístupy založené na ad hoc, negenerativních odhadech mohou fungovat, pokud máte štěstí, ale jejich historie úspěšnosti za moc nestojí. Prokážte, že analýza bude fungovat na syntetických datech, nebo alespoň co nejlepším způsobem popište relevantní problémy. Nicméně běžná taktika “nemůžeme vyloučit confounding, ale zde jsou korelace a na základě nich chceme přijímat opatření, přičemž budeme předpokladat, že zjištěné vztahy jsou kauzální”, není obhajitelná ani etická.”

Pokud se chcete dozvědět víc, online nalznete kompletní materiály k McElreathově kurzu “Statistical rethinking”, včetně online přednášek, protože ve 21. století prakticky nic nikomu nebrání, aby se o čemkoliv učil od těch nejlepších a navíc zcela zdarma.

Napsat komentář Zrušit odpověď na komentář