Un motiv Unele studii științifice pot fi greșite

Există o criza de replicabilitate în știință – „false pozitive” neidentificate sunt pătrunzând chiar și în cele mai importante reviste ale noastre de cercetare.

Un fals pozitiv este o afirmație că un efect există atunci când în realitate nu există. Nimeni nu știe ce proporție de lucrări publicate conțin rezultate atât de incorecte sau supraevaluate, dar există semne că proporția nu este mică.

Epidemiologul John Ioannidis a dat cea mai bună explicație pentru acest fenomen într-o lucrare celebră din 2005, intitulată provocator „De ce majoritatea rezultatelor cercetărilor publicate sunt false”. Unul dintre motivele pe care Ioannidis le-a dat pentru atâtea rezultate false a ajuns să fie numit „p hacking”, care decurge din presiunea pe care cercetătorii o simt pentru a atinge semnificația statistică.

Ce este semnificația statistică?

Pentru a trage concluzii din date, cercetătorii se bazează de obicei pe testarea semnificației. În termeni simpli, aceasta înseamnă calcularea „p valoare”, care este probabilitatea unor rezultate ca ale noastre dacă într-adevăr nu există efect. Dacă p valoarea este suficient de mică, rezultatul este declarat semnificativ statistic.

În mod tradițional, a p valoare mai mică de .05 este criteriul de semnificație. Dacă raportați un p<.05, este posibil ca cititorii să creadă că ați găsit un efect real. Poate, totuși, de fapt nu există niciun efect și ați raportat un fals pozitiv.


innerself abonare grafică


Multe reviste vor publica doar studii care pot raporta unul sau mai multe efecte semnificative statistic. Studenții absolvenți învață rapid că realizarea miticului p

Această presiune pentru a realiza pp hacking.

Momeala de p hacking

Pentru a ilustra p hacking, iată un exemplu ipotetic.

Bruce a terminat recent un doctorat și a obținut o bursă prestigioasă pentru a se alătura uneia dintre echipele de cercetare de top din domeniul său. Primul său experiment nu iese bine, dar Bruce rafinează rapid procedurile și conduce un al doilea studiu. Acest lucru pare mai promițător, dar tot nu oferă un p valoare mai mică de .05.

Convins că se gândește la ceva, Bruce adună mai multe date. El decide să renunțe la câteva dintre rezultate, care păreau în mod clar departe.

Apoi observă că una dintre măsurile sale oferă o imagine mai clară, așa că se concentrează pe asta. Încă câteva ajustări și Bruce identifică în sfârșit un efect ușor surprinzător, dar cu adevărat interesant, care realizează p

Bruce a încercat atât de mult să găsească efectul, încât el ştiut pândea undeva. Simțea și presiunea să lovească p

Există o singură captură: de fapt nu a avut niciun efect. În ciuda rezultatului semnificativ statistic, Bruce a publicat un fals pozitiv.

Bruce a simțit că își folosea cunoștințele științifice pentru a dezvălui efectul de pândire în timp ce a făcut diverși pași după ce și-a început studiul:

  • A adunat mai multe date.
  • A renunțat la niște date care păreau aberante.
  • A renunțat la unele dintre măsurile sale și s-a concentrat pe cele mai promițătoare.
  • El a analizat datele puțin diferit și a făcut câteva modificări suplimentare.

Problema este că toate aceste alegeri au fost făcute după văzând datele. Este posibil ca Bruce, inconștient, să fi ales cireșe – selectând și ajustând până când a obținut evazivul pp

Statisticienii au o vorbă: dacă torturiți suficient datele, vor mărturisi. Alegerile și ajustările făcute după ce au văzut datele sunt practici de cercetare îndoielnice. Folosirea acestora, în mod deliberat sau nu, pentru a obține rezultatul statistic corect este p hacking, care este un motiv important pentru care rezultatele publicate, semnificative statistic, pot fi fals pozitive.

Ce proporție dintre rezultatele publicate sunt greșite?

Aceasta este o întrebare bună și una diabolic de complicată. Nimeni nu știe răspunsul, care probabil va fi diferit în diferite domenii de cercetare.

Un efort amplu și impresionant de a răspunde la întrebarea pentru psihologia socială și cognitivă a fost publicat în 2015. Condus de Brian Nosek și colegii săi de la Centrul pentru Știință Deschisă, Proiect de replicabilitate: psihologie (RP:P) a avut 100 de grupuri de cercetare din întreaga lume, fiecare a efectuat o reproducere atentă a unuia dintre cele 100 de rezultate publicate. Per total, aproximativ 40 s-au replicat destul de bine, în timp ce în aproximativ 60 de cazuri studiile de replicare au obținut efecte mai mici sau mult mai mici.

Studiile de replicare 100 RP:P au raportat efecte care au fost, în medie, doar jumătate din dimensiunea efectelor raportate de studiile originale. Replicările efectuate cu atenție oferă probabil estimări mai precise decât este posibil p a piratat studiile originale, astfel încât am putea concluziona că studiile originale au supraestimat efectele reale cu, în medie, un factor de doi. Asta e alarmant!

Cum să eviți p hacking

Cel mai bun mod de a evita p hacking-ul este pentru a evita orice selecție sau ajustări după ce ați văzut datele. Cu alte cuvinte, evitați practicile de cercetare îndoielnice. În cele mai multe cazuri, cel mai bun mod de a face acest lucru este utilizarea preînregistrare.

Preînregistrarea necesită pregătirea în avans a unui plan detaliat de cercetare, inclusiv analiza statistică care urmează să fie aplicată datelor. Apoi preînregistrați planul, cu ștampila dată, la Cadru pentru Știință Deschisă sau un alt registru online.

"Atunci efectuează studiul, analizează datele în conformitate cu planul și raportează rezultatele, oricare ar fi acestea. Cititorii pot verifica planul preînregistrat și astfel să fie încrezători că analiza a fost specificată în prealabil, și nu p tocat. Preînregistrarea este o idee nouă și provocatoare pentru mulți cercetători, dar probabil că va fi calea viitorului.

Estimare mai degrabă decât p Valorile

Tentația de a p hack-ul este unul dintre marile dezavantaje de a te baza pe p valorile. Un altul este că pmai degrabă ca și cum ai spune că un efect există sau nu.

Dar lumea nu este alb-negru. Pentru a recunoaște numeroasele nuanțe de gri, este mult mai bine să le folosiți evaluare mai degrabă decât p valorile. Scopul estimării este de a estima mărimea unui efect – care poate fi mic sau mare, zero sau chiar negativ. În ceea ce privește estimarea, un rezultat fals pozitiv este o estimare care este mai mare sau mult mai mare decât valoarea reală a unui efect.

Să luăm un studiu ipotetic asupra impactului terapiei. Studiul ar putea, de exemplu, să estimeze că terapia dă, în medie, o scădere cu 7 puncte a anxietății. Să presupunem că calculăm din datele noastre a interval de încredere – un interval de incertitudine de fiecare parte a celei mai bune estimări – de [4, 10]. Acest lucru ne spune că estimarea noastră de 7 este, cel mai probabil, în aproximativ 3 puncte pe scara de anxietate a efectului adevărat - valoarea medie reală a beneficiului terapiei.

Cu alte cuvinte, intervalul de încredere indică cât de precisă este estimarea noastră. Cunoașterea unei astfel de estimări și a intervalului său de încredere este mult mai informativă decât oricare p valoare.

Mă refer la estimare ca fiind una dintre „noile statistici”. Tehnicile în sine nu sunt noi, dar folosirea lor ca modalitate principală de a trage concluzii din date ar fi pentru mulți cercetători nou și un mare pas înainte. De asemenea, ar ajuta la evitarea distorsiunilor cauzate de p hacking.

Despre autor

Geoff Cumming, profesor emerit, Universitatea Trobe

Acest articol a fost publicat inițial Conversaţie. Citeste Articol original.

Cărți asemănătoare:

at InnerSelf Market și Amazon