P-value. Un termine oscuro per molti, ma pane quotidiano per gli scienziati. Perché si tratta di una grandezza statistica usata per stabilire la significatività dei risultati di uno studio scientifico. Una discriminante, per dirla il più semplicemente possibile, tra un risultato positivo e uno negativo. Sul cui uso però non tutti, all’interno della comunità scientifica, sono d’accordo: da tempo, infatti, gli scienziati dibattono sull’argomento, chiedendosi soprattutto quale sia il più corretto “valore di soglia”, ovvero il valore di p sotto il quale si possa rifiutare l’ipotesi che i risultati ottenuti nello studio siano casuali. L’ultimo capitolo della saga è stato appena scritto da Daniel Lakens, della Eindhoven University of Technology nei Paesi Bassi, che in un articolo firmato da oltre 100 colleghi in tutto il mondo ha proposto una sorta di nuove linee guida per l’utilizzo e l’interpretazione del p-value nei lavori scientifici, rispondendo a polemiche sollevate lo scorso anno dagli esperti dell’America Statistical Association (Asa), che avevano proposto di abbassare il valore soglia del p-value negli studi scientifici.
Dopo una settimana conto quante persone sono dimagrite in ciascuno dei due gruppi. Se nel gruppo delle banane dimagriscono di più rispetto al gruppo senza banane, possiamo concludere che le banane fanno dimagrire. In realtà, però, non posso dirlo, perché in moltissimi casi i risultati sono intrinsecamente statistici (c’è una grossa componente casuale, dovuta a fattori che non posso controllare). Magari per puro caso nel gruppo delle banane hanno deciso di fare esercizio fisico. E come si fa a sapere se è solo una coincidenza? A rispondere, e quindi introdurre il p-value, è stato il biologo Ronald Fischer: ovvero come calcolare un numero che, data una ipotesi di partenza e i nostri dati, ci dice quanto è probabile ottenere una differenza tra due gruppi pari o superiore a quella osservata. Nell’esempio delle banane che fanno dimagrire, l’ipotesi di partenza è che non ci sia alcun effetto (e che quindi i risultati siano semplicemente dovuti al caso). Il p-value ci dice quanto è probabile che, se non ci fosse nessun effetto, per puro caso troviamo una differenza tra i due gruppi pari o maggiore a quella che osserviamo. Se il p-value è molto piccolo, si dice che l’effetto è significativo. Fischer consigliava come soglia 0,05, ovvero considerare significative le differenze sotto il 5% di probabilità.
A settembre scorso, un’équipe di scienziati si era occupata del p-value, proponendo di abbassarne la soglia sotto lo 0,005 anziché lo 0,05 (il valore correntemente utilizzato). Ma Larkens non è d’accordo: nel suo paper, sostiene che sarebbe una cattiva idea perché richiederebbe dimensioni del campione molto più grandi, rendendo impossibile quindi la fattibilità di molti studi. Lakens ha così proposto un’alternativa: un articolo, che sarà accettato da Nature Human Behaviour, lo stesso che ha pubblicato il documento originale che proponeva la soglia più bassa, frutto di 100 scienziati di tutto il mondo, da grandi nomi a dottori di ricerca, studenti e anche alcuni non accademici che hanno partecipato per due mesi con le loro discussioni in un documento condiviso.
La diversità tra i partecipanti è stata sorprendente, racconta Lakens. Alcuni hanno sostenuto che non potevano permettersi di iniziare grandi studi necessari per soddisfare il nuovo standard o non erano in grado di reclutare abbastanza partecipanti allo studio. Alcuni hanno affermato che il p-value inferiore potrebbe costringere i ricercatori a ricorrere ai cosiddetti “campioni di convenienza” e alcuni hanno notato che studi più ampi hanno meno probabilità di essere replicati, e un p-value più basso potrebbe rendere i ricercatori meno inclini a rispondere a domande difficili.
Ma forse l’argomento principale, concordavano i partecipanti, era che 0,005 è arbitrario quanto 0,05, e che la soglia dipende da ciò che già si sa su un argomento e dai rischi associati nell’ottenere una risposta sbagliata. Per esempio, si potrebbe accettare una maggiore probabilità di risultati falsi positivi in uno studio preliminare, mentre una sperimentazione di farmaci potrebbe richiedere un p-value inferiore.“È stato incredibile vedere come il documento si sia evoluto”, afferma l’esperto. “Le persone hanno aggiunto, eliminato e aggiunto di nuovo le loro opinioni. Quando abbiamo dovuto accorciare l’articolo, un paio di autori hanno deciso di rimuovere tutto ciò che non era necessario. E mentre la bozza si avvicinava alla versione finale, alcuni partecipanti si sono ritirati, alcuni perché erano in disaccordo con il testo, ma alla fine in 87 hanno accettato di essere co-autori”.
Il documento raccomanda, in sintesi, di eliminare l’etichetta “statisticamente significativo”: i ricercatori dovrebbero invece descrivere e giustificare le loro decisioni in merito alla progettazione dello studio e all’interpretazione dei dati, compresa la soglia statistica. “A volte, p-value sarà 0,05, a volte 0,005, a volte 0,10”, afferma Lakens. Il dibattito, comunque, è destinato a continuare.
Via: Wired.it