Pro-Test Italia

Errori statistici comuni degli oppositori

Arriva, come promesso, un approfondimento statistico di cui effettivamente si sentiva il bisogno. L’uso della statistica che fanno le fonti anti-Sperimentazione Animale infatti è particolarmente insidioso: da un lato sfruttano il fatto che la statistica e gli strumenti matematici ad essa collegati sono inaccessibili a quasi tutti i profani e anche a gran parte degli addetti, e dall’altra utilizzano il carisma dei numeri e delle fonti, rispetto ai quali si tende a nutrire una certa riverenza, per far passare informazioni scorrette.

Qui di numeri ne metteremo meno possibile, ma quando li metteremo saranno sotto forma di calcoli e non calati dal cielo come dogmi divini; così come citeremo poche fonti o meglio, nessuna. Come l’articolo sulla validazione, questo è uno scritto di approfondimento sul metodo, in particolare sul metodo statistico senza il quale scienza oggi non se ne può fare; e la statistica fortunatamente non è un’opinione. Quindi questo sarà un testo che si difende da solo coi calcoli, per così dire.

Andare a raccogliere tutti i singoli numeri citati a sproposito dalle controparti sarebbe un’impresa improba e d’altro canto non lascerebbe molto il segno: potranno sempre tirar fuori nuovi numeri fuori contesto, o trovare nuove interpretazioni campate in aria di quelli vecchi. Pro-test al regalare un pesce a chi ha fame preferisce insegnargli a pescare; per questo il seguente articolo più che altro punterà il dito contro gli errori che gli anti-SA comunemente commettono e sui quali basano le loro teorie, permettendo al lettore di riconoscerli da solo quando li vedrà. Tali errori, sorprendentemente, sono relativamente pochi. Pochi, ma estremamente gravi.

A mo’ di indice, li elenchiamo subito tutti quanti:

Pretendono di utilizzare un solo parametro matematico per la valutazione della bontà di un test.

Usano spesso come parametro in questione l’accuratezza del test

Confondono la correlazione negativa con la non-correlazione

Interpretano male il significato del Valore Predittivo Positivo e il suo rapporto con la prevalenza

Mediano fra di loro gli esiti di diversi test per ottenere una valutazione complessiva

Valutano l’utilità di un test in termini assoluti

Gli errori presentati non sono in ordine di importanza, anzi direi che l’ultimo è forse quello più grave e sistematico.

Prima di passare a spiegare questi errori sarà necessario spiegare le basi logiche per la valutazione di un test, e questa parte purtroppo i profani e non solo loro tendono a trovarla complessa e magari noiosa. Consigliamo a chi voglia approfondire per conto proprio la lettura di qualche testo di statistica medica o, più banalmente, anche di Wikipedia; noi cercheremo di dare qualche coordinata generale e di essere il più discorsivi possibile, così da dover somministrare poca matematica e non annoiare.

Possiamo metterla così: supponiamo di avere un test in grado di discriminare fra due condizioni, ad esempio presenza o assenza di una malattia oppure, per usare un esempio per noi più calzante, efficacia o inefficacia di un farmaco. Questo test idealmente dovrebbe dare una risposta che corrisponde sempre a verità, ovvero rispondere sempre “sì” quando il farmaco funziona e “no” quando non funziona. Il test perfetto non sbaglia mai: ogni volta che il farmaco non funziona dice “no” (o un altro segno che interpretiamo come “no”), ogni volta che il farmaco funziona dice “sì” (o un altro segno che interpretiamo come sì); ovvero ogni misurazione sarà Vera. Un test ideale ad ogni misurazione dà solo Veri Positivi (dice sì e indovina) e Veri Negativi (dice no, e indovina anche qui).

Disgraziatamente, il test perfetto è inesistente,  è solo un’ideale. I test reali a volte sbaglieranno e ci diranno di sì quando è no, e di no quando è sì, ovvero daranno dei cosiddetti Falsi Positivi e Falsi Negativi.

Visto che tutti i test reali commettono errori, si pone il problema di valutare quanto un test funziona e per quali scopi, e fino a che punto gli errori sono accettabili. I parametri che si devono prendere in considerazione per compiere la valutazione sono cinque[1]:

La prevalenza: la frequenza in popolazione della caratteristica che vogliamo individuare. Nell’esempio dei farmaci, la popolazione sono tutte le sostanze farmacologicamente attive della terra, la prevalenza è la frazione di queste sostanze che hanno un uso che a noi interessa.

La sensibilità: la frazione dei Veri Positivi sul totale dei casi che mostrano la caratteristica di interesse. Nell’esempio dei farmaci, prendiamo tutti i farmaci che funzionano e contiamo quanti di essi in percentuale sono stati correttamente identificati dal test.

La specificità: come la sensibilità, ma per i “no”: la frazione di Veri Negativi sul totale dei casi che NON mostrano la caratteristica di interesse. Nell’esempio dei farmaci, prendiamo tutti i farmaci che NON funzionano e contiamo quanti di essi in percentuale sono stati correttamente identificati dal test come non funzionanti.

Il Valore Predittivo Positivo (PPV): La frazione dei Veri Positivi sul totale dei positivi al test. Prendiamo tutti i farmaci che secondo il test funzionano e contiamo quanti di essi effettivamente funzionano.

Il Valore Predittivo Negativo (PPN): La frazione dei veri Negativi sul totale dei negativi al test. Prendiamo tutti i farmaci che secondo il test non funzionano e contiamo quanti di essi effettivamente non funzionano.

Un errore frequente dei profani che è meglio evitarci fin da subito consiste nel pensare che PPV e sensibilità (e PPN e specificità) siano la stessa cosa. In realtà misurano cose completamente diverse, e possiamo rendercene conto con un esempio: supponiamo di avere una popolazione di 99 farmaci inutili e 1 efficace, e prendiamo un test-truffa che si limiti a dire sempre “sì” (es.: monetina truccata con due teste).

Il totale dei Veri Positivi qui è 1. Il totale dei farmaci che funzionavano qui è… pure 1! Questo test ha una sensibilità del 100%! Straordinario!

Ma un momento, andiamo a vedere il PPV: Veri Positivi… 1. Ma quanti positivi avevamo? Quante volte aveva detto “sì”? 100! Abbiamo un PPV dell’1%, che in questo caso (e sottolineo, in questo caso, in altri potrebbe non essere così) è una performance molto povera, specie a fronte dell’altissima sensibilità.

Invertendo l’esempio, possiamo avere un test con alto PPV e bassa sensibilità: supponiamo che abbiamo una popolazione di 50 farmaci efficaci e 50 inefficaci. Diciamo che abbiamo un test che, per ipotesi, dice due soli sì, ma sono esatti, e dice no a tutto il resto. PPV… 100%: ha detto due sì ed erano entrambi giusti. È anche vero però che si è fatto scappare 48 farmaci efficaci, totalizzando una sensibilità che è solo del 4%.

Attraverso questo semplice esempio abbiamo già spiegato perché il primo errore non è ammissibile:

Non si può valutare la bontà di un test attraverso uno solo dei quattro parametri

Quale che esso sia. Tuttavia ogni parametro ci dice qualcosa e ci spiega un possibile utilizzo del test. Ad esempio, supponiamo nuovamente di avere un solo farmaco che funzioni su cento: un test molto specifico rischierebbe di non trovarlo mai; mentre un test supersensibile, anche se magari potrebbe avere un basso PPV, ci può essere molto utile. In generale, bisogna conoscere tutti e quattro i parametri per rendersi conto dell’utilità e delle applicazioni del test.

Proseguiamo quindi con l’errore numero due, strettamente collegato a questo:

Non va bene utilizzare l’accuratezza per valutare la bontà del test

Questa è una questione che può apparire un po’ buffa, ma l’andiamo a spiegare e diventerà senz’altro chiara.

Vale in generale la regola che non si può dare un singolo numero come valutazione della bontà di un test. Ci si può avvicinare a questo risultato soltanto ricorrendo a calcoli piuttosto complessi, come l’F-score di un test, che richiede infatti di conoscere vari parametri per essere calcolato. Gli anti-SA invece di solito tagliano la testa al toro e pretendono di utilizzare un parametro solo e di facile calcolo, per la precisione la cosiddetta accuratezza.

Non ho nominato l’accuratezza fra i cinque parametri di prima per due ragioni: la prima è che si calcola molto intuitivamente a partire da solo due degli altri valori, e la seconda è che di solito non si usa per valutare i test, tanto meno da sola.

L’accuratezza si definisce come il totale dei Veri sul totale della popolazione, e si ricava quindi facilmente da sensibilità e specificità, o anche da PPV e PPN. Molto banalmente, si calcola quante volta il test ci ha azzeccato e quante sono le prove totali, quindi si fa il rapporto. Ci dice semplicemente quante volte il test ci ha azzeccato sul totale. Sembra semplice e intelligente, invece è un metodo pesantemente inadeguato. Esempio esplicativo: 99 farmaci inutili, 1 solo farmaco che funziona. Usiamo un test che si limita a dire sempre e comunque “no” (ad esempio una moneta truccata con due croci). Quante volte ci azzecca questo test sul totale?

Esatto: accuratezza del 99%. Per una moneta truccata è un esito abbastanza sorprendente, “indovina” veramente molto. Ma se ci pensate è intuitivo, non basta vedere quante volte si indovina, bisogna sempre mettere a confronto questo risultato con le probabilità di indovinare per puro caso, che nel mio esempio sono altissime.

L’accuratezza sgarra in maniera particolarmente evidente quando le classi sono molto sbilanciate per dimensioni, appunto come in 99 contro 1; ma in realtà può farci sbagliare parecchio anche con squilibri meno marcati. Ora provate a pensare a quanto è difficile scovare un farmaco per caso: gli anti-SA pensano che gli animali non servano a niente, e dunque sostengono che fare i test o non farli sia esattamente lo stesso. Supponiamo che abbiano ragione…  allora vuol dire che trovare un farmaco efficace per caso è davvero incredibilmente difficile, vuol dire che 99 contro 1 è assai plausibile come figura, anzi, probabilmente il numero reale è molto sotto l’1%… Siamo in uno di quei casi in cui l’accuratezza proprio non si può usare!

Non capiscono la differenza fra non-correlazione e correlazione negativa

Questo è un errore un po’ fesso, ma piuttosto comune fra i nostri oppositori, che fa il paio con la deleteria tendenza ad usare l’accuratezza come unico o principale parametro di valutazione del test. Consiste nel credere che man mano che scende l’accuratezza, la correlazione fra gli esiti del test e la caratteristica che cerchiamo di individuare cali anch’essa indefinitamente.

Tecnicamente è vero, la correlazione cala indefinitamente, nel senso che a un certo punto inizia ad assumere valori negativi. Ma a quel punto noi possiamo invertire il segno e tutto torna magicamente come prima!

Mi spiego come si deve con un esempio, come ho fatto finora: supponiamo di avere una monetina magica che risponde “testa” quando il farmaco funziona e “croce” quando non funziona, il tutto con un’accuratezza dell’80%. Alta, vero? Vuol dire che il comportamento della moneta è influenzato positivamente dalla caratteristica che stiamo studiando: la tendenza di questa moneta a dire “testa” cresce se il farmaco funziona, ovvero correla positivamente col funzionamento del farmaco.

Adesso prendiamo un’altra monetina, una monetina “cattiva”: questa monetina funziona come quella di sopra, ma con un’accuratezza soltanto del 20%. Potremmo dire che questa moneta è cattiva, non funziona, anzi, addirittura ci depista. Forse potremmo dire tutto questo, ma di sicuro è anche lei una monetina magica, perché una monetina normale avrebbe un’accuratezza che è sempre del 50%. Un’accuratezza così bassa, 20%, non vuol dire che la moneta non funziona, vuol dire che funziona al contrario dell’altra: dà “testa” quando il farmaco NON funziona, e croce quando funziona.  Ovvero se consideriamo “testa” come il nostro polo positivo, il suo comportamento correla negativamente con il funzionamento del farmaco. Ma la scelta di considerare “testa” come il nostro polo positivo, il nostro “sì”, è arbitraria e convenzionale. Possiamo benissimo invertire il segno e decidere che “croce” d’ora in poi sarà il sì. Ecco che abbiamo una monetina che ha di nuovo un’accuratezza dell’80% .

Basta questo breve ragionamento per smontare la teoria secondo la quale un’accuratezza, per esempio, del 30% indicherebbe che il test non funziona. Al massimo indicherebbe che funziona al contrario, e a quel punto ci basterebbe interpretarlo al contrario per avere un test con’accuratezza del 70%.

Ma che i test sugli animali funzionino al contrario è idea abbastanza assurda da spaventare anche i più temerari “antivivisezionisti”, ed è anche inutile alla loro causa (ne dedurremmo s che dobbiamo continuare i test su animali, ma interpretare i risultati al contrario), quindi non credo che oseranno sostenerla. Più verosimilmente, la realtà  è che quando si tirano fuori cifre di accuratezza che appaiono troppo basse l’accuratezza è stata calcolata male (molti ad esempio conteggiano arbitrariamente fra i “fallimenti” della sperimentazione animale quei casi in cui alla sperimentazione non è seguito un trial clinico, e quindi in realtà mancano riscontri, ma non abbiamo riscontri negativi), e non si è tenuto conto della generale inadeguatezza del suddetto parametro per valutare la performance del test.

La cattiva interpretazione del PPV

Spesso e volentieri gli anti-SA citano determinati valori di PPV, apparentemente bassi (es. 5%, 1%) facendoli passare come un fallimento del test. Ma addirittura, sono in grado di far passare per fallimenti anche valori di PPV del tutto rispettabili, come il 50%. Lo slogan vecchio come il mondo, che tristemente ha trovato spazio perfino su alcune riviste scientifiche, è che un PPV del 50% sarebbe “come tirare una monetina”.

Ma abbiamo mai provato a calcolare quale sarebbe il PPV di una monetina?

Proviamo. Diciamo che abbiamo una prevalenza del 20%, ok? Testa vuol dire sì, croce vuol dire no. La monetina, che va completamente a caso, nella metà dei casi risponde sì, nell’altra metà no, e in questo non è in grado di distinguere i venti farmaci che funzionano dagli 80 che non funzionano. Quindi abbiamo 20 farmaci che funzionano, il risultato che ci aspettiamo dalla monetina è che dica “sì” dieci volte e “no” le altre dieci. Prendiamo invece i farmaci non funzionanti: dirà “sì” per quaranta volte e “no” per altre quaranta. Calcoliamo il PPV: quante volte ha detto sì? 10+40. Quante di queste erano azzeccate? 10. Il PPV è la frazione 10/(10+40)=10/50=20%. Come la prevalenza.

La regola è generale: il PPV di una moneta, come il PPV di qualunque altro test completamente casuale, sarà uguale alla prevalenza. Sempre e comunque. Questo significa che se la prevalenza è del 50%, la monetina avrà un PPV del 50%, se la prevalenza è dell’1%, così sarà anche il PPV della monetina, 1%[2].

Cosa pensereste, quindi, se con la vostra monetina, a fronte di una prevalenza dell’1%, aveste un PPV del 50%? Ve lo dico io: pensereste che avete una monetina magica, una monetina che in qualche modo ha una “preferenza” per i farmaci che funzionano, altrimenti il PPV dovrebbe essere dell’1%. Avete per le mani un test molto efficace, in effetti.

Quanto è efficace? Al livello che invece di dover correre il rischio di testare 100 farmaci sui pazienti prima di trovare quello giusto, dovete testarne SOLO DUE prima di trovare quello buono. COSÌ efficace.

Ci dicono a volte che i test su animali avrebbero un PPV del 5% o roba così, e che esso sarebbe “basso”. Ma loro sanno quanto è la prevalenza? Hanno provato a farne almeno una stima a spanne? Perché se per un’ipotesi niente affatto assurda i farmaci “buoni” fossero uno su diecimila, ovvero 0.01%, un PPV del 5% equivarrebbe ad un miglioramento di 500 volte delle nostre probabilità di scovarne uno. Buttalo via.

Come mai questo errore matematico così grossolano è tanto diffuso? Basta farsi due conti per vedere che il PPV di una moneta varia con la prevalenza… Come mai c’è tanta gente convinta che un PPV sotto il 50% sia universalmente “basso”, allora?

La ragione è che effettivamente nei rapporti tecnici del Johns Hopkins Center for Alternatives to Animal Testing (CAAT), considerato un po’ un’autorità sulla validazione dei test tossicologici, si raccomanda che nel test di validazione si ottenga un PPV di almeno il 50%. Ma quello che i nostri oppositori un po’ distratti dimenticano è che in un test formale di validazione come quelli portati avanti dal CAAT la prevalenza può essere standardizzata artificialmente sul 50%! Ovvero, si fa in modo che i farmaci efficaci e quelli inefficaci o tossici siano esattamente in uguale proporzione nel campione testato (perché non sto scoprendo un nuovo farmaco, ma mettendo alla prova quelli che già ho). In queste condizioni, e solo in queste condizioni, poiché la monetina ha un PPV sempre uguale alla prevalenza, la monetina avrà effettivamente un PPV del 50%. Ma questo dato non è assolutamente confrontabile con un dato preso da una condizione in cui la prevalenza è molto, ma molto più bassa, come appunto nella scoperta di un nuovo farmaco, a meno di conoscere questa prevalenza e operare una standardizzazione al 50%.

Disgraziatamente nella sperimentazione di nuovi farmaci la prevalenza l’ha già decisa madre natura, non la puoi controllare. Una delle tante ragioni per cui ridurre tutta la sperimentazione animale ai soli test di tossicità e ai criteri che con essi si applicano è impossibile.

Proseguiamo.

Non si mediano fra di loro gli esiti di diversi test per ottenere una valutazione complessiva

Questo è un errore piuttosto insidioso. Mi è capitato di trovarlo addirittura su una pubblicazione scientifica seria (ma non era così seria evidentemente, visto che l’autore confondeva addirittura sensibilità e PPV), il che significa che evidentemente può passare un po’ inosservata.

Supponiamo di avere tanti test con proprietà diverse davanti e di volerli usare per identificare un bersaglio particolarmente sfuggente. Ad esempio il farmaco che funziona è molto raro, no? E magari abbiamo soltanto dei test che potremmo definire un po’ mediocri, tutti con una grossa percentuale di falsi.

Cosa possiamo fare? Se siamo furbi, sovrapporremo più test! Ad esempio, visto che il farmaco che funziona è raro, per prima cosa useremo un test molto sensibile, che scarterà comunque una buona parte dei farmaci inutili e quasi sicuramente conserverà invece quello che funziona. Bene, e ora? Ora possiamo intervenire con un test più specifico, che magari su un campione così grande si sarebbe fatto scappare il farmaco efficace, ma adesso con il campione ridotto ha più probabilità di funzionare. Quello che si può fare insomma è creare una batteria di test che funzionano in serie o in parallelo e sommano le proprie capacità.

Dunque se quello che io faccio invece di “sommare” adeguatamente le proprietà dei singoli test è farne una media aritmetica, io non sto valutando davvero quello che quella batteria di test può fare, bensì sto appiattendo ulteriormente le capacità dei singoli test. Un test ad alta specificità e bassa sensibilità e uno a bassa sensibilità e alta specificità lavorerebbero bene in sinergia, ma se faccio una “media” mi sembreranno due test con specificità e sensibilità entrambe mediocri e in realtà più o meno inutili.

D’altro canto anche il CAAT sottolinea chiaramente questo punto in un suo rapporto tecnico sulla validazione dei metodi alternativi:

It should be noted that, when individual tests are combined into a battery, the predictivity of the individual tests were used in isolation. Thus, a test with a relatively low predictive value in general, i.e., for a wide spectrum of chemicals, may have a high predictive value for a specific chemical class or for a group of chemicals which act through a specific mechanism. In this case, the test may have considerable value as a component of a test battery.

Fine della discussione, direi.

Valutano l’utilità di un test in termini assoluti

Finalmente ci siamo. Questo è l’ “original sin” statistico degli anti-SA. È un errore logico grave, che ha le sue radici nelle stesse incomprensioni che li portava a valutare erroneamente il PPV, ed è alla base di tutti gli altri errori. Tipicamente snocciolano numeri  ideali su quali secondo loro dovrebbero essere le proprietà predittive di test e modelli animali, ma questo è un modo di affrontare la cosa assolutamente fuori dal mondo. Lo scopo di un test farmacologico è solo uno: aiutarci a scoprire nuovi farmaci. Come può fare questo? Selezionando, in fase preclinica, sottoinsiemi di farmaci al cui interno abbiamo probabilità di trovare sostanze efficaci maggiori che al di fuori di essi. Questo significa che se le alternative sono:

–          Andare a caso sperimentando tutto sull’uomo e sperando di non ammazzare troppa gente, con costi immensi in termini economici e umani, e una prevalenza che potrebbe essere intorno allo 0.01% o meno

–          Usare un test su animali con un PPV dell’1%

La scelta è ovviamente quella di usare il test su animali. Per quanto povera possa sembrare la sua performance (attenzione, non sto ammettendo che sia così povera, sto ragionando per assurdo), è comunque letteralmente cento volte meglio che andare a caso.

E se esiste un altro test che fa meglio ancora?

Be’, in quel caso, e solo in quel caso, il nostro test su animali è effettivamente sorpassato. In generale, un test disponibile va confrontato:

1)       con il puro caso. Perché sia utile deve essere meglio che lanciare una monetina, su questo siamo tutti d’accordo (anche se non tutti hanno capito che proprietà matematiche ha il lancio di una monetina).

2)      Con il miglior test alternativo disponibile.

Solo allora puoi dare una valutazione seria del contributo del test alla scoperta di un nuovo farmaco.

Come si vede la materia non è priva di insidie, ma crediamo di aver dato qui un buon vaccino contro le bufale più comuni che girano in campo anti-SA. Contiamo inoltre che possa essere utile anche contro truffe statistiche di matrice ideologica diversa che comunque è facile trovare in giro per la rete.

Data la difficoltà che molti incontrano con il topic, mi sento di concludere con un invito a chiunque abbia bisogno di qualche delucidazione a domandarne nei commenti, e si farà il possibile per chiarire ogni oscurità.

[Dott. Alberto Ferrari – Comitato Scientifico Pro-Test Italia]


[1] Un matematico obbietterebbe che in realtà sono quattro, perche se ne conosci quattro il quinto si può calcolare in automatico. Noi diremo che sono cinque per comodità di esposizione.

[2] Infatti a volte si usa normalizzare il PPV su una prevalenza del 50%, in modo da rendere confrontabili le performance di test diversi con prevalenze diverse.

3 commenti

  1. Poco tempo fa ho scritto un articolo per fare chiarezza sui parametri che descrivono la performance di un test, si trova qui.
    Ciao, e scusa per lo spam.

    "Mi piace"

  2. dottornomade

    Segnalo typo: “un’ideale” –> un ideale

    "Mi piace"

Trackback

  1. Uno studio non dimostra nulla | laVoceIdealista

Lascia un commento