29 ottobre 2008

Odds Ratio in Statistica Medica e Sanitaria

Il concetto di Odds Ratio è ampiamente diffuso in Medicina, Epidemiologia, Statistica Medica, Statistica Sanitaria...e chi ne ha più ne metta! Normalmente ci si sforza di descrivere il concetto ad un pubblico di utenti "non esperti" cercando di rendere il più semplice possibile tale numero, che altro non è che un rapporto di rapporti :-) .
In base alle mie esperienze ho notato, invece, che molte volte è lo statistico stesso a perdere di vista il vero fine di tale indice, lasciandosi andare in riflessioni sugli aspetti "matematici" che poco interessano l'utente.
L'Odds Ratio si basa su di una tabella che è alla base di tutto, una tabella a doppia entrata relativa a due variabili dicotomiche: Fattore di Rischio ed Insorgenza Malattia.












Il fattore di rischio è una variabile che si pensa possa avere influenza sull'insorgenza malattia. Quest'ultima, invece, non ha bisogno di commenti: c'è o non c'è. Ovviamente si può anche considerare il verificarsi di un altro fenomeno che non sia necessariamente una malattia, ad esempio il superamento del livello di colesterolo nel sangue (superato o non superato).
In maniera perfettamente analoga, il fattore di rischio potrebbe essere la somministrazione di un farmaco (presente=somministrato, assente= non somministrato o placebo), e quindi potremmo essere interessati a valutare, o meglio a testare il farmaco come fattore di guarigione dalla malattia, o al contrario come fattore di insorgenza di effetti collaterali. Insomma, trattasi di variabile dicotomiche: uno o zero sia per la variabile antecedente che per quella conseguente.
Nella tabella ho utilizzato le lettere a, b , c , d per specificare la numerosità dei casi. Quindi a è il numero di individui in cui è presente il fattore di rischio e la malattia è insorta, ecc.... (la spiegazione del significato delle altre lettere mi pare banale).
L'utilizzo dei dati contenuti in tale tabella dipende sostanzialmente dalle modalità di raccolta dati, ossia dalla distinzione tra indagini prospettiche o longitudinali e indagine retrospettive o trasversali. In realtà questa mia classificazione non è assolutamente esaustiva per le varie situazioni che si presentano in Medicina, ma lo è ai fini del calcolo di un Odds Ratio.
In un indagine prospettica il ricercatore dispone di un gruppo di individui già classificati a seconda del fattore di rischio: un gruppo in cui è presente, un altro in cui non lo è. Lui si "limita" a seguirli nel tempo e a verificare l'insorgenza (Sì) o meno (No) della malattia. In maniera analoga, per testare un farmaco, si disporrà di un gurppo di individui a cui viene somministrato il farmaco contro un placebo. Quindi, in genere, quando parte l'indagine il ricercatore conosce a+b e c+d, mentre conoscerà la scomposizione in a, b, c e d solo successivamente, in base appunto all'insorgenza della malattia. E' molto utile la seguente illustrazione per rappresentare un'indagine prospettica o longitudinale:














Dall'immagine si evince anche il perché si parla di indagine longitudinale: se si guarda un mappamondo, la longitudine è una linea orizzontale, proprio come la freccia (una barbara definizione che rende l'idea). La figura mette in risalto i dati disponibili a priori dal ricercatore: a+b e c+d e nel tempo potrà poi suddividere i dati in base all'insorgenza della malattia.
In un'indagine retrospettiva, invece, accade esattamente il contrario. Il ricercatore dispone degli individui già classificati in base all'insorgenza della malattia e lo scopo della sua indagine è procedere a "ritroso" per risalire al fattore di rischi e quindi classificare in soggetti con o senza fattore di rischio. Un classico esempio è un gruppo di malati di tumore (insorgenza malattia: Sì) ed uno di sani (insorgenza malattia: No) ai quali viene chiesto se in passato hanno fumato (fattore di rischio: presente) o meno (fattore di rischio: assente). Si deduce facilmente che si può rappresentare l'indagine retrospettiva nel seguente modo:
















Il ricercatore, quindi, conosce a priori a+c e b+d e solo dopo l'indagine potrà risalire all'eventuale presenza del fattore di rischio.
A questo punto è abbastanza semplice scegliere un indice che spieghi il meglio possibile la relazione tra le due variabili dicotomiche rappresentate in tabella.
Nel caso di indagine prospettica, è intuitivo procedere al calcolo della probabilità che insorga la malattia, distinguendo in base all'appartenenza ad uno dei due gruppi:
1- probabilità che insorga la malattia in un individuo esposto al fattore di rischio: pr(Sì \ presente) = a / (a+b);
2- probabilità che insorga la malattia in un individuo non esposto al fattore di rischio: pr(Sì \ assente) = c / (c+d) .
Come giè spiegato prima, in un'indagine longitudinale è logico costruire questi due indici. Il ricercatore, infatti, dispone dei due campioni (a+b e c+d) prima di inziare l'indagine e solo successivamente osserva il fenomeno di insorgenza malattia. Confrontando semplicemente il rapporto 1 con il rapporto 2 tenterà di rispondere alla domanda: il fattore di rischio aumenta significativamente la probabilità che si presenti la malattia? E' ovvio che siamo portati a dare risposta affermativa quanto più la prima probabilità è maggiore della seconda. Ovviamente questo ragionamento sarà un po' più complicato in quanto accompagnato da un insieme di strumenti statistici sui quali non mi soffermo (verifica di ipotesi, modelli logit, ecc....).
In Epidemiologia si è soliti parlare di rischio assoluto invece che di probabilità, quindi il medico e lo statistico cercheranno di valutare se il rischio di tipo 1 è maggiore del rischio di tipo 2. La valutazione di questo semplice aspetto può avvenire rapportando il rischio o probabilità 1 al rischio o probabilità 2. Quanto più tale rapporto sarà maggiore di 1, tanto più saremo portati a pensare che il rischio di insorgenza malattia sia più forte se il fattore di rischio è presente. Tal rapporto viene detto rischio relativo:


a /(a+b) / c/(c+d).


A questo punto chi ha una forma mentis quantitativa (...proprio come lo statistico...) si divertirà nella ricerca di forme matematiche diverse di tale rapporto, ma io direi che poco interessano e poco servono a chi è interessato alla comprensione del fenomeno. Anzi direi che potrebbero essere addirittura controproducenti, portando il ricercatore a perdere di vista l'obiettivo.
Il caso appena discusso riguarda l'indagine prospettica, vediamo ora cosa accade nell'altro caso.
Nell'indagine retrospettiva abbiamo illustrato chiaramente che a priori non si dispone del campione suddiviso per fattore di rischio, ossia mediante il fattore logicamente antecedente, ma si disporrà dei malati e dei sani. Procedendo "retrospettivamente" alla classificazione in base alla presenza o l'assenza del fattore di rischio (...fumavi in passato?...) si riempirà la tabellina in ognuna delle quattro caselle, ma il calcolo del rischio relativo non ha più senso. La freccia disegnata, infatti, non segue più lo stesso "senso dei dati" (è verticale, non più orizzonatale). I campioni sono ora a+c e b+d, e mischiare a con b e c con d potrebbe portare a risultati fortemente errati. Le numerosità dei due campioni, infatti, saranno in genere molto diverse, con un campione di sani generalmente più grande di quello di malati (b+d > a+c).
Immaginiamo paradossalmente di disporre di 8 malati (a+c) e 200 sani (b+d). Li interroghiamo sulle loro abitudini di vita e scompriamo che degli 8 malati, 3 hanno fumato (quindi a=3) mentre trai i 200 hanno fumato in 150 (b=150). A questo punto ve la sentireste di dire che 3 / (3+150) (ossia il rischio a/a+b) è la probabilità di ammalarsi essendo stati fumatori? Io direi che non ha senso sommare 3 a 150 poiché i dati sono di campioni diversi; non abbiamo mica seguito nel tempo 153 individui fumatori valutando così l'insorgenza della malattia! Essendo errato il calcolo del rischio assoluto e ralativo in tale caso, si usa studiare il fenomeno con l'Odds Ratio.
Innanzitutto, diciamo che un Odds è un rapporto di probabilità. Consideriamo un campione suddiviso in base alla presenza o assenza di una caratteristica, ossia la nostra variabilie dicotomica (maschio/femmina, fumatore/non fumatore, bello/brutto, ecc....). Se a sono i fumatori e c i non fumatori (nel campione di malati) , a / (a+c) è la probabilità di trovare un fumatore nel nostro campione. Analogamente, c / (a+c) è la probabilità di trovare un non fumatore. L'Odds (relativamente ai malati) per tale variabile dicomotica è quindi il rapporto tra la probabilità che una unità del campione sia fumatrice e la probabilità che sia non fumatrice:


a /(a+c) / c/(a+c) = a / c.


Tale indice ci dice quanto è maggiore la probabilità di beccare un fumatore rispetto a quella di non beccarlo. Torniamo alla tabella relativa al caso di un'indagine retrospettiva.
In base a come abbiamo costruito il nostro campione, seguendo la freccia verticale, ha senso calcolare anche l'Odds per i sani:


b/(b+d) / d/(b+d) = b / d.


A questo punto l'Odds Ratio è il rapporto dei due Odds (così come il rischio relativo e il rapporto dei due rischi assoluti):


a/c / b/d.


Se tale valore è maggiore di 1, l'Odds dei malati è maggiore di quello dei sani e quindi potremmo dire che nei malati la probabilità di beccare un fumatore rispetto a quelle di non beccarlo è maggiore rispetto a quanto accade nei sani. Tale modo di ragionare, però, nasconde evidentemente qualcosa di "illogico". E' come se stessimo supponendo l'insorgenza della malattia come variabile antecedente il fattore di rischio, ossia che la malattia influisce sul fattore di rischio, ossia su di una variabile che invece si manifesta "prima" dell'altra. Quello che invece ci interesserebbe verificare è quanto cambia il rapporto tra la probabilità di ammalarsi e non, passando da un gruppo di individui senza fattore di rischio ad individui con fattore di rischio (qualcosa di analogo al rischio relativo).
Mentre per un'indagine prospettiva è subito evidente che possiamo eseguire tale calcolo (seguiamo il senso della freccia), da una prima riflessione potrebbe sembrare errato il calcolo di tale Odds Ratio per un'indagine retrospettiva (così come invece lo sarebbe il calcolo del rischio relativo). Ma con un banale passaggio algebrico si ottiene che:


a/c / b/d = a/b / c/d,


ossia che l'Odds Ratio per la nostra tabella è sempre lo stesso, indipendentemente da quale sia la variabile logicamente antecendente (cosa che invece non accade per il rischio relativo). Non è superfluo evidenziare che il secondo membro dell'uguaglianza è l'Odds Ratio che misura di quanto è più probabile l'insorgenza malattia rispetto alla non insorgenza, passando da individui con fattore di rischio a individui senza tale fattore.
Quindi, riassumendo, la nostra tabella con le quattro caselline è in pratica un campione che si suppone rappresentativo dell'universo. Calcolando uno qualunque degli indici sopra descritti, non facciamo altro che cercare di stimare lo stesso valore ignoto nell'universo. La differenza sostanziale, però, sta nel fatto che mentre il rischio relativo ha senso solo per l'indagine prospettiva, l'Odds Ratio è indipendente dal tipo di indagine. Quindi, il rischio relativo è una buona stima campionaria solo per le indagini retrospettive, mentre l'Odd Ratio lo è in entrambi i casi!
Quindi, per un'indagine retrospettiva useremo l'Odds Ratio per rispondere alla stessa domanda di prima: il fattore di rischio aumenta significativamente la possibilità che si presenti la malattia? Quanto più a/b /c/d sarà >1, tanto più saremo portati a dire che nel passaggio dalla situazione di assenza alla situazione di presenza del fattore di rischio , cresce il rapporto tra la probabilità di ammalarsi e quella che la malattia non insorga.
Sottolineo inoltre che in genere l'Odds Ratio è utilizzato sempre, quindi mi pare sia preferito anche nelle indagine prospettiche, sebbene in tali casi sia possibile calcolare il rischio relativo (ovviamente questa è solo una mia impressione).
Nei più diffusi testi di Epidemiologia o Statistica Medica si è soliti parlare di rapporto crociato in luogo di Odds Ratio. A mio parere tale esemplificazione algebrica è totalmente inutile e addirittura controproducente e per tale motivo nemmeno la riporto. Per quanto riguarda l'aspetto "informatico" per il calco di tali indici, direi che non è necessario nessun commento essendo il processo di calcolo molto banale e facilemente gestibile in un un foglio elettronico.
Concludo dicendo che il ragionamento che ho seguito è utile a comprendere il significato di Odds Ratio e Rischio Relativo, evitando quindi lo sforzo memorico necessario a ricordare i metodi di calcolo dei rapporti (...l'odds è il prodotto della cella a per b, diviso per...). Ovviamente, per completare il tutto, sarebbe necessario approfondire con lo studio della verifica di ipotesi e dei modelli logit, ma tali argomenti sono abbondantemente trattati nei testi di stastica ed anche in rete.

2 commenti:

Anonimo ha detto...

utile e semplice, grazie mille!
alduccio

Todos Logos ha detto...

Ottimo post, molto chiaro!
Per qualche approfondimento sull'inferenza sugli OR, se ne parla qui:

http://statisticaconr.blogspot.com/2009/08/operazioni-con-lodd-ratio-in-r.html