Ny analysefunksjonalitet: Cox-regresjon

Nylig ble Kaplan-Meier introdusert som verktøy for enkle bivariate overlevelsesanalyser. Vi utvider nå denne formen for analyse med Cox-regresjon som lar deg utføre kausal (multivariat) analyse av faktorer som kan tenkes å påvirke hazardrisiko/overlevelsestid.

På grunn av egenskapene ved datasett tilrettelagt for overlevelsesanalyser benyttes ikke tradisjonelle regresjonsmetoder, men spesialiserte overlevelsesmodeller der Cox er en av de vanligste.

Kort fortalt brukes overlevelsesmodeller som Cox til å estimere hvilke variabler som påvirker hazardrisikoen mest. Til forskjell fra standard regresjonsanalyse som estimerer effekter av forklaringsvariabler på en responsvariabel der alle variabler måles på gitte tidspunkt, ligger fokuset i Cox-modeller på å estimere effekten av forklaringsvariabler på relativ hazardrisiko knyttet til en spesifikk hendelse (død, sykdom, uførhet, arbeidsledighet etc) som måles over tid. Mer spesifikt estimeres hazardraten gitt ved h(t|x), altså hazardraten som en funksjon av t (tid) og x (sett med forklaringsvariabler).

Cox kan ses på som en mer formalisert metode for å sammenlikne effekter av forklaringsvariabler på overlevelsestid/hazardrisiko sammenliknet med Kaplan-Meier der man genererer overlevelsesratekurver og studerer forskyvninger i disse gjennom oppsplitting etter ulike egenskaper gitt ved kategoriske variabler.

Cox proporsjonale hazard modell er gitt ved følgende formel:

Merk at tidskomponenten kun ligger i første del av uttrykket ovenfor: b0(t). Denne kalles «baseline hazard» og er en tidsavhengig basiskomponent som skaleres opp eller ned basert på det andre leddet der forklaringsvariablene inngår.

Hvordan tilrettelegge data for overlevelsesanalyse

Overlevelsesanalyser krever følgende (felles for både Kaplan-Meier og Cox):

  • En ferdig definert måleperiode
  • En klar definisjon av hvilken hendelse man vil estimere sannsynligheten for
  • Et ferdig tilrettelagt datasett som må inneholde følgende variabler:
    – Tid
    – Hendelse

Variabelen «tid» må inneholde et mål på tiden som har gått fra et gitt start-tidspunkt til den spesifikke hendelsen skjer. Man kan fritt velge måleenhet, f.eks. antall dager, uker, måneder eller år. Det eneste kravet er at «tid» må være en numerisk variabel.

Variabelen «hendelse» må også være numerisk og inneholde verdien 1 for personer hvor hendelsen faktisk har skjedd i løpet av den gitte måleperioden. For personer hvor hendelsen evt. ikke har skjedd i denne perioden, settes verdien til 0. Sistnevnte kalles «sensurerte» tilfeller. Dette er altså personer der man ikke kan vite om hendelsen har skjedd, enten for at den kan ha skjedd etter at måleperioden var ferdig, eller for at de har forsvunnet fra populasjonen i løpet av måleperioden. Man ikke angi verdien 0, det kan ofte være tilfeller der «hendelse» har verdien 1 for alle enheter (individer).

Tid og hendelse kan beregnes gjennom bruk av import-kommandoen import-event (lar deg definere hendelsesvariabel og måleperiode, og legger til startdateringer for alle hendelser i ditt datasett) samt aggregeringskommandoen collapse(min) (brukes på startdateringsvariabelen for å finne tidspunktet for den gitte hendelsen gitt ved en spesifikk verdi på variabelen du importerer gjennom import-event). Det er også mulig å benytte ferdige dateringsvariabler med faste verdier per enhet.

Klikk her for full gjennomgang av fremgangsmåter for å sette opp et datasett for tidsserieanalyse.

Selve analysen

Etter at du har datasettet ditt klart for overlevelsesanalyse, jfr. avsnittet over, kan du kjøre en cox-regresjon gjennom å bruke kommandoen cox der man først angir variabelen som måler «hendelse» og deretter variabelen som måler «tid» (rekkefølgen er viktig). Eksempler:

cox hendelse år norsk alder2010 i.kjønn
cox hendelse år norsk alder2010 i.kjønn, hazard
cox hendelse dager norsk alder2010 i.kjønn
cox hendelse dager norsk alder2010 i.kjønn, hazard

Typisk resultat (standard):

Typisk resultat ved bruk av hazardrate-opsjon:

Forklaring til resultatene:

  • Øverste eksempel viser standardvisning med koeffisientestimater. Disse skal tolkes på tradisjonell måte. Positive koeffisientverdier betyr positiv sammenheng mellom den aktuelle variabel og hazardrisiko, og implisitt negativ effekt på overlevelsestid. Negative verdier betyr det motsatte. Nullverdi betyr ingen sammenheng.
  • Nederste eksempel viser estimerte hazardrater i stedet for koeffisienter. Disse viser den ratevise endringen i risiko ved en enhets økning i den aktuelle variabelen, og skal tolkes på en annen måte. Nullpunktet som antyder ingen sammenheng er her verdien 1. Verdier over 1 betyr positiv effekt på risiko (implisitt negativ effekt på overlevelsestid), og vice versa for verdier under 1.
  • Merk: Positiv effekt på risiko (altså negativ effekt på overlevelsestid) samsvarer med en brattere Kaplan-Meier overlevelsesratekurve (sammenliknet med referansegruppen).
  • Kommandoen coefplot kan brukes i sammenheng med cox for grafisk visning av estimatene, slik som i eksemplene over
  • Tallene inni hovedtabellen skal tolkes på samme måte som for vanlige regresjoner, f.eks. regress
  • Modellmålene øverst:
    • Antall obs: Antall observasjoner som inngår i analysepopulasjonen (= antall enheter/individer ved vanlige tverrsnittsdatasett)
    • Antall hendelser: Antallet hendelser summert over analysepopulasjonen (= summen av dummyvariabelen som måler hendelse, målt over analysepopulasjonen).
    • Concordance (C-index): Et alternativ til LR chi2() som mål på forklaringskraft. C-index baserer seg på sammenstillinger av faktiske versus predikerte verdier for alle enheter, og verdien regnes ut fra andelen samsvarende par av verdier dividert på antallet mulige par totalt. 0 er dårlig, 1 er best. Verdier bør være over 0.5.
    • Akkumulert overlevelsestid: Summen av variabelen som måler tid målt over alle enheter i populasjonen.
    • Log likelihood: Mål på forklaringskraft for modellen. Mulige verdier er fra minus uendelig til uendelig. Jo høyere verdi, jo bedre modell. Men lite intuitivt mål. Benytt heller LR chi2/Prob > chi2 eller C-index for å vurdere om modellen er god.
    • LR chi2(): Verdi fra chikvadrat-test
    • Prob > chi2: P-verdi for chikvadrat-test. Lave verdier er bra. Brukes til å vurdere om modellen er bra eller dårlig. Verdien bør være under 0.2.
  • Baseline-estimering baserer seg på Breslow-metoden