Ny analysefunksjonalitet: Prediksjonsverdier

Du kan nå enkelt finne predikert verdi for en responsvariabel i en lineær eller logaritmisk regresjonsmodell målt ved gjennomsnittsverdien for alle forklaringsvariablene som inngår.

Ved å bruke opsjonen margins() når du kjører lineære eller logaritmiske regresjonsmodeller gjennom kommandoene regress, logit eller probit, kan du enkelt finne ferdig beregnet predikert verdi for responsvariabelen (Y) målt ved gjennomsnittsverdien for alle de respektive forklaringsvariablene.

Eksempler:

Det som da blir returnert under modellestimatene er den predikerte Y-verdien samt konfidensintervallet. «Marginal estimat» (altså predikert Y) kan tolkes som «forventet verdi av Y målt for en gjennomsnittsperson», og baserer seg på en standard utregning der hver av de estimerte koeffisientverdiene blir multiplisert med gjennomsnittsverdien for tilhørende forklaringsvariabel (x). Disse summeres så sammen med konstantleddet i tråd med den estimerte regresjonslikningen (bruker notasjonen Y^ for predikert Y):

Y^ = konst + b1mean(x1) + ….. + bnmean(xn)

Merk at ved logaritmiske modeller gitt ved logit og probit, kan ikke koeffisientestimatene b tolkes som marginaleffekter på samme måte som for regress. Predikert Y baserer seg derfor på følgende transformasjon:

  • logit: y^ = 1 / (1 + e– Y^)
  • probit: y^ = Φ(Y^)

(Merk: Φ() er den kumulative normalfordelingsfunksjonen)

Du kan også angi en dummyvariabel inni parentesen i margins(). Da vil du få returnert to ekstra linjer under modellestimatene, dvs. predikert Y-verdi for hver verdi av dummyvariabelen (verdiene 0 og 1). Du estimerer da predikert Y for hver av de to gruppene med verdien 0 og 1, der alle øvrige forklaringvariabler måles ved gjennomsnittsverdi. Merk at dummyvariabelen du benytter må også inngå i selve regresjonsmodellen. I praksis estimeres da «forventet verdi av Y for en gjennomsnittsperson i de respektive gruppene 0 og 1». Om man f.eks. bruker dummyvariabelen «mann», så måler man forventet verdi av Y for en gjennomsnittsmann og en gjennomsnittskvinne.

Eksempel:

Merk at ved beregninger av predikerte Y-verdier, er det det winsoriserte gjennomsnittet som benyttes, dvs. et gjennomsnitt som potensielt kan være påvirket av winsorisering av ekstremverdier. I praksis betyr dette at gjennomsnittsverdiene som benyttes ved beregningene av predikerte verdier er noe lavere enn de faktiske i en del tilfeller. Du kan lese mer om winsorisering her: https://microdata.no/manual/konfidensialitet#tiltak-2-winsorisering

Merk også at det finnes en annen funksjonalitet som returnerer liknende verdier som margins-opsjonen: regress-predict, logit-predict og probit-predict. Disse kommandoene genererer et datasett med predikerte verdier for hver enhet gitt de faktiske verdiene på forklaringsvariablene. Når man viser gjennomsnittsverdier m.m. for disse predikerte verdiene ved bruk av summarize, vil dette ikke samsvare med det man får gjennom margins-opsjonen siden denne baserer seg på predikert Y-verdi målt ved gjennomsnittet for de respektive forklaringsvariabler målt over hele populasjonen.

Du finner mer info om margins-opsjonen og -predict-kommandoene her:

https://microdata.no/manual/brukermanual/Avansert%20analyse/5.4.4%20Prediksjonsverdier%20og%20residualverdier

https://microdata.no/manual/brukermanual/Avansert%20analyse/5.7.2%20Prediksjonsverdier%20og%20residualverdier