Avansert logistisk regresjonsanalyse

Eksempelet illustrerer hvordan man kan gå frem for å analysere sannsynligheten for å komme i jobb og tjene over 500000kr ett år etter at en befinner seg i en tilstand uten jobb. Aldersgruppen vi ser på er 16-60.

I analysen blir det kontrollert for diverse demografiske kjennetegn samt status på arbeidsmarkedet (arbeidsledig, ordinære arbeidsmarkedstiltak, yrkeshemmet, andre arbeidssøkertilstander, samt arbeidsuførhet).

Det lages først en del deskriptiv statistikk, og tilslutt kjøres en logit-analyse inkludert marginaleffekter (opsjonen mfx(dydx) brukes til dette).

Som en kan se, har alle forklaringsvariabler signifikante estimerte koeffisientverdier. Verdien av Pseudo R2 viser at modellen forklarer ca. 18% av den totale variasjonen for den avhengige variabelen. Slike verdier er ikke uvanlige i samfunnsøkonomiske analyser.

//Kobler til databank
require no.ssb.fdb:23 as db

//Oppretter populasjonen personer 16-60 år som er uten jobb i november 2018, og bosatt i Norge per 1. januar 2019
create-dataset demografidata
import db/BEFOLKNING_FOEDSELS_AAR_MND as faarmnd
import db/BEFOLKNING_STATUSKODE 2019-01-01 as regstat
import db/REGSYS_ARB_ARBMARK_STATUS 2018-11-16 as arbmstatus

generate alder = 2018 - int(faarmnd / 100)
generate jobb = 0
replace jobb = 1 if arbmstatus == '1' | arbmstatus == '2'
keep if alder >= 16 & alder <= 60 & regstat == '1' & jobb == 0

histogram alder, discrete

//Henter øvrige variabler (demografidata finnes det bare data på per 1/1 hvert år)
import db/BEFOLKNING_KJOENN as kjønn
import db/BEFOLKNING_INVKAT as innvkat
import db/SIVSTANDFDT_SIVSTAND 2018-11-16 as sivstand
import db/BEFOLKNING_BARN_I_REGSTAT_FAMNR 2019-01-01 as antbarn
import db/NUDB_BU 2018-11-16 as utd
import db/NUDB_SOSBAK as sosbakgrunn
import db/BEFOLKNING_KOMMNR_FAKTISK 2019-01-01 as bosted
import db/ARBSOEK2001FDT_HOVED 2018-11-16 as arbsøkerstatus
import db/UFOERP2011FDT_GRAD 2018-11-16 as uføregrad
import db/INNTEKT_BRUTTOFORM 2018-12-31 as formue
import db/INNTEKT_WYRKINNT 2019-12-31 as inntekt19

//Lager en avhengig variabel med to utfall (dummyvariabel): Høy inntekt vs. lav inntekt
histogram inntekt19, width(100000) freq
summarize inntekt19
generate høyinnt = 0
replace høyinnt = 1 if inntekt19 > 500000
piechart høyinnt

//Tilrettelegger de uavhengige variablene slik at de passer med den statistiske modellen (innebærer at de fleste variabler gjøres som til dummy’er)
generate mann = 0
replace mann = 1 if kjønn == '1'
piechart mann

destring sivstand
generate gift = 0
replace gift = 1 if sivstand == 2
replace gift = sivstand if sysmiss(sivstand)
piechart gift

generate innvandrer = 0
replace innvandrer = 1 if innvkat == 'B'
piechart innvandrer

tabulate antbarn, missing
generate ettbarn = 0
replace ettbarn = 1 if antbarn == 1

generate flerebarn = 0
replace flerebarn = 1 if antbarn > 1

destring utd
generate høyutd = 0
replace høyutd = 1 if utd >= 700000 & utd < 900000
replace høyutd = utd if sysmiss(utd)
piechart høyutd

generate høyutd_foreldre = 0
replace høyutd_foreldre = 1 if sosbakgrunn == '1'
piechart høyutd_foreldre

generate oslo = 0
replace oslo = 1 if bosted == '0301'

generate bergen = 0
replace bergen = 1 if bosted == '1201'

generate stavanger = 0
replace stavanger = 1 if bosted == '1103'

generate trondheim = 0
replace trondheim = 1 if bosted == '5001'

barchart(sum) oslo bergen stavanger trondheim

destring arbsøkerstatus
tabulate arbsøkerstatus, missing

generate ledig = 0
replace ledig = 1 if arbsøkerstatus == 1

generate tiltak = 0
replace tiltak = 1 if arbsøkerstatus == 3

generate yrkeshemmet = 0
replace yrkeshemmet = 1 if arbsøkerstatus == 5 | arbsøkerstatus >= 10

generate andrearbsøk = 0
replace andrearbsøk = 1 if arbsøkerstatus == 2 | arbsøkerstatus == 4 | arbsøkerstatus == 7

generate ufør = 1
replace ufør = 0 if sysmiss(uføregrad)

barchart(sum) ledig tiltak yrkeshemmet andrearbsøk ufør

histogram formue, width(100000) freq
summarize formue
generate formuehøy = 0
replace formuehøy = 1 if formue > 1000000
replace formuehøy = formue if sysmiss(formue)
piechart formuehøy

//Bruk sankey for å vise overganger
sankey arbsøkerstatus høyinnt
sankey høyutd høyinnt

//Kjører selve logit-analysen der den avhengige variabelen listes først (må være dummy)
logit høyinnt mann gift alder innvandrer ettbarn flerebarn høyutd høyutd_foreldre oslo bergen stavanger trondheim ledig tiltak yrkeshemmet andrearbsøk ufør formuehøy, mfx(dydx)