Deskriptiv statistikk: histogram og barchart

Kommandoen histogram brukes til å vise frekvensfordelinger/verdidistribusjoner for numeriske variabler på en grafisk måte der verdiene grupperes i passende intervaller og tilegnes søyler som viser graden av forekomst for hvert intervall. Det er mulig å styre hvor mange søyler eller hvor brede søyleintervallene skal være, gjennom opsjoner. Ved begrensede antall verdier, anbefales det å bruke opsjonen discrete. Dette gir en graf som viser en søyle per verdi (i stedet for intervaller).

Kommandoen barchart brukes til å lage søylediagrammer for numeriske variabler, altså grafisk visning av verdiene man får ut gjennom kommandoen summarize. Det er mulig å gruppere søylene etter kategoriske verdier.

// Histogram og barchart

require no.ssb.fdb:23 as db

create-dataset demografidata
import db/INNTEKT_WYRKINNT 2020-01-01 as innt
import db/INNTEKT_BRUTTOFORM 2020-01-01 as formue
import db/BEFOLKNING_KJOENN as kjønn
import db/BEFOLKNING_FOEDSELS_AAR_MND as faarmnd

// Lager alder per 2020
generate alder = 2020 - int(faarmnd/100)

// Histogram (frekvensfordelinger)
// Dette er en måte å vise frekvensfordelinger for metriske/kontinuerlige variabler på en grafisk måte der verdiene grupperes i passende intervaller og tilegnes søyler som viser graden av forekomst. Søylearealene i diagrammet summerer seg til 1 som default, men en kan overstyre dette gjennom options. Gjennom options kan en dessuten selv velge inndelingen av av verdier (hvor mange søyler en ønsker), legge på en normalfordelingskurve som referanse m.m.

histogram innt
histogram innt, freq
histogram innt, fraction
histogram innt, percent

histogram innt, normal
histogram innt, bin(6) freq
histogram innt, width(100000) freq

histogram innt, by(kjønn)
histogram innt if innt > 100000


// Ved bruk av discrete-option kan en også lage histogrammer for diskrete variabler. Da vil hver kategori representeres av respektive søyler

histogram alder, discrete


// Søylediagram
// Slike diagrammer er fine til å fremstille statistikk for kontinuerlige/metriske variabler på en oversiktlig måte. En kan kombinere flere variabler og bryte ned tallene på kategoriske egenskaper (kjønn, utdanningsnivå etc)

barchart (mean) innt, over(kjønn)
barchart (mean) innt formue, over(kjønn)