Descriptive statistics: histogram and barchart

The histogram command is used to display frequency distributions/value distributions for numerical variables in a graphical way where the values ​​are grouped into appropriate intervals and columns are assigned that show the degree of occurrence for each interval. It is possible to control how many columns or how wide the column intervals should be, through options. With a limited number of values, it is recommended to use the discrete option. This produces a graph that shows one bar per value (rather than intervals).

The barchart command is used to create bar charts for numerical variables, i.e. graphical display of the values ​​obtained through the summarize command. It is possible to group the columns by categorical values.

// Histogram og barchart

require no.ssb.fdb:23 as db

create-dataset demografidata
import db/INNTEKT_WYRKINNT 2020-01-01 as innt
import db/INNTEKT_BRUTTOFORM 2020-01-01 as formue
import db/BEFOLKNING_KJOENN as kjønn
import db/BEFOLKNING_FOEDSELS_AAR_MND as faarmnd

// Lager alder per 2020
generate alder = 2020 - int(faarmnd/100)

// Histogram (frekvensfordelinger)
// Dette er en måte å vise frekvensfordelinger for metriske/kontinuerlige variabler på en grafisk måte der verdiene grupperes i passende intervaller og tilegnes søyler som viser graden av forekomst. Søylearealene i diagrammet summerer seg til 1 som default, men en kan overstyre dette gjennom options. Gjennom options kan en dessuten selv velge inndelingen av av verdier (hvor mange søyler en ønsker), legge på en normalfordelingskurve som referanse m.m.

histogram innt
histogram innt, freq
histogram innt, fraction
histogram innt, percent

histogram innt, normal
histogram innt, bin(6) freq
histogram innt, width(100000) freq

histogram innt, by(kjønn)
histogram innt if innt > 100000


// Ved bruk av discrete-option kan en også lage histogrammer for diskrete variabler. Da vil hver kategori representeres av respektive søyler

histogram alder, discrete


// Søylediagram
// Slike diagrammer er fine til å fremstille statistikk for kontinuerlige/metriske variabler på en oversiktlig måte. En kan kombinere flere variabler og bryte ned tallene på kategoriske egenskaper (kjønn, utdanningsnivå etc)

barchart (mean) innt, over(kjønn)
barchart (mean) innt formue, over(kjønn)