Nå kan du restrukturere datasett fra wide- til long-format

Den nye kommandoen reshape-to-panel gir deg frihet til å restrukturere dine data til long-format, altså data der opplysningene organiseres nedover som observasjoner/records.

Til statistikk og analyser i microdata.no brukes vanligvis datasett opprettet gjennom kommandoen import. Dette er datasett av typen «wide», hvor opplysninger om alle enheter i en populasjon struktureres horisontalt på variabelnivå. Den nye kommandoen reshape-to-panel gjør det nå mulig å endre datastrukturen til long-format (panel-format), hvor opplysninger om hver enhet struktureres vertikalt på observasjons-/record-nivå.

Variabler som måles over flere tidspunkt og som man ønsker på long-/panel-format, må navngis gjennom reshape-to-panel med angitte prefiks som består av bokstavene (prefikset) fra den opprinnelige variabelen i wide-datasettet. Øvrige variabler som det ikke angis prefiks for, typisk opplysninger som bare måles én gang (kjønn, fødeland etc), defineres automatisk som faste opplysninger og verdiene for disse repeteres for alle undernivåer for hver enhet.

Illustrasjonen nedenfor viser hvordan restruktureringen logisk foregår under panseret. Eksempelet viser et datasett med wide-format som inneholder variablene sivstand18-sivstand20, lønn18-lønn20, og kjønn. Sivilstand (sivstand) og lønn måles altså for årene 2018-2020, mens kjønn er en fast opplysning som bare måles en gang. Datasettet konverteres til long-format ved hjelp av kommandoen reshape-to-panel sivstand lønn. Variabelen date@panel opprettes automatisk og inneholder undernivået som i dette tilfellet er tosifret årstall.

Kommandoen reshape-to-panel har flere bruksområder:

  • Et mer fleksibelt alternativ til import-panel som også lager paneldatasett, men som har en del begrensninger. Blant annet må alle variabler her ha gyldige måletidspunkter for alle måletidspunkter, noe som kan være utfordrende dersom tverrsnittsvariabler inngår i datasettet (variabler som bare har verdier på gitte årlige, kvartalsmessige eller månedlige datoer). Kommandoen reshape-to-panel tillater alle kombinasjoner av variabler.
  • En del analyser krever long-format, og støtten for dette blir nå forbedret. I tillegg har man tilgang til all fleksibilitet og funksjonalitet knyttet til wide-datasett, og kan gjøre hele tilretteleggingen i dette formatet før man enkelt restrukturerer til long-format etterpå. Dette er nyttig om man har behov for å sammenlikne og gjøre operasjoner over variabelverdier på tvers av undernivå (over tid), f.eks. dersom man vil lage en betingelse som baserer seg på verdien på lønn i 2020 i forhold til 2019.

Klikk her for eksempel på bruk av reshape-to-panel.