Kjente astronomiske grafer & plotting av data

Det er mange ting å tenke på når man skal vise resultatene sine i et diagram. Hva slags diagramtype skal man velge? Hvilke farger? Trengs det ytterligere informasjon?

Poenget med å lage diagrammer er å presentere data på en ryddig og forståelig måte, og gi nok informasjon til at det går an å tolke det man ser. Akkurat som et bilde sier mer enn tusen ord, gjør et diagram det også! Jeg tar for meg de mest vanlige diagramtypene ved å se på noen eksempler fra astronomien, og viser frem noen diagrammer fra masteroppgaven min.

Diagramtype

Det finnes en rekke ulike diagrammer å velge mellom. Som regel er det gitt hvilken type man skal velge utifra datasettet man har. De klassiske typene er:

Kakediagrammet

Et kakediagram (eller sektordiagram) er formet som en sirkel, hvor sirkelen representerer all data man har, altså 100 %. Kakestykkene (sektorene) viser hvor stor andel ulike deler av datasettet utgjør av totalen.

Figur: NASA/WMAP

Eksempelet ovenfor viser hvilke typer materie universet bestod av – og hvor mye det var av hver type – da universet bare var 380 000 år gammelt. Jeg har tidligere blogget om dette kakediagrammet i innlegget Å måle hva universet består av.

Statistiker Kathrine har skrevet et fint innlegg om kakediagram og hvorfor det ofte ikke er ideelt å bruke: Ekte statistikere bruker ikke kakediagram! Det fungerer nemlig bare når man deler opp kaken i få kakestykker. Dessuten kan fargene på kakestykkene skape en illusjon av at noen kakestykker er større enn andre, selv om det ikke faktisk er sånn. Men kakediagrammet kan gi et greit overblikk over en situasjon.

Histogrammet

Et histogram viser hvor mange observasjoner som faller innenfor et bestemt intervall eller en bestemt gruppe i et datasett. Det er en fin måte å vise fordeling av data på.

Et kult histogram fra astronomien, er denne oversikten over hvor mange eksoplaneter som er blitt oppdaget gjennom årene – det har vært en ganske solid økning (funnene blir som regel annonsert i større puljer):

Figur: NASA

Her er observasjonene delt inn etter år, og så har man telt antall observasjoner for hvert år som har gått.

Spredningsplottet

Et spredningsplott viser hvordan to variable i et datasett endrer seg i forhold til hverandre. Hver prikk i spredningsplottet er en måling. Et slikt plott brukes gjerne til å se på sammenhenger mellom variable, såkalte korrelasjoner (men det sier ingenting om kausalitet, dvs. hvorvidt det er en årsakssammenheng mellom de to variablene).

Edwin Hubble sitt originale spredningsplott! Den horisontale aksen viser avstand, mens den vertikale aksen viser hastighet. Her har Hubble lagt på en regresjonslinje for å tydeliggjøre trenden i datasettet.

Ovenfor er et kjent eksempel fra astrofysikken, nemlig data som Edwin Hubble tok som viste at jo lenger unna en galakse er fra oss, desto fortere beveger den seg vekk fra oss (kjent som Hubbles lov). Disse dataene var det første hintet om at universet utvider seg!

Funksjonsgrafen

En funksjonsgraf viser rett og slett hvordan en funksjon f(x) varierer med x.

Grafen ovenfor viser hvor fort stjerner beveger seg i banene sine (vertikal akse) rundt sentrum av en galakse ved ulike avstander fra sentrum (horisontal akse). Altså ser vi på hastighet som en funksjon av radius.

Grafen illustrerer en kjent problematikk innen astrofysikken: Den øverste kurven som er merket med de store sorte prikkene er det vi observerer, mens de andre kurvene viser ulike hypoteser vi har for å forklare hvorfor kurven blir som det blir. Det var misforholdet mellom den observerte kurven og kurven merket «luminous» (som representerer hastigheten til all den lysende materien vi kan se i galaksen ved ulike avstander) som først satte oss på sporet av mørk materie.

Farger

I blant ønsker man å plotte flere forskjellige datasett sammen i samme diagram. I noen tilfeller kan man bruke ulike typer linjer (heltrukket, stiplet, prikket, osv.) som eksempelet på funksjonsgraf ovenfor. Men det er ikke alltid at dette passer så godt, og da må man ty til ulike farger.

Her er det et viktig hensyn å ta (hvis man er av den hensynsfulle typen), nemlig at oppunder 10 % av befolkningen er fargeblinde. Det er spesielt rød-grønn-kombinasjonen som er det mest utbredte problemet. Heldigvis finnes det folk som har satt sammen fargepaletter som kan fungere for de fleste, som for eksempel denne:

Det var veilederen min som først pekte meg i denne retningen da jeg viste henne en graf med masse rødt og grønt på, og hun kommenterte at jeg kanskje burde vurdere noen andre farger med tanke på fargeblinde. I stedet for bare å velge andre farger enn rødt og grønt, bestemte jeg meg for at jeg jo likeså godt kunne gjøre det skikkelig og bruke farger fra paletten ovenfor ?

Skal man plotte veldig mange forskjellige datasett i samme figur, kan man få et annet problem, nemlig at det er begrenset hvor mange farger som tydelig skiller seg fra hverandre, spesielt når dataene er tegnet med tynne streker. Da må man prøve å finne en kreativ løsning, avhengig av hva situasjonen er.

Mine diagrammer

Jeg skal lage maaaaaange diagrammer til masteroppgaven min, og de skal i hovedsak være funksjonsgrafer og histogrammer (heldigvis lager de seg for det meste selv, takket være programmering ❤).

Jeg har to typer funksjonsgrafer i masteroppgaven min. Den ene typen viser spekteret som skal modelleres, mens den andre typen viser resultatet fra modelleringen. Her er et eksempel på et spekter som skal modelleres:

Mitt kunstige aktiv galakse-spektrum for en bestemt konfigurasjon av parametre. Den horisontale aksen viser bølgelengder målt i Ångstrøm, mens den vertikale aksen viser fluks, et mål på hvor mye lys som sendes ut av et objekt.

De ulike fargene symboliserer ulike komponenter, mens den sorte linjen er summen av dem. De fleste kurvene har for mange detaljer til at jeg kunne brukt stiplede eller prikkede linjer.

Jeg har også lagt inn litt tekst i grafen. For meg som jobber med et enormt datasett, er det helt nødvendig å legge inn ekstra tekst i grafen for å kunne skille en graf fra en annen. Men litt tekst kan også gjøre det lettere å tolke innholdet, fordi det forteller meg hvilke verdier jeg har brukt for parametrene som bestemmer hvordan spekteret ser ut.

Når jeg skal vise frem resultatet av modelleringen, får jeg det problemet at jeg må introdusere enda en farge:

Her er det to farger som er ganske like: rød og rosa. Men ved at jeg bruker de fargene på to kurver som aldri krysser hverandre, og hvor man ut fra beskrivelsen av den ene skjønner hvilken linje det er snakk om (rosa = model spectrum), ser jeg ikke på det som et problem ?

Min utfordring når det gjelder histogram er at jeg må ha flere histogrammer liggende oppå hverandre for å kunne sammenligne dem skikkelig, og at det er en del annen informasjon som trenger å være med i grafen for at man skal forstå hva det er man ser på. Her er et eksempel på hvordan et histogram i oppgaven min sannsynligvis kommer til å se ut (det er utrolig mye informasjon i dette diagrammet – jeg forklarer nedenfor):

Det er mange komponenter i dette diagrammet:

  • De fargede stolpene viser selve fordelingen av dataene.
  • De stiplede linjene viser gjennomsnittet i de ulike datasettene, mens den heltrukkede linjen i sort viser den «sanne» verdien som de ulike datasettene prøver å etterligne.
  • Tekstblokken forklarer hvilke parametre som er brukt for å lage nøyaktig disse datasettene.
  • Boksen som forklarer hva de ulike fargene symboliserer, forteller også nøyaktig hva gjennomsnittet og spredningen er for de ulike datasettene.

I histogrammet har jeg passet på å bruke farger fra fargepaletten for fargeblinde, ettersom jeg har har grafikk som skal ligge oppå hverandre, slik at det vil være mulig å skille de ulike datasettene fra hverandre for fargeblinde – selv om jeg må innrømme at det kan være en utfordring for meg som ikke er fargeblind også der hvor alle fargene overlapper … (Jeg har prøvd ganske mange forskjellige fargekombinasjoner og rekkefølge på fargene for å gjøre diagrammet mest mulig tydelig, og det er vanskelig å få det noe særlig bedre.)

Du kan forresten sjekke hvordan et diagram eller bilde ser ut for fargeblinde i Photoshop under View > Proof Setup > Color Blindedness ? Histogrammet ovenfor vil se slik ut for en fargeblind:

Ikke noen problemer der, hurra! Mens et spektrum vil se slik ut:

Jeg burde ha brukt farger tilpasset fargeblinde for spektrene også – det har jeg ikke gjort fordi jeg kom på dette litt for sent i prosessen … Det ble heldigvis litt variasjon der uansett, men noen av fargene blir ganske like. Det er riktignok slik at de som er godt innforstått med fagfeltet omtrent ville klart å skille alle komponentene fra hverandre selv om de var sorte alle sammen ?

* * *

Har du hatt noen vanskelige diagramsituasjoner?

Hovedbilde: Basert på illustrasjoner fra Freepik

Relaterte innlegg

Kommentarer

  1. Kathrine F F sier:

    Et utmerket innlegg om visualisering av data! Jeg har også løsningen på histogrammene som du plotter oppå hverandre, og det er boksplot. Vi må lage et nytt samarbeidsinnlegg! Mail meg når du har tid 🙂

    1. For et fantastisk forslag! Boksplot har jeg ikke tenkt på, for jeg syns aldri jeg ser det i bruk. Men det er absolutt løsningen på det håpløse histogrammet mitt! Jeg har sendt deg e-post 🙂

  2. Are sier:

    Et pyramidogram ,eller kalkulering tredimensjonalt om du vil er jo også et alternariv!?

  3. Are sier:

    Rødt og grønt blir brunt og tar en og blander alle fargene ender man opp med gratt og ser man på en sirkelring av farger i et minutt ser man en sort prikk til slutt!:)

Legg inn en kommentar

Dette nettstedet bruker Akismet for å redusere spam. Lær om hvordan dine kommentar-data prosesseres.