Denne workshopen gir deg en introduksjon til hovedområdene innen data og analyse: data engineering, data analysis og data science. Workshopen består av to deler, hvor del 1 har hovedfokus på data engineering og del 2 fokuserer på data analysis og data science.
I del 1 vil du lære hvordan man setter opp en enkel data pipeline, det vil si hvordan man flytter, klargjør og tilgjengeliggjør data for videre analyse. I del 2 ser vi videre på innholdet i datasettene og undersøker hvilken innsikt datagrunnlaget kan gi oss.
Workshopen består av et sett med oppgaver som løses i Google Cloud Platform (GCP) og i Google Colab. Det kreves tilgang til GCP for å kunne gjennomføre workshopen. Tilgangen gis til din Google-konto av en av kursholderne. For å få tilgang må du ha en Google-konto (Gmail eller lignende).
Om du ikke har en Google-konto må du knytte eposten din til en. Se denne guiden.
💡 Det kan være lurt å gjøre dette i en privat fane, i tilfelle du allerede er logget inn med en annen Google-konto.
Oppgavene benytter seg av to datasett - Oslo bysykkel og et subsett av værdata i Oslo fra meteorologisk institutt. For enkelhets skyld er datasettene allerede hentet ut fra kildene og lagret i vårt GCP-prosjekt.
Vi vil benytte Colab for gjennomføring av oppgavene. Colab fungerer ikke veldig bra til å redigere/kjøre kode samtidig med andre brukere. Du må derfor lage en egen kopi av oppgavesettene og lagre disse til din Drive. Slik lager du en kopi:
- Åpne oppgavesettet du skal løse
- Velg file og så "Save a copy in drive"
- Vent litt mens Colab jobber 😎
- Velg "open in new tab"
- Lukk den forrige fanen
- Løs oppgavene 🏆
Oppgavene for del 1 finner du på denne lenken.
Oppgavene for del 2 finner du på denne lenken.