Dette dokumentet kan også lastes ned som PDF. Dersom det oppleves problemer med nedlastet utgave, eksempelvis bilder som mangler eller lenker som ikke fungerer, ber vi om at man benytter versjonen tilgjengelig på nett for de aktuelle delene. |
Hva er åpne data?
Åpne data består av to ting: data og åpenhet. Med “data” mener vi informasjon som er gjort tilgjengelig slik at den kan leses og tolkes av både maskiner og mennesker. Med “åpenhet” mener vi at vilkårene åpner opp for så mange bruksområder som mulig.
Åpne data er informasjon som er gjort tilgjengelig slik at den kan leses og tolkes av både maskiner og mennesker, og som alle kan få tilgang til, bruke og dele. |
Gode åpne data kjennetegnes ved:
-
at de er godt dokumenterte slik at de er lette å oppdage, vurdere og bruke
-
at de kan linkes til slik at de lett kan deles og diskuteres
-
at de er tilgjengelige i et maskinleselig, standardisert og strukturert format slik at de enkelt kan bearbeides
-
at de har garantier for tilgjengelighet og pålitelighet over tid, slik at andre kan stole på de
-
at de er sporbare tilbake til hvor de kommer fra, slik at andre kan vurdere pålitelighet
Disse egenskapene gjelder strengt tatt også for øvrige data som offentlig sektor forvalter. Det eneste spesielle ved åpne data er bare at alle kan få tilgang, bruke og dele.
Når andre skal bruke data fra “din” virksomhet, må de ha en avtale som beskriver hva de har lov til å gjøre. En standardisert avtale som gjelder for alle brukere og formål, kalles en åpen lisens. Regjeringen anbefaler offentlig sektor å lisensiere åpne data under Creative Commons Navngivelse 4.0 (CC BY 4.0) eller Norsk lisens for offentlige data (NLOD).
Hovedregelen er at data som offentlig sektor tilbyr som åpne data skal være gratis, og at det ikke er anledning til å ta betalt for kostnader til innsamling og produksjon av data. Det finnes enkelte unntak i offentlighetsloven (§ 8) og -forskriften (§ 4) som gir anledning til å ta betalt for data.
Hvorfor skal du tilby åpne data?
Offentlige virksomheter produserer store mengder data i sin saksbehandling og myndighetsutøvelse. Denne informasjonen er en viktig ressurs som kan utnyttes mer enn den gjør i dag.
I følge Digital agenda for Norge er det tre hovedgrunner til at tilgang på åpne offentlige data er viktig for samfunnet:
Effektivisering og innovasjon: Å dele data på tvers av offentlig sektor kan bidra til effektivisering og innovasjon. Når data blir delt mellom virksomheter får vi bedre samhandling, mer rasjonell tjenesteutvikling og bedre offentlige tjenester.
Næringsutvikling: Næringslivet får mulighet til å utvikle nye tjenester, produkter og forretningsmodeller basert på tilgang til offentlig informasjon.
Et åpent og demokratisk samfunn: Tilgang til grunnlaget for beslutninger og prioriteringer i offentlig sektor gir bedre innsyn i hvordan beslutninger følges opp og hva som er effekten av politiske tiltak. Dette kan være med på å styrke tilliten til det offentlige, og til det politiske systemet.
Verdien av åpne data
Åpne data skaper verdier i både offentlig og privat sektor. I en rapport publisert av EU i 2015 blir det estimert at den direkte markedsstørrelsen for åpne data i EU vil ligge på over 75 milliarder euro i 2020. I tillegg kommer indirekte effekter på rundt 200 milliarder euro.
Flere datakilder blir gjerne satt sammen, og åpne offentlige data utgjør gjerne en delmengde av de dataene som inngår i en prosess eller tjeneste. Hvor mange tjenester og prosesser åpne data inngår i, og hvilke verdier dette representerer i Norge, vet vi ikke sikkert. Vi skal her nøye oss med noen eksempler som viser hvordan åpne data bidrar til næringsutvikling, innovasjon, åpenhet og effektivisering.
Se Datalandsbyen for flere eksempler på bruk av åpne offentlige data.
Hva er et datasett?
Du kan gjøre data tilgjengelig i form av datasett. Et datasett er en samling av data for eksempel i form av en tabell, liste eller en database som kan gjøres tilgjengelig som en nedlastbar fil, og/eller nåes via et Web-API.
Eksempel: Mattilsynet tilbyr datasettet Smilefjestilsyn på serveringssteder som åpne data. Datasettet er tilgjengelig i flere maskinleselige formater og tilbys under Creative Commons Navngivelse 4.0 (CC BY 4.0).
Hvordan et datasett avgrenses og organiseres vil variere mellom ulike virksomheter. Det er altså du (og din virksomhet) som må vurdere hva som er virksomhetens datasett, og hvilke av disse du skal tilby som åpne data.
Her er noen eksempler på ulike typer datasett:
- Uttrekk fra et fagsystem eller register
-
Ofte kan delmengder av informasjonen som finnes i et fagsystem, hentes ut ved å fremstille rapporter i maskinlesbare formater. Uttrekk kan enten utføres som en manuell oppgave eller være automatisert som en forhåndsdefinert prosess.
- Regneark og tabeller
-
Dette er informasjon som er strukturert i tabeller i for eksempel regneark i programmer som LibreOffice Calc og Microsoft Excel. Regneark som lagres og deles som CSV-filer kan bearbeides av de aller fleste databaser og regnearkprogram.
- Sensordata
-
Offentlig sektor bruker sensorer til mange formål. Eksempler er kontinuerlig overvåkning av vær, trafikk og vannkvalitet. Data kan tilbys som sammenstilte datasett og/eller en kan gi tilgang til datastrømmer fra enkeltsensorer.
- Prosessdata
-
Dette kan være data som blir skapt som del av den administrative virksomheten eller hendelser som loggføres manuelt eller automatisk. Eksempler er (anonymiserte) data om henvendelser til brukerstøtte og bruksstatistikk for digitale tjenester.
- Transaksjonsdata
-
Dette er informasjon som samles inn gjennom økonomiske og administrative systemer. Transaksjonsdata kan gi innsyn i overordnede opplysninger om inn- og utgående fakturaer i virksomheten.
- Kodelister
-
En kodeliste er en liste med faste verdier som for eksempel postnummer og poststed eller kommuner og landkoder. Kodelister brukes typisk i sammenheng med andre datasett (for å forstå hva verdiene betyr) og i nedtrekkslister i skjema i sluttbrukerløsningen.
Datasett kan videre deles inn etter tidsaspektet:
- Historiske datasett
-
Dette er data som gjør det mulig å se på historiske trender, men sier ikke nødvendigvis noe om situasjonen i dag. Historiske datasett oppdateres vanligvis ikke.
- Periodiske datasett
-
Datasett som oppdateres ved jevne mellomrom kaller vi periodiske data. Oppdaterte data er dermed tilgjengelige ved faste intervaller. For mange formål er periodiske data tilstrekkelig for å kunne gjøre analyser eller lage tjenester.
- Levende data
-
Levende data, eller sanntidsdata, er data som til enhver tid er oppdatert. Levende data er nødvendig for en del tjenester. Det har f.eks. ingen hensikt å gi reisende som venter på bussen data fra i går.
I tillegg til de ulike typene med strukturerte data som er nevnt over, kan for eksempel tekst og audiovisuelle data (bilder, lyd og video) og informasjon fra “tingenes internett” (IoT - Internet og things) være verdifulle kilder som kan benyttes til en rekke formål. Vi ser en stor økning i tilgangen til denne typen data, og teknologien for å ta den i bruk er i rask utvikling.
Hvilke data kan jeg åpne?
All offentlig informasjon som lovlig kan publiseres på en offentlig nettside, kan i prinsippet også gjøres tilgjengelig som åpne data.
Her er noen eksempler på åpne data fra offentlig sektor:
-
Værdata fra Meteorologisk institutt
-
Dybdedata fra Statens kartverk
-
Trafikkinformasjon fra Statens vegvesen
-
Ladestasjoner for elbiler fra Enova
-
Matvaretabellen fra Mattilsynet
Når et datasett inneholder opplysninger som ikke kan deles som åpne data, kan du trolig likevel fremstille et utsnitt av datasettet der konfidensiell informasjon enten er fjernet eller anonymisert. For eksempel har Kartverket fjernet informasjon som er skjermet etter sikkerhetsloven fra sine åpne dybdedata.
Hvilke data kan jeg ikke åpne?
Data som inneholder personopplysninger som er omfattet av personopplysningsloven, skal ikke gjøres tilgjengelig for alle og enhver. Unntaket er om du har hentet inn samtykke (lovlig behandlingsgrunnlag) fra de personene opplysningene omhandler.
Du kan heller ikke publisere informasjon som har blitt gjort tilgjengelig i strid med lovbestemt taushetsplikt. Det betyr at selv om datasettet alt er (ulovlig) tilgjengelig på internett (eller publisert på andre måter), kan ikke du eller din virksomhet publisere datasettet og påføre det en lisens.
Det er selvsagt også ulovlig å publisere informasjon som i følge norsk lov er unntatt offentlighet, deriblant informasjon som er skjermet etter sikkerhetsloven (gradert informasjon).
Videre kan du (din virksomhet) kun tilby data som organisasjonen selv eier. Dersom andre organisasjoner, selskaper eller personer har vært delaktig (tredjeparts rettigheter) i fremstillingen av datasettet, må alle parter samtykke i at din virksomhet kan tilby data og påføre datasettet en åpen lisens.
Dersom du har kommet i skade for feilaktig å ha publisert informasjon som faller inn under disse unntakene, skal du avpublisere datasettet og forsøke å stoppe all bruk så snart som du er blitt oppmerksom på dette.
Klassifisering av datasett - trafikklyssystemet
Trafikklyssystemet er en enkel klassifisering av datasett som deler informasjon i tre tilgangsnivå: offentlig (grønne data), begrenset offentlighet (gule data) og unntatt offentlighet (røde data).
Grønne data er data som kan gjøres gratis tilgjengelig som åpne data. Offentleglovas hovedregel gjelder, og ingen unntakshjemler kommer til anvendelse. Kategorien omfatter også løsninger for tilgang som krever brukeregistrering og API-nøkler, så lenge alle kan få tilgang til de fysiske dataene.
Gule data er datasett som ikke kan gjøres åpent tilgjengelig for alle. Datasettet inneholder opplysninger som medfører at det må gjøres en vurdering (saksbehandling) før tilgang eventuelt kan gis. Årsakene til skjerming kan for eksempel være at datasettet inneholder personopplysninger eller er omfattet av tredjeparts opphavsrett.
Røde data er datasett som krever særskilt rettslig grunnlag for tilgang. Typiske eksempler er gradert informasjon, sensitive personopplysninger eller forretningshemmeligheter. Aktuelle grunnlag for utlevering kan være samtykke fra den/de som har rett på vern, hjemmel i lov eller partsinnsyn (partenes rett til å gjøre seg kjent med opplysninger i egen sak).
Se Digdirs Veileder for orden i eget hus for mer informasjon om trafikklyssystemet.
Usikkerhet rundt åpning av data
Vi forstår at det kan være usikkerhet rundt det å tilby åpne data. Her er det mest brukte motargumentene:
Våre data etterspørres ikke
Forutsetningen for å etterspørre data er at noen må vite at de eksisterer. Uten en publisert beskrivelser av hvilke data virksomheten forvalter og potensielt kan tilby som åpne data, vil etterspørselen være lav.
Vi vet ikke hva dataene våre vil bli brukt til
Det stemmer, men det er også et av hovedpoengene med åpne data. Datasett kan nemlig brukes til nyttige ting som datatilbyder ikke alltid kan forutse. Et eksempel på dette er at åpne værdata brukes i butikkenes innkjøpssystemer for å forutse salg av enkelte produkter.
Kvaliteten på dataene våre er ikke god nok
Dersom data er gode nok til å ta beslutninger på i virksomheten, er de også gode nok til å deles. Det er imidlertid viktig at kvaliteten er dokumentert og at kjente utfordringer omtales i beskrivelsen, ettersom kvaliteten påvirker hvor egnet de er til andre formål enn de først ble skapt for. Økt bruk øker sannsynligheten for at feil oppdages og tilgjengeliggjøring som åpne data kan dermed bidra til bedre datakvalitet og bedre beslutninger.
Tilgjengeliggjøring av data er utenfor kjerneaktivitetene våre
Dersom du gjør dataene tilgjengelige, får eksterne aktører mulighet til å lage tjenester som kan bidra til å støtte dine kjerneaktivitetene.
Vi har ingen kontroll over hvilke datasett som settes sammen med våre egne
Selv om dette stemmer, er også dette et av hovedpoengene med å åpne dataene. Når ulike datasett kobles, kan nye tjenester utvikles. Du eller din virksomhet står ikke juridisk ansvarlig for det som blir laget dersom du bruker en av de anbefalte lisensene. Vær samtidig bevisst på at sammenstilling av data fra ulike kilder kan medføre identifisering av personer.
Tilgjengeliggjøring av data er avslørende
Data kan avsløre at man ikke har oppnådd tilfredsstillende politiske eller administrative resultater, eller på andre måter sette deg eller din virksomhet i et dårlig lys. Forsøk på å unngå slike avsløringer vil imidlertid stå i kontrast til den åpenheten som samfunnet vårt ellers preges av. I enkelte tilfeller kan det også innebære brudd på Offentleglova, som gir innbyggerne rett til både innsyn og bruk.
Det er for komplisert
Å publisere åpne data behøver hverken være tidkrevende eller komplisert. Åpne data kan, i sin enkleste form, være et regneark med strukturerte opplysninger publisert på en nettside. Etter hvert kan regnearket utvides til flere regneark, før man gradvis går over til å publisere informasjonen gjennom et API. Poenget er å starte i det små og hele tiden lære av de erfaringer man får av å jobbe med åpne data.
Vi har ikke oversikt over hvilke data vi har
Det kan være fristende å vente med publisering av åpne data til en har oversikt over hvilke data en forvalter, og beskrivelsene av de er perfekte. Vi anbefaler smidig tilnærming: Start i det små og utvid til flere datasett etterhvert. Forbedre de publiserte datasettene og beskrivelsene av de jevnlig.
Gjeldende lovverk og IKT-politikk for åpne offentlige data
Statens IKT-politikk for tilgjengeliggjøring av offentlige data er beskrevet i Digital agenda for Norge som gjenbruk og viderebruk, der gjenbruk er offentlige virksomheters bruk av offentlige data (kapittel 7), mens viderebruk er privat sektors og sivilsamfunnets bruk av offentlige data (kapittel 14).
Regjeringens mål om økt viderebruk er knyttet til målene om effektivisering og innovasjon, næringsutvikling og et åpent og demokratisk samfunn. Stortingsmeldingen trekker frem fem sektorer hvor viderebruk anses som samfunnsøkonomisk verdifulle: kultur, forskning og utdanning, statlige utgifter, transport og samferdsel og kart og eiendom (Geodata).
Regjeringens føringer for deling av åpne offentlige data er regulert i Lov om rett til innsyn i dokument i offentleg verksemd (offentleglova), Digitaliseringsrundskrivet og regjeringens Retningslinjer ved tilgjengeliggjøring av offentlige data
Offentleglova
Grunnlova § 100 slår fast at “alle har rett til innsyn i dokument til staten og kommunane. Retten til innsyn er presisert i offentleglova. Hovedregelen i offentleglova § 3 er at alle “saksdokument, journalar og liknande register for organet” er offentlig, det vil si omfattet av innsynsrett. Dokumentbegrepet i offentleglova er definert som “ei logisk avgrensa informasjonsmengd” og omfatter dermed også data som offentlig sektor forvalter. Offentleglova skal blant annet legge til rette for viderebruk av offentlig informasjon, og at offentlige sektor er åpen og gjennomsiktig (jf. offentleglova § 1)
Informasjon som det er gitt tilgang til etter offentleglova kan brukes til ethvert formål, dersom ikke annen lovgivning eller retten til en tredjeperson er til hinder for det. Personopplysningsretten og opphavsretten er eksempler på rettigheter som begrenser muligheten for viderebruk.
Retten til innsyn er ikke ubegrenset. Mange dokumenter skal eller kan unntas fra offentlighet. Lovbestemt taushetsplikt unntar personlige forhold og forretningshemmeligheter fra innsynsretten. Dokumenter som kan lette gjennomføring av straffbare forhold, eller dokumenter som regnes som interne, kan unntas fra innsynsretten.
En oppdatering av Offentleglova i 2017 gir nå allmennheten rett til innsyn i alle eksisterende formater og språkversjoner av informasjonen det bes om innsyn i. Denne plikten gjelder også maskinlesbare formater.
Offentleglova gir altså allmennheten innsynsrett, det vil si at informasjon vil bli gjort tilgjengelig på forespørsel. Dette kan beskrives som en reaktiv åpenhet, og innsyn forutsetter at allmennheten har tilstrekkelig kunnskap til å stille relevante innsynskrav. Digitaliseringsrundskrivet legger opp til en mer proaktiv åpenhet, der egnet informasjon skal gjøres tilgjengelig i maskinlesbare formater og synliggjøres på data.norge.no.
Digitaliseringsrundskrivet
Digitaliseringsrundskrivet gjelder for departementene, statens ordinære forvaltningsorganer, forvaltningsorganer med særskilte fullmakter og forvaltningsbedrifter.
Rundskrivet slår fast at den enkelte virksomhet skal ha oversikt over hvilke data den håndterer, hva dataene betyr, hva de brukes til, hvilke prosesser de inngår i, og hvem som kan bruke dem. Dette innebærer altså at forvaltningen må ta stilling til hvilke data som kan gjøres tilgjengelig som åpne offentlige data, og ta stilling til hvilke data som skal prioriteres først, for eksempel etterspurte eller samfunnsviktige data andre ikke har.
Rundskrivet (punkt 1.3) slår også fast at virksomheten skal “gjøre egnet informasjon tilgjengelig for viderebruk i maskinlesbare formater, fortrinnsvis gjennom APIer”. Dette gjelder når virksomhetene etablerer nye eller oppgraderer eksisterende fagsystemer. Videre pekes det på at tilgjengeliggjøring av data skal skje i samsvar med regjeringens Retningslinjer ved tilgjengeliggjøring av offentlige data og viderebruksbestemmelsene i offentleglova.
Retningslinjer ved tilgjengeliggjøring av offentlige data
Regjeringens Retningslinjer ved tilgjengeliggjøring av offentlige data er en føring som består av 15 punkt og skal sikre best mulig utnyttelse av offentlige data. De mest grunnleggende punktene omhandler fraskrivelse av eventuell opphavsrett ved å bruke åpne standardlisenser, å tilby data gratis og å tilby data i maskinlesbare og standardiserte formater. Se kapitlet Hvordan bør jeg tilby data? for mer informasjon om retningslinjene.
EUs politikk på området
EU-kommisjonens policy for tilgang til offentlige data omfatter all informasjon som offentlige organer produserer, samler inn eller betaler for. Eksempler er geografisk informasjon, statistikk, værdata, data fra offentlig finansierte forskningsprosjekter og digitaliserte bøker fra biblioteker. Policyen følger prinsippet om at offentlige data skal være mest mulig åpent tilgjengelige og gjenbrukbare.
EUs Åpne data direktiv - ("ODD-direktivet") utgjør det lovmessige rammeverket for tilgang til offentlige data i EU og EØS. Direktivet bygger på to av grunnpilarene i EUs indre marked: transparens og rettferdig konkurranse. I tillegg ønsker EU-kommisjonen å sikre en mer effektiv utnyttelse av denne typen innhold over landegrensene.
EU-kommisjonen finansierer en rekke åpne data-prosjekter, inkludert en europeisk dataportal, gjennom (DIGITAL Europa-programmet). Midler for finansiering av digitaliseringsprosjekter under DIGITAL Europa-programmet lyses ut flere ganger i året. Både offentlige og private virksomheter kan søke om midler. Kontakt gjerne Digdir om du ønsker mer informasjon om finansieringsmuligheter i DIGITAL-programmet.
Lisensiering av data
Hvilke rettigheter har jeg? Hva betyr det å lisensiere data? Hvilken lisens burde jeg bruke? Hvordan kan jeg angi lisensen som datasettet er tilgjengelig under? Hva kjennetegner en åpen lisens?
Det meste av offentlig sektor sine produkter (f.eks registre, rapporter, nettsider, bilder og datasett) er underlagt åndsverkloven. Denne beskyttelsen begrenser i stor grad hva brukeren kan gjøre med innholdet. For eksempel kan ikke andre fremstille kopier, oversettinger, tilpasninger eller konverteringer til andre format.
Det er to ulike rettigheter som er nedfelt i åndsverkloven og som automatisk følger med de tingene du (og din virksomhet) skaper:
-
Du får opphavsrett til innhold som du lager og som er originale for deg og din virksomhet, som for eksempel tekst du skriver eller bilder du tar.
-
Du får databaserettigheter over “et formular, en katalog, en tabell, et program, en database eller lignende arbeid som sammenstiller et større antall opplysninger, eller som er resultatet av en vesentlig investering” (åndsverksloven §43). Denne rettigheten er også omtalt som katalogvern
I vår sammenheng er det databaserettighetene som er mest relevante. En database er vernet i 15 år etter at den ble fremstilt, eventuelt 15 år etter den første gang ble offentliggjort. En database som jevnlig oppdateres vil i praksis ha et rullerende vern, ved at det stadig fremstilles nye versjoner av basen.
Ettersom opphavsrett og databaserettigheter er automatiske vern, må de som ønsker å bruke informasjonen din ha din tillatelse. Ved å bruke lisenser kan du gi fra deg denne eneretten, slik at brukerne ikke må spørre deg om lov. Lisensen tydeliggjør hva brukerne har lov til å gjøre med innholdet.
Potensiale for bruk av data begrenses vesentlig dersom datasettene ikke har en åpen lisens. Restriksjoner på innhold som offentlig sektor har skapt, kan bidra til lav effektivitet både i offentlig og privat sektor, og kan være til hinder for etablering av nye og innovative produkter og tjenester. Regjeringens Retningslinjer ved tilgjengeliggjøring av offentlige data legger opp til at offentlige virksomheter skal si fra seg egne rettigheter for datasett de forvalter ved å bruke åpne standardlisenser.
Du kan bare lisensiere informasjon som virksomheten selv har rettighetene til, eller som du har fått tillatelse av eieren til å lisensiere. En slik tillatelse kan for eksempel være at data fra tredjepart er publisert under en åpen lisens. |
Hva er åpne lisenser?
En åpen lisens er en generell avtale mellom deg som datatilbyder og brukerne av dine data som inneholder svært få restriksjoner for brukerne. En åpen lisens tillater for eksempel at andre kan:
-
tilgjengeliggjøre dine data på egne hjemmesider
-
trekke ut data fra din tjeneste eller ditt produkt
-
tjene penger ved å selge produkt eller tjenester som bruker dine data
-
tilgjengeliggjøre data og ta betalt for tilgang
Åpne standardlisenser kan deles inn i ulike typer. Disse tre er de viktigste:
“Public domain”-lisenser har ingen restriksjoner og innebærer en fraskrivelse av alle rettene du har til data. Det beste eksemplet på en “public domain”-lisens er Creative Commons Zero (CC0).
Navngivelse lisenser krever at brukerne må oppgi deg (din virksomhet) som kilde i sitt produkt. Eksempler her er Creative Commons Navngivelse 4.0 (CC 4.0-BY) og Norsk lisens for offentlige data (NLOD).
Navngivelse - del på samme vilkår. En slik lisens krever at brukerne deler sitt produkt under de samme vilkår som originalen. I Norge er ikke lisenser av denne typen anbefalt for data fra offentlig sektor, ettersom de begrenser mulighetene for kommersiell bruk i for stor grad. I noen tilfeller kan en slik lisens likevel være et alternativ, for eksempel når bidragsytere ønsker å begrense mulighetene for kommersiell bruk i forbindelse med at
offentlige data berikes med data som samles inn på dugnad (crowdsourcing).
Øvrige lisenser som ikke tillater kommersiell bruk, regnes ikke som åpne lisenser i denne sammenhengen.
Vi er spesielt opptatt av strukturerte data i denne veilederen, men alle Creative Commons 4.0-lisenser dekker andre typer innhold med opphavsrett som tekst, video og bilder. NLOD-lisensen dekker kun strukturerte data. |
Hvilke lisens bør jeg velge?
De to lisensene som er anbefalt brukt i regjeringens retningslinjer er begge navngivelse-lisenser: Creative Commons Navngivelse 4.0 (CC 4.0-BY) og Norsk lisens for offentlige data (NLOD). Dersom du velger CC 4.0-BY legger du bedre til rette for internasjonal bruk.
Du kan også vurdere å bruke Creative Commons Zero (CC0). Du sier da fra deg alle rettigheter til datasettet, inkludert retten til å bli oppgitt som kilde.
Hvordan kommer jeg i gang?
Arbeidet med å gjøre virksomhetens data tilgjengelig som åpne data, bør være godt samordnet med øvrig arbeid med informasjonsforvaltning i virksomheten. Prosessen som er beskrevet her er den samme som i Difis veileder “Orden i eget hus”, men tilpasset formålet: Å gjøre virksomhetenes data tilgjengelig som åpne data.
Hvilke datasett har jeg?
Vi anbefaler å starte med å lage oversikt over datasett og deretter beskrive de nærmere. For noen kan det være hensiktsmessig å ta for seg ulike arbeidsprosesser (f.eks. knyttet til tjenestene som virksomheten tilbyr), og identifisere og beskrive datasett for én og én prosess.
Beskriv datasettene på en overordnet måte: tittel, beskrivelse av innholdet, klassifisering (jf. trafikklyssystemet), utgiver/eier, kontaktperson og hvor ofte de oppdateres. Hensikten med oversikten er at potensielle brukere skal kunne oppdage hvilke data du forvalter, og ha mulighet til å påvirke hvilke datasett du bør tilby først.
Ikke glem fremtidige datasett (data som virksomheten planlegger å samle inn) og data som blir samlet inn av virksomhetens leverandører og konsulenter. Dersom dette er data som er egnet som åpne data, bør en vurdere hvordan dette skal avspeiles i avtaler, kontrakter og finansieringsmodeller. Dette er spesielt viktig ved samarbeid og samfinansiering av datainnsamling.
Hvilke datasett bør jeg tilby først?
Vi anbefaler å starte i det små med datasett som du vet eller tror er etterspurt av andre. Viktige spørsmål: finnes det noen kjente brukerbehov? Vet vi hva som er mest etterspurt? Hva har antatt høyest verdi for brukerne? Finnes det noen lavthengende frukter? Kostnader vs. antatt nytteverdi?
Det er ikke helt rett frem å vurdere hvilke data som har verdi for andre, ettersom du ikke kan vite hvilke formål de kan brukes til. Dersom du publiserer oversikten over hvilke data du har, gir du brukerne mulighet til å etterspørre data og dermed påvirke dine prioriteringer. Trafikklyssystemet (se over) kommuniserer på en enkel måte om data kan tilbys som åpne data (grønne) eller ikke (gule og røde data).
Hvordan bør jeg tilby data?
Når du skal tilby data, skal du følge regjeringens Retningslinjer ved tilgjengeliggjøring av offentlige data. Disse er gjengitt under, med kommentarer og veiledning.
1. Bruk åpne standardlisenser
Data som tilbys skal ha klare vilkår for hvordan de kan brukes. Vilkårene skal åpne for så mange bruksområder som mulig. Dersom data som tilgjengeliggjøres er beskyttet etter åndsverkloven, bør virksomheten si fra seg sine egne eksklusive økonomiske rettigheter til bruk av datasettet. Dette kan enkelt gjøres ved å bruke åpne standardlisenser som Creative Commons 4.0 eller Norsk lisens for offentlige data (NLOD). Disse standardlisensene sikrer en helhetlig praksis for hvilke rettigheter brukerne har, og fritar samtidig utgiver for juridisk ansvar knyttet til datakvalitet og hva data blir brukt til.
I tillegg til NLOD og CC-BY 4.0 kan du som eier og utgiver av data velge å dedikere datasett til det fri ved å bruke Creative Commons Zero (CC0). CC0 er en fullstendig fraskrivelse av dine retter som rettighetshaver, og brukerne kan bruke data fritt uten å oppgi kilde. CC0 er anbefalt av EU-kommisjonen.
Når du registrerer datasett på data.norge.no, Felles datakatalog eller Geonorge.no er angivelse av lisens ivaretatt i registreringsskjemaet. Dersom du har en lokal datakatalog som de nasjonale katalogene skal høste datasettbeskrivelser fra, må lisensen angis i tråd med Standard for beskrivelse av datasett og datakataloger
Dersom du har en egen nettside som omtaler virksomhetens åpne datasett, bør lisensen omtales også der, for eksempel slik:
«Dette datasettet er gjort tilgjengelig under <navn på lisens>. Lisensens fulle tekst er tilgjengelig på <url>.»
Du kan i tillegg legge inn informasjonen om lisensen direkte i datasettet eller i API-et. Dette sikrer at lisensinformasjonen følger med datasettet.
2. Tilby data gratis
Hovedregelen er at data skal være gratis, og at det ikke er anledning til å ta betalt for kostnader til innsamling og produksjon av data for viderebruk. Det finnes enkelte unntak i offentlighetsloven (§ 8) og -forskriften (§ 4) som gir anledning til å ta betalt for data.
Virksomheter som krever betaling for informasjon, skal offentliggjøre betalingssatsene i elektronisk form. Alle opplysninger om grunnlaget for utregning av betalingssatsene skal også publiseres elektronisk, slik at de er lette å finne for potensielle brukere.
Merk at betalingssatser med opplysninger om hva avgiften dekker skal være offentliggjort og at utgifter til innsamling av data ikke kan dekkes av avgiften.
3. Tilby data uten brukerregistrering
Data skal i utgangspunktet gjøres tilgjengelig uten at brukeren må søke om tillatelse eller registrere seg. I tråd med bestemmelsene i offentlighetsloven skal data kunne benyttes hvor som helst, av hvem som helst, og til ethvert formål. Brukere bør samtidig oppmuntres til å oppgi kontaktinformasjon, slik at utgiveren kan varsle brukerne for eksempel ved endringer eller driftsavbrudd.
Ved frivillig registrering kan brukerne selv vurdere om de vil bli kontaktet, og tar selv risikoen ved å ikke gjøre det. De åpne data-tjenestene til Stortinget er et godt eksempel på bruk av frivillig registrering. Alternativt vil en fast adresse i form av en nettside, RSS-strøm og/eller en Twitter-konto der driftsmeldinger og øvrige meldinger publiseres, være et godt alternativ til å be brukerne oppgi kontaktinformasjon. Her er Statens vegvesens Twitter-konto @VegvesenData et godt eksempel.
4. Dokumenter datasettene
Virksomhetene bør dokumentere datasettene slik at det blir enkelt å ta datasettene i bruk både for mennesker og maskiner. Med dokumentasjon mener vi beskrivelser som gjør det mulig for andre å oppdage, forstå og bruke dine data.
På data.norge.no kan du registrere åpne datasett på en enkel måte. Beskrivelsene blir samtidig gjort tilgjengelig for andre dataportaler som den europeiske datakatalogen. Dersom du ønsker en lokal datakatalog for din virksomhet må løsningen tilby maskinlesbare datasettbeskrivelser i tråd med “Standard for beskrivelse av datasett og datakataloger”.
For dokumentasjon av API-er anbefaler vi å bruke OpenAPI Specification
5. Tilby informasjon om datakvalitet
Kvaliteten på virksomhetens data påvirker hvor egnet de er til andre formål enn de først ble skapt for. Dokumentering av datakvalitet er til stor hjelp i prosessen med å vurdere om virksomhetens datasett er egnet til andre formål, og øker sjansen for bruk. Datakvaliteten bør derfor være dokumentert, og kjente utfordringer bør eksplisitt omtales i beskrivelsene.
Eksempel på opplysninger om datakvalitet kan være opplysninger om hvor nøyaktige eller komplette de er, når de sist ble oppdatert, kjente feil eller mangler, eller hvordan innsamlingen av data skjer.
6. Tilby oppdaterte data
Virksomheten bør tilby oppdaterte data og være tydelig på hvilken oppdateringsfrekvens som gjelder. Tjenesten som leverer data bør ha et tjenestenivå tilpasset brukernes behov.
Det finnes flere måter å publisere oppdateringer av datasett på:
-
Dersom du tilbyr en fil for nedlasting, kan du oppdatere den samme filen uten å endre struktur eller selve adressen filen er tilgjengelig på. Opplysninger om når filen sist ble oppdatert er viktig for brukerne.
-
Dersom du tilbyr et periodisk datasett - altså et datasett som oppdateres med faste intervaller (tidsserie), kan det være hensiktsmessig å legge til en ny fil uten å endre den forrige. Dersom du bruker et fast mønster for URL-ene gjør du det enkelt for brukerne å automatisere uthentingen av siste versjon.
-
Dersom du tilbyr data som oppdateres ofte (eller uregelmessig), er det gjerne mest hensiktmessig for brukerne å hente data fra et API eller eventuelt en RSS-strøm.
7. Gjør data synlige
For at potensielle brukere av offentlige data enkelt skal kunne finne data, bør beskrivelser av datasett være tilgjengelig på data.norge.no, som er en katalog med beskrivelser av åpne datasett fra det offentlige. Difi gir anbefalinger om formater for dette formålet i dokumentet Standard for beskrivelser av datasett og datakataloger. Virksomheten bør vurdere å tilby beskrivelser på engelsk i tillegg til norsk.
Registreringsskjemane til de nasjonale datakatalogene (data.norge.no, Felles datakatalog og Geonorge.no) støtter alle gjeldende anbefalinger og krav knytter til datakataloger for offentlige virksomheter. Dersom du velger å etablere en egen/lokal datakatalog for din virksomhet, må du sikre at gjeldende standarder støttes, slik at de nasjonale katalogene kan høste datasettbeskrivelser fra din løsning.
8. Bruk maskinlesbare og standardiserte formater
Data skal være tilgjengelig i maskinlesbare formater. I tillegg bør formatene være standardiserte. Dette sikrer god samhandlingsevne med annen informasjon (interoperabilitet) og legger ikke unødvendige begrensninger på hva informasjonen kan brukes til i fremtiden. Eksempler på maskinlesbare og standardiserte formater er CSV, XML, JSON og RDF-serialiseringer som RDF/XML, JSON-LD og Turtle.
En CSV-fil for nedlasting er en god start når du skal tilby åpne data. Dersom utgangspunktet ditt er et regneark i Excel er konvertering til CSV samtidig en god avsjekk på om strukturen i datasettet er god. Rene rader og kolonner uten formler, mellomtitler og summeringer øker gjerne gjenbruksverdien. Komplekse regneark kan med fordel splittes i flere datasett.
9. Tilby data gjennom et programmeringsgrensesnitt
Et programmeringsgrensesnitt (API) er en måte å tilby data på som gjør det mulig for annen programvare å gjøre oppslag i hele eller spesifikke deler av virksomhetens data via internett. Det gjør det for eksempel mulig å bruke data i sanntid, filtrere på forespørsel, og å arbeide med data på dataelementnivå uten at brukerne må opprette lokale kopier av datasettene. Et programmeringsgrensesnitt er den beste måten å gjøre data tilgjengelig på dersom datasettene er store, komplekse eller oppdateres ofte.
I utforming av et API, er det viktig å tenke på hvordan best å gjøre data tilgjengelige og lette å anvende. REST-API-er er en svært populært API-stil, og dermed en godt sted å begynne, fremfor eldre stiler som SOAP, som er vanskeligere for brukere å anvende. Vi anbefaler å benytte egenskaper i standarden du følger. For API-er som bruker HTTP-protokollen, kan du for eksempel støtte ETag for at brukere lett kan sjekke om noe er oppdatert, og kompresjon (gzip, brotli) for raskere overføring. Vi anbefaler også å benytte OpenAPI-Specification for dokumentasjon og Semantic Versioning (Semver) for versjonering.
10. Tilby komplett nedlasting
Selv om et programmeringsgrensesnitt er en svært fleksibel måte å tilby data på, kan brukerne også ha behov for å laste ned komplette datasett for å etablere lokale kopier. Komplett nedlasting kan tilbys som funksjonalitet i et programmeringsgrensesnitt, eller som en maskinlesbar fil publisert på internett.
API-er er ikke for alle. Noen brukere har behov for å laste ned data for å kunne bearbeide, analysere og sammenstille datasett. CSV-filer er praktiske til dette formålet ettersom det lett kan importeres i Excel, databaser eller ulike analyseverktøy. For svært store datasett bør en vurdere å tilby nedlasting av søkeresultater (filter) for å unngå at filene overstiger regnearkprogrammenes maksgrense på (litt over) en million rader.
11. Bruk faste adresser og unike identifikatorer
Data bør ha unike, permanente og hensiktsmessige adresser på internett, slik at det er mulig å lenke data sammen. Dette gjelder selve datasettet og versjoner og serier av dette, samt datasettets elementer. Data får økt verdi om de refererer til andres data om samme ting, samme sted, samme hendelse, samme person osv. Det betyr at alle bør bruke samme identifikatorer på tvers av datasett, og legge til rette for at egne identifikatorer kan refereres til av andre.
Ettersom de nasjonale datakatalogene ikke innholder selve datasettet (men bare beskrivelser med lenker til datasettet) er det helt avgjørende for brukerne at adressen til datasettet ikke endres.
For periodiske datasett der selve datasettet ikke oppdateres men nye filer legges til for hver nye periode (tidsserier), bør adressene følge et fast mønster slik at det er mulig å forutsi hva adressen til det nye datasettet kommer til å bli. Dette vil for eksempel gjøre det mulig for brukerne å automatisere nedlasting av lokale kopier.
God bruk av unike identifikatorer for selve dataelementene øker gjenbruksverdien ettersom det blir mulig å referere til dine data og kombinere data fra flere kilder. Bruk nasjonale og globale identifikatorer (for eksempel kommunenummer og organisasjonsnummer) der disse finnes.
URLer kan også fungere fint som identifikatorer gitt at de er unike, permanente og hensiktsmessige. URLer som samtidig er identifikatorer for en ressurs (for eksempel et datasett, begrep eller en opplysning) kaller vi URIer (Uniform Resource Identifier).
Se Referansekatalogen for IT-standarder for anbefalinger om hvordan identifikatorer i form av URIer (pekere til offentlige ressurser) bør utformes.
12. Publiser oversikt over virksomhetens data
Hvilke data som tilgjengeliggjøres bør være drevet av brukernes behov. For at brukerne skal kunne finne og bruke dine data, må de vite hvilke data du har. Virksomheten bør derfor vedlikeholde og publisere en oversikt over hvilke data de forvalter. Dette gjelder også beskrivelser av datasett som av forskjellige grunner ikke er tilgjengeliggjort.
På Data.norge.no kan du registrere datasett selv om ikke selve datasettet er tilgjengelig ennå. Synliggjøring av beskrivelser i en datakatalog er uansett viktig for at brukerne skal vite at data finnes og hvem som forvalter de. Du kan også publisere oversikten lokalt på virksomhetens egne hjemmesider, men beskrivelsene må samtidig være tilgjengelig i maskinlesbart format i tråd med Standard for beskrivelse av datasett, datatjenester og datakataloger (DCAT-AP-NO) slik at de kan høstes av de nasjonale katalogene.
13. Tilpass data til brukernes behov
Virksomhetene bør tilpasse data slik at brukere enkelt kan ta dem i bruk, for eksempel ved å lage systemer for spørringer som er tilpasset spesifikke formål. Slike tilpasninger bør likevel ikke være til hinder for at datasett også blir gjort tilgjengelig i sin opprinnelige form, dersom dette blir etterspurt. Her er det viktig at virksomhetene er åpne for innspill fra de som ønsker å bruke datasettene.
Å tilby data er en offentlig tjeneste på lik linje med å tilby en hvilken som helst annen offentlig tjeneste. Prinsippet om “brukeren i sentrum” står sentralt også her. Brukerne i denne sammenhengen er gjerne aktører som skal bruke data i en tjeneste, beslutningsprosess eller til forskning. Måten vi tilbyr data på kan være helt avgjørende for en god og effektiv bruk.
Digdir anbefaler at virksomheten selv bruker den samme datakilden i egne prosesser som du tilbyr til andre fremfor å ha en datakilde til internt bruk og en for eksterne brukere (gitt at opplysningene er de samme).
14. Oppmuntre til bruk
Å gjøre data åpent tilgjengelig er ikke nok for at data skal bli brukt. Utgivere bør samhandle med brukerne og aktivt oppmuntre til bruk av deres data.
Inviter gjerne brukerne til workshops eller seminarer for å gjøre de bedre kjent med datasettene du tilbyr og for å fange opp hvilke behov de har. Deltakelse på hackathons eller tilsvarende arrangementer er også en fin måte å oppmuntre til bruk av egne data på. Det finnes også egne grupper på ulike sosiale plattformer (for eksempel Facebook og Slack) som har åpne data og/eller informasjonsforvaltning som tema.
15. Legg til rette for tilbakemeldinger
Gjennom å tilby brukerne muligheten for å gi tilbakemeldinger, vil virksomheten ha bedre forutsetninger for å forstå behovene til brukerne. Dette vil bidra til å forbedre kvaliteten på publiserte data og til å bygge tillit mellom utgiveren og brukerne.
I tillegg til at det skal være mulig å kontakte deg for spørsmål og tilbakemeldinger, bør virksomheten ha rutiner for å følge opp innspill som brukerne kommer med. Innspill fra brukerne vil være nyttige både for å forbedre datakvalitet og som innspill til hvordan du leverer data.
Sjekkliste for publisering av åpne data
Følgende huskeliste kan være til hjelp i prosessen med å identifisere, tilrettelegge og tilgjengeliggjøre åpne data i din virksomhet:
-
Historiske datasett
-
Periodiske datasett
-
Levende data
-
Fremtidig datainnsamling (nye data)
-
Data som er samlet inn av våre leverandører og konsulenter
-
Data som kan forbedre og strømlinjeforme offentlige tjenester
-
Data som kan forbedre og strømlinjeforme tjenester som privat sektor tilbyr
-
Data som har potensiell verdi for samfunnet eller næringslivet
-
Data som bidrar til økt åpenhet i samfunnet
-
Data som alt er gjort tilgjengelig, men som ikke er synlige eller brukervenlige nok
-
Data som har antatt høy verdi for offentlig sektor, næringslivet eller samfunnet som helhet
-
Data som er etterspurt
-
Publiser en oversikt over virksomhetens data
-
Hensynet til personvern er vurdert
-
De inneholder ikke graderte opplysninnger
-
De inneholder ikke forretningshemmeligheter
-
De innholder ikke informasjon som tredjeparter har rettigheter til
-
Tilgjengeliggjøring er ikke i strid med lover og forskrifter
-
Bruk åpne standardlisenser
-
Tilby data gratis
-
Tilby data uten brukerregistering
-
Dokumenter datasettene
-
Tilby informasjon om datakvalitet
-
Tilby oppdaterte data
-
Gjør data synlige
-
Bruk maskinlesbare og standardiserte formater
-
Tilby data gjennom et programmeringsgrensesnitt
-
Tilby komplett nedlasting
-
Bruk faste adresser og unike identifikatorer
-
Tilpass data til brukernes behov
-
Oppmuntre til bruk
-
Legg til rette for tilbakemeldinger