Lage beskrivelsen

Da er du klar til å lage beskrivelsen i riktig format, sånn at det kan publiseres til data.norge.no. Det er her moroa begynner!

Nyttig å vite: Vi må lage beskrivelsen i et strukturert dataformat som data.norge.no sitt system kan forstå. Dette formatet heter RDF (Resource Description Framework) og er i bruk også blant andre europeiske dataportaler og i flere private virksomheter sine datakataloger. RDF kan skrives på flere ulike måter – i eksemplene under bruker vi RDF-formatet som heter Turtle – men du velger selv hvilket du vil bruke. Du kan lese mer om RDF her

Viktig: Du bør bruke et tekstredigeringsprogram som ikke formaterer teksten. Microsoft Word egner seg dårlig, mens Windows Notepad, VS Code eller lignende fungerer bra.

Identifikator for beskrivelsen (URI)

Aller først må vi angi en unik identifikator for datasettbeskrivelsen, i form av en URI (Uniform Resource Identifer). Den bør være persistent og unik. URI-en kan peke til en faktisk nettressurs som er tilgjengelig på nett, men det er ikke nødvendig.

For beskrivelsen av KI-prosjekter bruker vi URI-en https://data.digdir.no/datasets/ai_projects_norwegian_state_dataset

Denne identifikatoren kan nå brukes av alle systemer overalt for å peke til nøyaktig den samme tingen.

Tittel og beskrivelse

Vi vil nå legge til tittelen vi har forberedt, både på bokmål, nynorsk og engelsk. Da bruker vi egenskapen dct:title, og kan angi språket for teksten med @nb for bokmål, @nn for nynorsk og @en for engelsk. Resultatet blir slik:

<https://data.digdir.no/datasets/ai_projects_norwegian_state_dataset> rdf:type dcat:Dataset ; dct:title "Kunstig intelligens - oversikt over prosjekter i offentlig sektor"@nb , "Kunstig intelligens - oversikt over prosjekt i offentleg sektor"@nn , "Artificial intelligence - overview of projects in the public sector"@en ; .

Og tilsvarende vil vi legge til en tekstlig beskrivelse på bokmål, nynorsk og engelsk. Til det bruker vi egenskapen dct:description

<https://data.digdir.no/datasets/ai_projects_norwegian_state_dataset> rdf:type dcat:Dataset ; dct:title "Kunstig intelligens - oversikt over prosjekter i offentlig sektor"@nb , "Kunstig intelligens - oversikt over prosjekt i offentleg sektor"@nn , "Artificial intelligence - overview of projects in the Norwegian public sector"@en ; dct:description "En oversikt over kunstig intelligens-prosjekter i offentlig sektor. Oversikten er ikke komplett."@nb , "Ei oversikt over kunstig intelligens-prosjekt i offentleg sektor. Oversikta er ikkje komplett"@nn , "An overview of artificial intelligence projects in the public sector. The overview is not complete."@en ; .

Merk: For å spare plass i eksemplene har vi utelatt de såkalte prefiksene. Men alle eksemplene trenger at prefiksene listet opp rett under er definert for å være gyldig Turtle og RDF. Så bare forestill deg at disse linjene står før hvert eksempel. Til slutt kommer et komplett eksempel hvor vi også inkluderer prefiksene.

@prefix rdf: <http://www.w3.org/1999/02/22-rdf-syntax-ns#> . @prefix foaf: <http://xmlns.com/foaf/0.1/> . @prefix dcat: <http://www.w3.org/ns/dcat#> . @prefix dct: <http://purl.org/dc/terms/> . @prefix prov: <http://www.w3.org/ns/prov#> . @prefix vcard: <http://www.w3.org/2006/vcard/ns#> . @prefix provno: <https://data.norge.no/vocabulary/provno#> .

Utgiver og kontaktpunkt for datasett

Vi vil nå si at Digitaliseringsdirektoratetet, med organisasjonsnummer 991825827 er utgiver av datasettet. Vi bruker da egenskapen dct:publisher og peker til en URI som representerer Digdir: https://organization-catalogue.fellesdatakatalog.digdir.no/organizations/991825827. Denne URI-utformingen følger konvensjonen blant datasettbeskrivelser i Norge. Publiserer du for en annen virksomhet kan du bare bytte ut de siste ni sifrene i URI-en med organisasjonsnummeret til virksomheten som er ansvarlig for datasettet du beskriver.

I tillegg vil vi legge til informasjon om hvem som i Digdir som kan kontaktes angående spesifikt dette datasettet. Det gjør vi ved hjelp av et kontakt-kort vcard:Organization, og der vil vi oppgi navn og epost med egenskapene vcard:fn og vcard:hasEmail.

Beskrivelsen vil da se slik ut:

<https://data.digdir.no/datasets/ai_projects_norwegian_state_dataset> rdf:type dcat:Dataset ; # ...tittel og beskrivelse utelatt dct:publisher <https://organization-catalogue.fellesdatakatalog.digdir.no/organizations/991825827> ; dcat:contactPoint <https://data.digdir.no/contact/aiContactPoint> ; . <https://data.digdir.no/contact/aiContactPoint> rdf:type vcard:Organization ; vcard:hasEmail "postmottak@digdir.no" ; vcard:fn "Kunstig Intelligens Digdir" ; .

Tips: Du kan legge inn kommentarer i Turtle med tegnet #, da ignoreres det som kommer etter.

Ressurser uten navn: Blanke noder

I beskrivelsen over har kontaktinfoen fått en egen identifikator, <https://data.digdir.no/contact/aiContactPoint>, noe som egentlig ikke er nødvendig. Det eneste vi trenger er nemlig eposten og navnet på gruppen eller teamet i Digdir som kan kontaktes, kontaktpunktet trenger ikke en egen identifikator. For å unngå dette kan vi opprette en såkalt blank node, eller navnløs ressurs, ved hjelp av hakeparenteser [...]. Det vil da se slik ut:

<https://data.digdir.no/datasets/ai_projects_norwegian_state_dataset> rdf:type dcat:Dataset ; # ...tittel og beskrivelse utelatt dct:publisher <https://organization-catalogue.fellesdatakatalog.digdir.no/organizations/991825827> ; dcat:contactPoint [ rdf:type vcard:Organization ; vcard:hasEmail "postmottak@digdir.no" ; vcard:fn "Postmottak Digdir" ; ] ; .

Dette sier akkurat det samme som beskrivelsen over, men her slipper vi å lage en unødvendig URI for kontaktpunktet.

Nøkkelord og tema

Datasettet kan knyttes til noen nøkkelord, for eksempel "kunstig intelligens" og "offentlig sektor". Vi bruker egenskapen dct:keyword og lager tekster på både på bokmål, nynorsk og engelsk.

<https://data.digdir.no/datasets/ai_projects_norwegian_state_dataset> rdf:type dcat:Dataset ; # ... dct:keyword "kunstig intelligens"@nb , "kunstig intelligens"@nn , "artificial intelligence"@en, "offentlig sektor"@nb , "offentleg sektor"@nn , "public sector"@en ; .

I tillegg vil vi bruke egenskapen dcat:theme for å knytte datasettet til koder fra offentlige kodelister som EU forvalter. Vi vil bruke to koder her: den første er fra kodelisten Data Theme, http://publications.europa.eu/resource/authority/data-theme/GOVE, og den andre er fra kodelisten EuroVoc, http://eurovoc.europa.eu/3030. Den første sier at datasettet kan tematisk knyttes til offentlig sektor ("Government and public sector"), mens den andre koden peker til begrepet "Artifical Intelligence". Dette vil se ut slik i Turtle:

<https://data.digdir.no/datasets/ai_projects_norwegian_state_dataset> rdf:type dcat:Dataset ; # ... dcat:theme <http://publications.europa.eu/resource/authority/data-theme/GOVE>, <http://eurovoc.europa.eu/3030> ; .

Alle datasettbeskrivelser må ha minst ett tema angitt med dcat:theme, og temaet må enten peke til kodelisten Data Theme eller kodelisten EuroVoc. I tillegg kan du peke til temaer fra kodelisten LOS som Digdir forvalter.

For å finne aktuelle koder til din beskrivelse kan du se gjennom innholdet i kodelistene på:

Geografisk avgrensing

Ved hjelp av egenskapen dct:spatial og en eksisterende kode som representerer det geografiske området Norge kan vi uttrykket at datasettet er begrenset til Norge:

<https://data.digdir.no/datasets/ai_projects_norwegian_state_dataset> rdf:type dcat:Dataset ; # ... dct:spatial <http://publications.europa.eu/resource/authority/country/NOR> ; .

Dataopphav og tilgang

Vi vil si at datasettet er basert på innsamling fra tredjeparter, og at datasettet har åpen tilgang. For å beskrive datasettets opphav bruker vi egenskapen prov:wasGeneratedBy og peker til en kode som representerer "Innsamlet fra tredjeparter". For å uttrykke at at datasettet er åpent bruker vi egenskapen dct:accessRights og peker til eksisterende koder som representerer "Åpen data".

<https://data.digdir.no/datasets/ai_projects_norwegian_state_dataset> rdf:type dcat:Dataset ; # ... prov:wasGeneratedBy <https://data.norge.no/vocabulary/provno#collectingFromThirdparty> ; dct:accessRights <http://publications.europa.eu/resource/authority/access-right/PUBLIC> ; .

Nettsiden

Datasettet har en egen nettside som kan besøkes på https://data.norge.no/kunstig-intelligens. Det kan vi legge til i beskrivelsen med egenskapen foaf:page.

<https://data.digdir.no/datasets/ai_projects_norwegian_state_dataset> rdf:type dcat:Dataset ; # ... foaf:page <https://data.norge.no/kunstig-intelligens> ; .

Komplett beskrivelse av datasettet:

Hele beskrivelsen av datasettet i Turtle-format vil så langt se slik ut:

@prefix rdf: <http://www.w3.org/1999/02/22-rdf-syntax-ns#> . @prefix foaf: <http://xmlns.com/foaf/0.1/> . @prefix dcat: <http://www.w3.org/ns/dcat#> . @prefix dct: <http://purl.org/dc/terms/> . @prefix prov: <http://www.w3.org/ns/prov#> . @prefix vcard: <http://www.w3.org/2006/vcard/ns#> . @prefix provno: <https://data.norge.no/vocabulary/provno#> . <https://data.digdir.no/datasets/ai_projects_norwegian_state_dataset> a dcat:Dataset ; dct:title "Kunstig intelligens - oversikt over prosjekter i offentlig sektor"@nb , "Kunstig intelligens - oversikt over prosjekt i offentleg sektor"@nn , "Artificial intelligence - overview of projects in the public sector"@en ; dct:description "En oversikt over kunstig intelligens-prosjekter i offentlig sektor. Oversikten er ikke komplett."@nb , "Ei oversikt over kunstig intelligens-prosjekt i offentleg sektor. Oversikta er ikkje komplett"@nn , "An overview of artificial intelligence projects in the public sector. The overview is not complete."@en ; dct:publisher <https://organization-catalogue.fellesdatakatalog.digdir.no/organizations/991825827> ; dcat:contactPoint [ rdf:type vcard:Organization ; vcard:hasEmail "postmottak@digdir.no" ; vcard:fn "Kunstig Intelligens Digdir" ; ] ; dct:keyword "kunstig intelligens"@nb , "kunstig intelligens"@nn , "artificial intelligence"@en, "offentlig sektor"@nb , "offentleg sektor"@nn , "public sector"@en ; dcat:theme <http://publications.europa.eu/resource/authority/data-theme/GOVE>, <http://eurovoc.europa.eu/3030> ; dct:spatial <http://publications.europa.eu/resource/authority/country/NOR> ; prov:wasGeneratedBy provno:collectingFromThirdparty ; dct:accessRights <http://publications.europa.eu/resource/authority/access-right/PUBLIC> ; foaf:page <https://data.norge.no/kunstig-intelligens> ; .

Validering

Du kan nå validere beskrivelsen i DCAT-AP-NO-validatoren for å sjekke at den samsvarer med standarden/spesifikasjonen for datasettbeskrivelser. Validatoren sjekker at du har fylt ut alle obligatoriske felt, og at feltene har riktig type innhold.

Tips: For å finne ut hvor det eventuelt er syntaksfeil kan du sjekke beskrivelsen din på https://www.easyrdf.org/converter. Den gir tilbakemelding om hvilken linje som inneholder feil, men den vet ingenting om beskrivelsen din er i henhold til DCAT-AP-NO.