Standardem reprezentace distribucí datových sad na stupni otevřenosti 4 a 5 je datový model RDF. Distribuce jsou pak zapisovány v jednom z formátů pro zápis datového modelu RDF v kódování UTF-8.

Datový model RDF

Resource Description Framework (RDF, http://www.w3.org/TR/rdf11-concepts/) je datový model pro reprezentaci dat v síti WWW vytvořený a spravovaný konsorciem WWW. Data reprezentuje v podobě trojic

subjekt predikát objekt

Trojice reprezentuje hodnotu (zapsanou v místě objektu) vlastnosti (zapsanou v místě predikátu) nějaké entity (zapsané v místě subjektu). Subjektem je vždy entita. Objektem může být buď primitivní datová hodnota (řetězec, číslo apod.) nebo jiná entita. Predikátem je vlastnost subjektu, pro kterou chceme v trojici reprezentovat hodnotu.

Entity (jak na místě subjektu tak objektu) jsou identifikovány pomocí identifikátoru ve tvaru IRI. Vlastnosti jsou také identifikovány pomocí IRI. V trojicích jsou entity i vlastnosti zapisovány pomocí svého identifikačního IRI. Primitivní hodnoty jsou zapisovány jako řetězce znaků.

Entity navíc mohou být zařazeny to tzv. třídy. Do jedné třídy jsou zařazeny entity se stejnou charakteristikou. Např. všechny knihy v datové sadě mohou být zařazeny do třídy Kniha. Třídy jsou podobně jako entity a vlastnosti identifikovány pomocí IRI. Entita je zařazena do třídy pomocí RDF trojice, kde je v místě predikátu uvedeno klíčové slovo a (vychází z anglického neurčitého členu).

Třídy a vlastnosti jsou definovány pomocí tzv. ontologií. K ontologiím více viz Technické standardy vytváření datových schémat pro datové sady na stupni otevřenosti 4 a 5.

Standardy pro zápis dat v datovém modelu RDF

Standardními formáty pro zápis dat v datovém modelu RDF jsou následující formáty:

Pokud je distribuce datové sady zapsána v některém z těchto formátů a splňuje pravidla datového modelu RDF, je nazývána RDF distribuce.

Standardy tvorby IRI

Poskytovatel dat je povinen definovat IRI pro identifikaci entit, o kterých v distribucích svých datových sad na stupni otevřenosti 4 a 5 publikuje nějaké údaje. IRI musí být v rámci DNS domény poskytovatele.

V případě, že poskytovatel vlastní doménu druhého řádu je základem všech jeho IRI:

http://data.{doména-druhého-řádu}.{doména-prvního-řádu}

Prvky {doména-prvního-řádu} a {doména-druhého-řádu} jsou DNS doménou prvního a druhého řádu poskytovatele. Alternativně lze místo protokolu HTTP volit protokol HTTPS.

V případě, že poskytovatel nevlastní doménu druhého řádu, může využít doménu druhého řádu svého zřizovatele (pokud má zřizovatele a ten vlastní doménu druhého řádu). Potom je základem všech jeho IRI

http://data.{doména-druhého-řádu}.{doména-prvního-řádu}/{určení-poskytovatele}

Prvky {doména-prvního-řádu} a {doména-druhého-řádu} jsou DNS doménou prvního a druhého řádu zřizovatele poskytovatele. Prvek {určení-poskytovatele} volí poskytovatel dat tak, aby jej výsledné IRI jednoznačně identifikovalo mezi IRI ostatních poskytovatelů se stejným zřizovatelem. Alternativně lze opět místo protokolu HTTP volit protokol HTTPS.

Není-li možné využít doménu druhého řádu zřizovatele, může poskytovatel využít URL svého WWW portálu či prezentace. Potom je základem všech jeho IRI:

{homepage-URL}/data

Prvek {homepage-URL} je URL domácí stránky WWW portálu či prezentace poskytovatele.

IRI entit pak mají tvar

{základ-IRI}/resource/{určení-entity}

Prvek {základ-IRI} je základ všech IRI poskytovatele. Prvek {určení-entity} volí poskytovatel dat libovolně tak, aby výsledné IRI bylo validním IRI a identifikovalo entitu jednoznačně. Tvar tohoto prvku není dále upravován a je tak plně v kompetenci poskytovatele dat.

Standardy propojených dat

Standardy propojených dat vyžadují, aby pro IRI entit byly navíc splněny následující podmínky:

  • IRI entit jsou dereferencovatelná, tj. při požadavku na přístup k IRI entity prostřednictvím HTTP(S) protokolu jsou vráceny údaje, které se entity týkají. Údaje jsou reprezentovány v datovém modelu RDF a zapsány ve formátech určených pro zápis tohoto datového modelu (zejména Turtle, TriG, nebo JSON-LD). Vráceny jsou všechny údaje o entitě vyskytující se ve všech datových sadách poskytovatele.
  • Mezi údaji vrácenými při požadavku na přístup k IRI entity jsou v datovém modelu RDF vráceny i RDF trojice, v jejichž subjektech či objektech se vyskytují IRI entit jiného poskytovatele.

V souvislosti s bodem 2 je standardem explicitně vyjadřovat ekvivalenční vazbu mezi různými IRI vytvořených různými poskytovateli, které však označují stejnou entitu. Pokud poskytovatel zjistí, že vytváří IRI pro entity, pro které již vytvořil IRI i jiný poskytovatel, zveřejní datovou sadu na stupni otevřenosti 5, která obsahuje ekvivalenční vazby mezi jeho IRI a IRI jiného poskytovatele. Ekvivalenční vazba mezi entitou A a B je vyjádřena v podobě následující RDF trojice:

  • subjekt : URI entity A
  • predikát : http://www.w3.org/2002/07/owl#sameAs
  • objekt : URI entity B