Toto je starší verze dokumentu!


Standardem reprezentace distribucí datových sad na stupni otevřenosti 4 a 5 je datový model RDF. Distribuce jsou pak zapisovány v jednom z formátů pro zápis datového modelu RDF v kódování UTF-8.

Resource Description Framework (RDF, http://www.w3.org/TR/rdf11-concepts/) je datový model pro reprezentaci dat v síti WWW vytvořený a spravovaný konsorciem WWW. Data reprezentuje v podobě trojic

<center><code>subjekt predikát objekt</code></center>

Trojice reprezentuje hodnotu (zapsanou v místě objektu) vlastnosti (zapsanou v místě predikátu) nějaké entity (zapsané v místě subjektu). Subjektem je vždy entita. Objektem může být buď primitivní datová hodnota (řetězec, číslo apod.) nebo jiná entita. Predikátem je vlastnost subjektu, pro kterou chceme v trojici reprezentovat hodnotu.

Entity (jak na místě subjektu tak objektu) jsou identifikovány pomocí identifikátoru ve tvaru IRI. Vlastnosti jsou také identifikovány pomocí IRI. V trojicích jsou entity i vlastnosti zapisovány pomocí svého identifikačního IRI. Primitivní hodnoty jsou zapisovány jako řetězce znaků.

Entity navíc mohou být zařazeny to tzv. třídy. Do jedné třídy jsou zařazeny entity se stejnou charakteristikou. Např. všechny knihy v datové sadě mohou být zařazeny do třídy Kniha. Třídy jsou stejně jako ostatní entity a vlastnosti identifikovány pomocí IRI. Entita je zařazena do třídy pomocí RDF trojice s predikátem rdf:type.

Třídy a vlastnosti jsou definovány pomocí tzv. slovníků či ontologií. K slovníkům a ontologiím více viz Technické standardy vytváření datových schémat pro datové sady na stupni otevřenosti 4 a 5.

Standardními formáty pro zápis dat v datovém modelu RDF jsou následující formáty:

Pokud je distribuce datové sady zapsána v některém z těchto formátů a splňuje pravidla datového modelu RDF, je nazývána RDF distribuce.

Poskytovatel dat je povinen definovat IRI pro identifikaci entit, o kterých v distribucích svých datových sad na stupni otevřenosti 4 a 5 publikuje nějaké údaje. IRI musí být v rámci DNS domény poskytovatele.

V případě, že poskytovatel vlastní doménu druhého řádu je základem všech jeho IRI:

<center><code>https://data.{doména-druhého-řádu}.{doména-prvního-řádu}</code></center>

Prvky {doména-prvního-řádu} a {doména-druhého-řádu} jsou DNS doménou prvního a druhého řádu poskytovatele.

V případě, že poskytovatel nevlastní doménu druhého řádu, může využít doménu druhého řádu svého zřizovatele (pokud má zřizovatele a ten vlastní doménu druhého řádu). Potom je základem všech jeho IRI

<center><code>https://data.{doména-druhého-řádu}.{doména-prvního-řádu}/{určení-poskytovatele}</code></center>

Prvky {doména-prvního-řádu} a {doména-druhého-řádu} jsou DNS doménou prvního a druhého řádu zřizovatele poskytovatele. Prvek {určení-poskytovatele} volí poskytovatel dat tak, aby jej výsledné IRI jednoznačně identifikovalo mezi IRI ostatních poskytovatelů se stejným zřizovatelem.

Není-li možné využít doménu druhého řádu zřizovatele, může poskytovatel využít URL svého WWW portálu či prezentace. Potom je základem všech jeho IRI:

<center><code>{homepage-URL}/data</code></center>

Prvek {homepage-URL} je URL domácí stránky WWW portálu či prezentace poskytovatele.

IRI entit pak mají tvar

<center><code>{základ-IRI}/resource/{určení-entity}</code></center>

Prvek {základ-IRI} je základ všech IRI poskytovatele. Prvek {určení-entity} volí poskytovatel dat libovolně tak, aby výsledné IRI bylo validním IRI a identifikovalo entitu jednoznačně. Tvar tohoto prvku není dále upravován a je tak plně v kompetenci poskytovatele dat.

Standardy propojených dat vyžadují, aby pro IRI entit byly navíc splněny následující podmínky:

  • IRI entit jsou dereferencovatelná, tj. při požadavku na přístup k IRI entity prostřednictvím HTTPS protokolu jsou vráceny údaje, které se entity týkají. Údaje jsou reprezentovány v datovém modelu RDF a zapsány ve formátech určených pro zápis tohoto datového modelu (zejména Turtle, TriG, nebo JSON-LD). Vráceny jsou všechny údaje o entitě vyskytující se ve všech datových sadách poskytovatele.
  • Mezi údaji vrácenými při požadavku na přístup k IRI entity jsou v datovém modelu RDF vráceny i RDF trojice, v jejichž subjektech či objektech se vyskytují IRI entit jiného poskytovatele.

V souvislosti s bodem 2 je standardem explicitně vyjadřovat ekvivalenční vazbu mezi různými IRI vytvořených různými poskytovateli, které však označují stejnou entitu. Pokud poskytovatel zjistí, že vytváří IRI pro entity, pro které již vytvořil IRI i jiný poskytovatel, zveřejní datovou sadu na stupni otevřenosti 5, která obsahuje ekvivalenční vazby mezi jeho IRI a IRI jiného poskytovatele. Ekvivalenční vazba mezi entitou A a B je vyjádřena v podobě následující RDF trojice:

  • subjekt : URI entity A
  • predikát : <code>http://www.w3.org/2002/07/owl#sameAs</code>
  • objekt : URI entity B
  • standardy/technicke-standardy-pro-datove-sady-na-stupni-5.1527853035.txt.gz
  • Poslední úprava: 2020/06/03 09:36
  • (upraveno mimo DokuWiki)