Rozdíly

Zde můžete vidět rozdíly mezi vybranou verzí a aktuální verzí dané stránky.

--- standardy:technicke-standardy-pro-vytvareni-datovych-schemat-na-stupni-3 [2017/09/04 13:59] – Jakub Klímek
+++ standardy:technicke-standardy-pro-vytvareni-datovych-schemat-na-stupni-3 [2021/11/23 06:43] (aktuální) – [Technické standardy vytváření datových schémat pro datové sady na stupni otevřenosti 3] Jakub Klímek
@@ Řádek 1: / Řádek 1: @@
 ====== Technické standardy vytváření datových schémat pro datové sady na stupni otevřenosti 3 ======
-Na stupni otevřenosti 3 by měly mít distribuce datových sad přiřazeno datové schéma, které popisuje požadovanou syntaktickou strukturu distribucí. Pro vyjádření datového schématu je nutno zvolit vhodný jazyk pro jeho vyjádření. Jazyk závisí na datovém formátu, který byl zvolen pro vyjádření distribuce.
+Na stupni otevřenosti 3 by měly mít distribuce datových sad přiřazeno datové schéma, které popisuje požadovanou syntaktickou strukturu distribucí.
+Pro vyjádření datového schématu je nutno zvolit vhodný jazyk pro jeho vyjádření.
+Jazyk závisí na datovém formátu, který byl zvolen pro vyjádření distribuce.
-  * V případě formátu CSV je nutno schéma vyjádřit v jazyku Metadata Vocabulary for Tabular Data (https://www.w3.org/TR/tabular-metadata/) či JSON Table Schema (http://dataprotocols.org/json-table-schema/).
+  * V případě formátu CSV je nutno schéma vyjádřit dle webového standardu CSV on the Web (https://www.w3.org/TR/tabular-metadata/).
-  * V případě formátu XML je nutno schéma vyjádřit v jazyku XML Schema (http://www.w3.org/XML/Schema).
+  * V případě formátu XML je nutno schéma vyjádřit v jazyku XML Schema (https://www.w3.org/XML/Schema).
-  * V případě formátu JSON je nutno schéma vyjádřit v jazyku JSON Schema (http://json-schema.org/).
+  * V případě formátu JSON je nutno schéma vyjádřit v jazyku JSON Schema (https://json-schema.org/) a validovat pomocí validátoru, např. https://tryjsonschematypes.appspot.com/#validate či https://www.jsonschemavalidator.net/
-Při návrhu datových schémat navíc dodržujte následující standardy:
+Při návrhu datových schémat dodržujte následující pravidla:
-  * Pro primitivní datové typy (řetězec, číslo, datum, ...) používejte datové typy jazyka XML Schema (i v případě CSV a JSON souborů)
+  * Pro primitivní datové typy používejte datové typy jazyka XML Schema (i v případě CSV a JSON souborů).
   * Schéma každé distribuce musí být volně dostupné ke stažení v síti WWW.
   * Distribuce se stejnou strukturou mají společné schéma.
+===== Definice vlastního schématu pro data v CSV =====
+Při práci s formátem CSV se nejprve seznamte s [[špatná-praxe:start#nejčastější_chyby_při_použití_formátu_csv|nejčastějšími chybami při použití formátu CSV]].
+<WRAP center round tip 60%>
+Pro řadu datových sad formát CSV není vhodný a je lepší je publikovat v některém ze strukturovanějších formátů, viz [[https://ofn.gov.cz|Otevřené formální normy]].
+</WRAP>
+Prvním krokem k tvorbě schematu pro CSV data je určení toho, jak se budou jmenovat jednotlivé sloupce CSV souboru, jaké budou mít datové typy a jaký budou mít význam.
+Pro dosažení maximální míry interoperability postupujte v následujících krocích:
+  - Stanovte si jmenné konvence pro sloupce, např.
+      - název v češtině
+      - všechna písmena malá (lower case)
+      - víceslovné názvy spojené podtržítkem ''_''
+      - hierarchickou vazbu reprezentujte také podtržítkem ''_'', např. ''pokutovaný_ič'', ''pokutovaný_název''
+  - Pro sloupce použijte vhodný datový typ jazyka XML Schema.
+  - Význam sloupců popište slovně.
+Jako jazyk pro definici schématu pro data v CSV použijte standard [[https://www.w3.org/TR/tabular-metadata/|Metadata Vocabulary for Tabular Data]] z rodiny standardů W3C [[https://www.w3.org/standards/techs/csv#w3c_all|CSV on the Web]] (CSVW).
+Standard říká, jak má být CSV soubor publikovaný na webu popsán pomocí přídavného JSON-LD souboru, který je publikován spolu s CSV souborem.
+==== Metadata Vocabulary for Tabular Data (CSV on the Web, CSVW) ====
+Použití CSVW schématu si ilustrujeme na zjednodušeném příkladu pro následující dvousloupcové CSV:
+<code csv>
+"idhod","hodnota"
+"747627675","14.91"
+"747628556","14.96"
+</code>
+Jednoduchý CSVW deskriptor (JSON soubor) pro tento CSV soubor může vypadat například takto:
+<code json>
+{
+  "@context": ["http://www.w3.org/ns/csvw",{"@language": "cs"}],
+  "url": "012052-17data091517.csv",
+  "tableSchema": {
+    "columns": [{
+      "name": "idhod",
+      "titles": "idhod",
+      "dc:description":"unikátní identifikátor údaje Veřejné databáze ČSÚ",
+      "required": true,
+      "datatype": "string"
+    }, {
+      "name": "hodnota",
+      "titles": "hodnota",
+      "dc:description":"zjištěná hodnota",
+      "required": true,
+      "datatype": "number"
+    }],
+    "primaryKey": "idhod"
+  }
+}
+</code>
+Jednotlivé položky v JSON deskriptoru mají následující význam:
+  * Položka ''@context'' musí obsahovat minimálně URL ''http://www.w3.org/ns/csvw'', v tomto případě obsahuje ještě specifikaci češtiny jakožto výchozího jazyka textových položek schématu.
+  * Položka ''url'' musí obsahovat (relativní či absolutní) URL popisovaného CSV souboru. Každý CSV soubor má tedy vlastní JSON deskriptor.
+  * Položka ''tableSchema'' musí obsahovat buďto URL jiného JSONu se samotným schématem, což je použitelné pro sdílení jednoho schématu více CSV soubory a jejich JSON deskriptory, nebo přímo schéma samotné.
+      * Položka ''columns'' obsahuje pole s popisky jednotlivých sloupců
+      * Položka ''primaryKey'' obsahuje identifikaci primárního klíče v CSV tabulce. To může být buďto jeden sloupec, nebo pole sloupců.
+  * Položka ''name'' specifikuje *identifikátor* sloupce v CSV souboru jakožto objektu. Nejedná se o název sloupce v souboru, ten je popsán dále jako jedna z jeho vlastností. Musí to být validní část URI, případná diakritika zde tak musí být zakódovaná pomocí procentového kódování.
+  * Položka ''titles'' obsahuje jeden či více (jako pole) názvů sloupců v CSV. Lze tedy použít jedno schéma pro více CSV souborů, které mají dokonce různé názvy sloupců, případně v hlavičce používají různé jazyky.
+  * Položka ''dc:description'' obsahuje textový popis významu sloupce.
+  * Položka ''required'' specifikuje, zda je hodnota v tomto sloupci povinná či nikoliv
+  * Pro datové typy v položce ''datatype'' lze použít [[https://www.w3.org/TR/tabular-metadata/#datatypes|hodnoty založené na datových typech XML Schema]].
+Vystavený JSON deskriptor dle CSVW by pak měl být poskytován s HTTP hlavičkou ''Content-Type: application/csvm+json; charset=utf-8'' a pojmenován podle popisovaného souboru, tedy pro ''xxx.csv'' to bude ''xxx.csv-metadata.json''.
+Toto je jen minimalistický příklad toho, co lze popsat pomocí CSVW. Pro využití všech možností je třeba postupovat dle [[https://www.w3.org/TR/tabular-metadata/|specifikace]].
+=== Sdílené schéma pro více CSV souborů ===
+Deskriptor CSV souboru lze oddělit od schématu, pokud schéma chceme použít pro více CSV souborů.
+Pak budeme mít JSON soubor ''schema.json'' se schématem samotným:
+<code json>
+{
+  "@context": ["http://www.w3.org/ns/csvw",{"@language": "cs"}],
+  "columns": [{
+    "name": "idhod",
+    "titles": "idhod",
+    "dc:description":"unikátní identifikátor údaje Veřejné databáze ČSÚ",
+    "required": true,
+    "datatype": "string"
+  }, {
+    "name": "hodnota",
+    "titles": "hodnota",
+    "dc:description":"zjištěná hodnota",
+    "required": true,
+    "datatype": "number"
+  }],
+  "primaryKey": "idhod"
+}
+</code>
+A deskriptor každého CSV souboru se na něj bude odkazovat (nejspíše však pomocí plného, absolutního URL):
+<code json>
+{
+  "@context": ["http://www.w3.org/ns/csvw",{"@language": "cs"}],
+  "url": "012052-17data091517.csv",
+  "tableSchema": "schema.json"
+}
+</code>
+=== Validace CSVW ===
+CSV popsané pomocí CSVW lze nejjednodušeji validovat nástrojem [[https://csvw.opendata.cz|csvw-validator]].
+Ten má jednak sdílené webové rozhraní, a také lze spustit z příkazové řádky nebo použít jako webovou službu.
+CSV popsané pomocí CSVW lze validovat například pomocí nástroje [[https://github.com/ruby-rdf/rdf-tabular|rdf-tabular]], který stačí nasměrovat na CSV soubor, a v případě nedodržení doporučeného pojmenování JSON deskriptoru i na tento deskriptor.
+Tedy ''rdf validate xxx.csv''
+CSV popsané pomocí CSVW lze validovat například pomocí knihovny [[https://github.com/theodi/csvlint.rb|csvlint.rb]], kterou stačí spustit a nasměrovat na JSON deskriptor, který pak ukazuje na CSV data, případně schéma. Tedy ''csvlint -s schema.json'' pro lokální schéma v souboru v souborovém systému, nebo s plným URL deskriptoru, např. ''csvlint -s https://data.mvcr.gov.cz/soubory/czechpoint/2007.json''.
+<WRAP center round important 60%>
+Webové rozhraní [[https://csvlint.io/|csvlint]] doporučení CSV on the Web neumí!
+</WRAP>
+===== Definice vlastního schématu pro data v XML =====
+Pro popis XML schématu se používá jazyk XML Schema.
+Prvním krokem k tvorbě schematu pro XML data je určení toho, jak se budou jmenovat a jak budou zanořeny jednotlivé elementy v XML souboru, jaké budou mít datové typy a jaký budou mít význam.
+Pro dosažení maximální míry interoperability postupujte v následujících krocích:
+  - Podívejte se na [[vzor:start|již existující standardy]] pro datové sady.
+      - Pokud se některá datová sada shoduje s daty, které chcete publikovat, použijte její předpřipravené schéma. Existující schéma nemusíte daty pokrývat celé, všechny položky jsou volitelné.
+      - Pokud se žádná existující datová sada neshoduje s daty, které chcete publikovat, vytvořte nové schéma.
+  - Pokud některá datová sada pokrývá data která chcete publikovat pouze částečně, použijte v novém schématu pro pokryté položky XML elementy s datovými typy z existujícího XML schématu.
+  - Dosud nepokryté elementy, tj. ty, jejichž význam neodpovídá žádnému datovému typu v žádné existující datové sadě ze vzorových publikačních plánů, pojmenujte dle stejných jmenných konvencí. Tj.
+      - vytvořte si vlastní XML namespace
+      - názvy elementů či atributů v češtině
+      - všechna písmena malá (lower case)
+      - žádná diakritika
+      - víceslovné názvy spojené podtržítkem ''_''
+      - hierarchickou vazbu reprezentujte vnořeným XML elementem
+  - Pro nově definované elementy použijte vhodný datový typ jazyka XML Schema.