Příprava katalogizačního záznamu o datové sadě

Katalogizace datové sady je důležitá pro její potenciální uživatele. Umožní jim datovou sadu nalézt. Záznam o datové sadě může být zveřejněn v různých katalozích. Tím zajistíte, že se informace o existenci datové sady dostane k co nejširšímu okruhu uživatelů.

Struktura záznamu o datové sadě odpovídá evropskému standardu DCAT-AP v1.2. Ten rozlišuje datovou sadu a distribuci datové sady. Datová sada je tvořena jednou či více distribucemi. Distribuce obsahuje samotná data. Může to být datový soubor určený ke stažení nebo to může být datové API, které umožňuje přímé dotazování do obsahu datové sady.

Záznam o datové sadě se dělí na 2 části:

  1. První část obsahuje metadata o samotné datové sadě. Jedná se např. o název a popis datové sady.
  2. Druhá část obsahuje metadata o distribucích datové sady (datových zdrojích). Jedná se např. o specifikaci datového formátu datového zdroje či o jeho datové schéma.

Pro doporučené datové sady ze vzorového publikačního plánu jsou již záznamy o datové sadě předpřipraveny. Můžete je tedy použít. Konkrétně jsou předvyplněné hodnoty těch atributů, které jsou nezávislé na konkrétní organizaci:

  • název datové sady (můžete doplnit název organizace či jinak upravit),
  • popis datové sady (můžete doplnit název organizace či jinak upravit),
  • klíčová slova (můžete doplnit vlastními klíčovými slovy),
  • EUROVOC koncepty (můžete doplnit dalšími EUROVOC koncepty),
  • datový formát,
  • odkaz na dokumentaci (můžete nahradit vlastní dokumentací, k jejímu vytvoření můžete využít tuto předpřipravenou),
  • odkaz na strojem čitelné datové schéma (můžete jej nahradit vlastním datovým schématem).

Hodnoty atributů, které nejsou předvyplněné je nutno doplnit.

Při vyplňování hodnot atributů dodržujte následující pravidla.

Atributy datové sady

  • název datové sady (povinný atribut)
    • Vyplňte krátký název datové sady, ze kterého je zřejmé, co je obsahem datové sady.
    • V názvu je vhodné použít i název vaší organizace.
    • Název by měl být optimálně max. v rozsahu jednoho řádku textu.
  • popis datové sady (povinný atribut)
    • Vyplňte delší text, který detailněji popisuje, co je obsahem datové sady.
    • Pokud je to pro správné pochopení nutné, uveďte i o čem data nevypovídají.
    • Popis by měl být optimálně max. v rozsahu jednoho odstavce do 10 řádků textu.
  • téma datové sady (povinný atribut)
  • periodicita aktualizace (povinný atribut)
    • Vyberte, jak často budete aktualizovat datové zdroje (přidávat nové či aktualizovat obsah dřívějších distribucí).
    • Např. pokud vyberete týdenní periodicitu, pak to znamená, že každý týden přidáváte nový datový zdroj nebo aktualizujete obsah dřívějšího datového zdroje.
    • Periodicita aktualizace se vyplňuje dle EU slovníku pro frekvence. Příklady:
      • Denně
      • Týdně
      • Měsíčně
      • Čtvrtletně
      • Pololetně
      • Ročně
      • Nikdy / jednorázová publikace
      • Nepravidelně
  • klíčová slova (povinný atribut)
    • vyplňte jedno nebo více libovolných klíčových slov, které charakterizují obsah datové sady,
  • související geografické území (povinný atribut)
    • Vyberte geografické území, kterého se datová sada týká. Může to být např.:
      • území, které by datová sada zabírala, pokud by byla zobrazena na mapě,
      • správní území orgánu veřejné správy, který datovou sadu publikuje, pokud její zobrazení na mapě nemá smysl.
    • K identifikaci geografického území používáme identifikátory RÚIAN, např.:
      • Datová sada s veřejnými parkovišti na území obce má jako související geografickou oblast přiřazenu obec (pokud bychom zobrazili parkoviště na mapě, rozprostírala by se na území obce);
      • Datová sada s rozpočtem krajského úřadu má jako související geografickou oblast přiřazeno území vyššího samosprávného celku, tj. kraje (rozpočet nemá smysl zobrazovat na mapě, volíme tedy správní území kraje).
    • K identifikaci se používá se dvojice hodnot:
      • typ prvku RÚIAN (Území obce, Území státu)
      • kód prvku RÚIAN (Praha (554782), Česká republika (1))
  • dotčené časové období (doporučený atribut)
    • vyplňte časové období (datum od, případně do), které pokrývá obsah datové sady,
    • vyplňujte pouze, pokud má smysl, např.:
      • Datová sada s demografickými údaji za posledních 5 let v jednotlivých letech může mít nastaven „datum od“ (1.1. prvního roku) a „datum do“ (31.12. posledního roku), konkrétně například 2010-01-01 a 2014-12-31
      • Datová sada s odtaženými auty může mít nastaven jako „datum od“ datum, od kdy je evidence vedena, „datum do“ nastaven nemá, protože se jedná o aktuální datum a evidence je průběžně aktualizována.
      • Datová sada s aktuální polohou dopravních spojů nemá nastaven „datum od“ ani „datum do“, neboť je zveřejňován vždy aktuální stav.
  • jméno Kurátora dat (doporučený atribut)
    • vyplňte jméno konkrétní osoby nebo název útvaru organizace, který je Kurátorem dat pro danou datovou sadu,
  • email Kurátora dat (doporučený atribut)
    • vyplňte kontaktní email Kurátora dat,
    • může být jednotný pro celou organizaci,
  • odkaz na dokumentaci datové sady (doporučený atribut)
    • zadejte odkaz na dokument určený pro člověka, který popisuje obsah datové sady a vysvětluje jeho správné použití/interpretaci,
  • klasifikace dle EUROVOC (doporučený atribut)
    • Vyberte koncepty z taxonomie EUROVOC, což je standardní slovník pojmů EU přeložený do všech jazyků EU);
    • Vyberte alespoň jeden koncept, který charakterizuje obsah datové sady.

Atributy distribuce datové sady

  • odkaz na stažení datového zdroje (povinný atribut)
    • vyplňte odkaz na datový soubor ke stažení
  • formát souboru ke stažení (povinný atribut)
  • media type souboru ke stažení (povinný atribut)
    • vyplňte media typ popisující formát datového zdroje
  • odkaz na strojově čitelné datové schéma datového zdroje (doporučený atribut)
    • vyplňte odkaz na strojově čitelné datové schéma popisující strukturu datového zdroje,
  • název distribuce (doporučený atribut)
    • vyplňte název datového souboru ke stažení nebo název API

Využijte předvyplněné záznamy o datové sadě ze vzorových publikačních plánů.