draft:technicke-standardy-pro-datove-sady-na-stupni-3

Toto je starší verze dokumentu!


Specifickou kapitolou jsou prostorová data, kde je oproti ostatním typům dat potřeba počítat s prostorovou složkou. Prostorová data zahrnují všechny typy dat, které jsou prostorově určeny. Jsou zpravidla určena geometrickým objektem. Obecně lze prostorová data rozdělit na vektorová a rastrová. Standardizace otevřených prostorových dat je zaštítěna pracovní skupinou ISO/TC 211 a mezinárodní standardizační organizací Open Geospatial Consortium (OGC). Správa prostorových dat, včetně jejich publikace, popisu metadaty atd. je u větších organizací zajištěna vybudováním komplexní infrastruktury prostorových dat (Spatial Data Infrastructure – SDI). SDI umožňuje poskytování dat prostřednictvím standardizovaných služeb, jejich vyhledávání v katalogu pomocí klíčových slov a územního rozsahu a umožňuje například transformaci dat mezi jednotlivými formáty nebo souřadnicovými referenčními systémy. V případě menších obcí a organizací není budování SDI nezbytné, data lze poskytovat například vystavením souborů na internet, je však potřeba data pravidelně aktualizovat. Doporučujeme také vytvořit alespoň webovou stránku, která poskytovaná data popisuje.

Na obecní úrovni mohou být datovými sadami, které je vhodné publikovat jako prostrová data, například seznam památných stromů nebo pomníků (bodová data), lokální cestní nebo inženýrská síť (liniová data), přehled obecní zeleně nebo územní plán (plošná data). Vektorová data by měla být publikována ve vhodném otevřeném formátu za použití standardizovaných geometrických objektů. Reprezentace geometrických objektů bývá zpravidla popsána ve standardu formátu, proto je vhodné si před implementací standard alespoň zběžně prostudovat, zpravidla se však pro reprezentaci geometrickcých objektů používá buď standard Geography Markup Language (GML), nebo Well-Known Text (WKT). Je krajně nevhodné reprezentovat prostorovou složku použitím atributů „lat“ a „lon“, respektive „x“ a „y“, nebo podobné. Tato reprezentace nemusí obsahovat některé důležité informace o objektu (jako je například souřadnicový referenční systém) a není schopná reprezentovat jiné než bodové prvky.

Geometrické objekty

K vyjádření geometrického objektu je vhodné používat buď WKT, nebo GML interpretaci.

Well-Known Text (WKT) – formát byl vytvořen OGC a je specifikován ve standardech Simple Feature Access a ISO 19125. Je vhodný především k zápisu 2D geometrií, jako je point, multipoint, line, polyline, polygon a pod. Přestože je ve WKT možné definovat souřadnicové systémy a používat je pro reprezentované objekty, nejčastěji je WKT používán pro reprezentaci souřadnic v souřadnicovém systému WGS 84.

Geography Mark-up Language (GML) – formát je rozšířením značkovacího jazyka XML za účelem reprezentace geometrických objektů. Je definován ve standardu OGC Geography Markup Language a proti WKT je velice robustní. Umožňuje zápis souřadnic v mnoha souřadnicových systémech (pro ČR je nejdůležitější podpora souřadnicového referenčního systému S-JTSK) a reprezentaci všech forem prostorových informací, včetně pokryvu nebo senzorových dat. Větší robustnost je vykoupena větší složitostí zápisu.

Základními geometrickými objekty jsou:

Bod

Objekt je reprezentován bodem (Point). Možný je i Multipoint – v případě, že je objekt reprezentován množinou bodů. Reprezentace ve WKT:

POINT(50.056 14.434)

Reprezentace v GML:

<gml:Point srsName="urn:ogc:def:crs:EPSG::4326" srsDimension="2">
    <gml:pos>50.056 14.434</gml:pos>
</gml:Point>
Lomená čára

Objekt je reprezentován lomenou čárou (například uliční čára, osa vodního toku). Reprezentace ve WKT:

LINESTRING(50.056 14.434, 50.064 14.442, 50.042 14.445)

Reprezentace v GML:

<gml:Curve srsName="urn:ogc:def:crs:EPSG::5514" srsDimension="2">
    <gml:segments>
      <gml:LineStringSegment>
        <gml:posList>-641126.76 -1093821.18 -641119.35 -1093831.05 -641109.75 -1093844.44</gml:posList>
      </gml:LineStringSegment>
    </gml:segments>
</gml:Curve>

nebo

<gml:Curve srsName="urn:ogc:def:crs:EPSG::5514" srsDimension="2">
    <gml:segments>
      <gml:LineStringSegment>
        <gml:coordinates>-641126.76, -1093821.18 -641119.35, -1093831.05 -641109.75, -1093844.44</gml:coordinates>
      </gml:LineStringSegment>
    </gml:segments>
</gml:Curve>
Polygon

Objekt je reprezentován plochou, plochami, případně plochou s dírou (například plocha zeleně, vodní plocha, plocha parcely). Reprezentace ve WKT:

POLYGON(14.402751 50.088131, 14.402749 50.088105, 14.402738 50.088104, 14.402742 50.088099, 14.402746 50.088089, 14.402751 50.088082, 14.402744 50.088079, 14.40275 50.088075, 14.402748 50.088053, 14.402742 50.088053, 14.402748 50.088044, 14.402744 50.088041, 14.402739 50.08804, 14.402732 50.088033, 14.402739 50.088032, 14.402733 50.088021, 14.402728 50.08801, 14.402746 50.088002, 14.402749 50.087994, 14.402751 50.08799, 14.402746 50.087988, 14.402752 50.087984, 14.402749 50.087954, 14.402754 50.087951, 14.40275 50.087945, 14.402743 50.087943)

Reprezentace v GML:

<gml:Polygon gml:id="CPX.2384051101" srsName="EPSG:4326" srsDimension="2">
  <gml:exterior>
    <gml:LinearRing>
      <gml:posList>14.402751 50.088131 14.402749 50.088105 14.402738 50.088104 14.402742 50.088099 14.402746 50.088089 14.402751 50.088082 14.402744 50.088079 14.40275 50.088075 14.402748 50.088053 14.402742 50.088053 14.402748 50.088044 14.402744 50.088041 14.402739 50.08804 14.402732 50.088033 14.402739 50.088032 14.402733 50.088021 14.402728 50.08801 14.402746 50.088002 14.402749 50.087994 14.402751 50.08799 14.402746 50.087988 14.402752 50.087984 14.402749 50.087954 14.402754 50.087951 14.40275 50.087945 14.402743 50.087943</gml:posList>
    </gml:LinearRing>
  </gml:exterior>
</gml:Polygon>

Vektorové formáty

Datové sady prostorových dat by měly být publikovány ve vhodném otevřeném formátu, který musí umožnit strojovou čitelnost. Následuje seznam doporučených otevřených formátů:

  • Comma Separated Values (CSV, IETF RFC4180) - tabulkový způsob zápisu vhodný pro nepříliš komplexní data. Jednotlivé záznamy atributové tabulky jsou zapsány jako řádky textového souboru a hodnoty záznamů jako řetězce oddělené čárkou (znak UTF-8 s kódem U+002C). Zápis geometrického objektu zpravidla obsahuje čárky, proto je vhodné hodnoty uzavřít do uvozovek (znak UTF-8 s kódem U+0022). Pro zápis prostorové informace je vhodné použít WKT. Data ve formátu CSV by měla obsahovat informaci o použitém souřadnicovém referenčním systému buď formou EPSG kódu, nebo URI (viz Poznámka k souřadnicovým systémům), buď v hlavičce souboru, nebo jako atribut. Data obsahující informace o ulicích s geometrií uliční čáry by mohly vypadat například takto:
Kód,Název ulice,Kód Obce,Název Obce,Kód Okresu,Název Okresu,WKT_Geometry,CRS
442666,Adamovská,554782,Praha,3100,Hlavní město Praha,"LINESTRING(14.450325965881346 50.05789646795757, 14.450948238372803 50.05791713211645, 14.45121645927429 50.05803422884852, 14.451420307159424 50.058764354966634, 14.451624155044554 50.0591569653608, 14.451828002929688 50.059460030836206, 14.45177435874939 50.059522021265785)",http://www.opengis.net/def/crs/EPSG/0/4258
442674,Africká,554782,Praha,3100,Hlavní město Praha,"LINESTRING(14.349464178085329 50.09616500163075, 14.349786043167112 50.096075528282334, 14.349968433380127 50.09575892893866, 14.350258111953734 50.09575892893866, 14.350826740264893 50.09566257220141, 14.352350234985352 50.09597228959578, 14.354592561721802 50.096399008059755, 14.355171918869019 50.096392125534024, 14.355483055114746 50.09633018275811, 14.355762004852295 50.09634394782634, 14.358251094818113 50.096791310391346, 14.358723163604736 50.096873899946615, 14.359141588211058 50.09697713669046, 14.359956979751587 50.09699778401253, 14.36085820198059 50.09715607985288, 14.362660646438599 50.09761031718664, 14.363701343536377 50.09788561044452, 14.363905191421507 50.09789937506589, 14.364173412322996 50.09786496350506, 14.364463090896606 50.09773419934845)",http://www.opengis.net/def/crs/EPSG/0/4258
442682,Akátová,554782,Praha,3100,Hlavní město Praha,"LINESTRING(14.41953420639038 50.077619800339754, 14.41979169845581 50.077647341221535, 14.421336650848389 50.07749586617591, 14.42479133605957 50.077330620125764, 14.429275989532469 50.07717914407949, 14.431657791137694 50.07711029117297)",http://www.opengis.net/def/crs/EPSG/0/4258
  • Geography Markup Language (OGC GML) - jedná se formát XML pro prostorová data. Geometrie je zapisována za použití GML. Jedná se o komplexní formát, který je schopen zápisu v podstatě libovolného typu geometrických objektů a atributových hodnot. Formát GML ve verzi 3.2.1 je používán pro datové sady publikované podle směrnice INSPIRE. K zápisu jsou používány dvojice tagů, jazyk XML je rozšířen o abstraktní typ AbstractFeatureType, který musí obsahovat geometrický objekt. Pro komplexní poskytování dat ve formátu GML je vhodné vytvořit schéma dokumentu v XML Schema Definition (XSD), které zajišťuje validitu dat. Data pro adresní místa publikovaná v rámci směrnice INSPIRE pro Českou republiku vypadají takto:
<ad:Address gml:id="AD.22547665">
    <ad:inspireId>
        <base:Identifier>
            <base:localId>AD.22547665</base:localId>
            <base:namespace>CZ-00025712-CUZK_AD</base:namespace>
        </base:Identifier>
    </ad:inspireId>
    <ad:alternativeIdentifier>K Pitkovicům 1, Benice, 10300 Praha 10</ad:alternativeIdentifier>
    <ad:position>
        <ad:GeographicPosition>
            <ad:geometry>
                <gml:Point gml:id="P.AD.22547665" srsName="urn:ogc:def:crs:EPSG::5514"
                    srsDimension="2">
                    <gml:pos>-731037.56 -1053052.98</gml:pos>
                </gml:Point>
            </ad:geometry>
            <ad:specification
                xlink:href="http://inspire.ec.europa.eu/codelist/GeometrySpecificationValue/entrance"
                xlink:title="entrance"/>
            <ad:method
                xlink:href="http://inspire.ec.europa.eu/codelist/GeometryMethodValue/byAdministrator"
                xlink:title="byAdministrator"/>
            <ad:default>true</ad:default>
        </ad:GeographicPosition>
    </ad:position>
    <ad:locator>
        <ad:AddressLocator>
            <ad:designator>
                <ad:LocatorDesignator>
                    <ad:designator>č.p.</ad:designator>
                    <ad:type
                        xlink:href="http://inspire.ec.europa.eu/codelist/LocatorDesignatorTypeValue/buildingIdentifierPrefix"
                        xlink:title="buildingIdentifierPrefix"/>
                </ad:LocatorDesignator>
            </ad:designator>
            <ad:designator>
                <ad:LocatorDesignator>
                    <ad:designator>1</ad:designator>
                    <ad:type
                        xlink:href="http://inspire.ec.europa.eu/codelist/LocatorDesignatorTypeValue/buildingIdentifier"
                        xlink:title="buildingIdentifier"/>
                </ad:LocatorDesignator>
            </ad:designator>
            <ad:level xlink:href="http://inspire.ec.europa.eu/codelist/LocatorLevelValue/siteLevel"
                xlink:title="siteLevel"/>
        </ad:AddressLocator>
    </ad:locator>
    <ad:validFrom>2017-06-22T21:07:18Z</ad:validFrom>
    <ad:beginLifespanVersion>2017-06-22T21:07:18Z</ad:beginLifespanVersion>
    <ad:endLifespanVersion xsi:nil="true"
        nilReason="http://inspire.ec.europa.eu/codelist/VoidReasonValue/Unpopulated"/> 
    <ad:component xlink:href="#AA.MOP.108" xlink:title="Praha 10"/>
    <ad:component xlink:href="#AA.MOMC.538078" xlink:title="Praha-Benice"/>
    <ad:component xlink:href="#AA.2585" xlink:title="Benice"/>
    <ad:component xlink:href="#TF.498211" xlink:title="K Pitkovicům"/>
    <ad:component xlink:href="#PD.10300" xlink:title="10300"/>
</ad:Address>
  • GeoJSON - rozšíření formátu JSON pro reprezentaci geometrických objektů. Jednotlivé záznamy jsou reprezentovány jako samostatné JSON objekty. Formát JSON vychází z formy objektu v jazyce JavaScript. Formát není tak robustní jako GML, ale není tak složitý. V případě použití souřadnicového referenčního systému WGS84 není potřeba systém specifikovat, pro jiné souřadnicové referenční systémy by měl být uveden v JSON objektu. Formát JSON je hojně používaný jako výměnný formát v internetových formulářích. Objekt tržní řádu Prahy doplněný o souřadnice adresních míst, nebo definičních bodů katastrálních parcel ve formátu GeoJSON vypadá takto:
{
  "geometry":{
    "coordinates":[
	14.419134,
	50.090122
    ],
    "type":"Point"
  },
  "crs": {
    "type": "name",
    "properties": {
      "name": "urn:ogc:def:crs:EPSG::4326"
    }
  },
  "properties":{
    "cislo_orientacni":"22",
    "cislo_popisne":"128",
    "druh_mista":"RESTAURAČNÍZAHRÁDKY",
    "druh_zbozi":"",
    "momc":"Praha 1",
    "ulice":"Pařížská"
  },
  "type":"Feature"
}
  • OGC GeoPackage - je nad souborovou databází SQLite postavený standardizovaný formát pro prostorová data. Lze do něj uložit stejnou strukturu jako do CSV a složitou geometrickou strukturu jako samostatný atribut. Vzhledem ke své povaze umí GeoPackage spravovat mimo vektorových dat i rastrová data. Jedná se o souborovou databázi, takže zde není uveden příklad dat. Více informací je ve standardu a na stránkách formátu.
  • ESRI Shapefile - je poměrně zastaralý, přesto stále hojně používaný formát pro správu prostorových dat vyvinutý společností ESRI, která uvolnila technickou dokumentaci formátu. Jedná se o otevřený formát, který uchovává informace ve více souborech. Vlastnosti jednotlivých prvků dodržují strukturu pro datovou sadu. Organizace spravující data prostřednictvím software od společnosti ESRI by s publikací dat v tomto formátu neměly mít problémy.

Rastrové formáty

Pro rastrová data platí podobné podmínky jako pro kolekce obrázků, s několika upřesněními.

  1. obrazové soubory jsou georeferencované v daném popsaném souřadnicovém referenčním systému,
  2. datová sada může obsahovat více obrazových souborů, ty by však měly obsahovat data stejného typu ve stejném souřadnicovém systému,
  3. datová sada by měla být opatřena metadaty, které obsahují dodatečný popis datové sady,
  4. data by měla být publikována v otevřeném formátu pro rastrová prostorová data, ideálně v jednom z následujících:
  • GeoTIFF – metadatový standard umožňující georeferencování obrázků ve formátu TIFF,
  • JPEG 2000 – Je obrazový kompresní formát. Organizace OGC specifikovala metadatový standard ve formátu GML pro georeferencování JPEG 2000 GML JP2. Formát JPEG 2000 není přímo otevřený, ale všichni vlastníci patentů se shodli na tom, že specifikace bude volně dostupná každému bez poplatků,
  • OGC GeoPackage – je nad souborovou databází SQLite postavený standardizovaný formát pro prostorová data, včetně obrazových dat. Podpora rastrových dat je od GDAL verze 2.0, více zde.

Publikace dat

Datová sada může obsahovat objekty různých typů (například katastrální parcely a katastrální území), ale všechny objekty stejného typu v rámci datové sady musí mít stejnou strukturu (stejné atributy). Data je možné publikovat několika různými způsoby. Pro komplexní prostorová data s vybudovanou SDI je nejvhodnější publikovat data prostřednictvím standardizovaných služeb pro poskytování prostorových dat. Jedná se především o tyto služby:

  • OGC WFS (Web Feature Service) – slouží k poskytování vektorových dat s konkrétními prvky na základě prostorových dotazů a filtrů (například omezení výběru pomocí typu prvku a ohraničujícícho obdélníku),
  • OGC WCS (Web Coverage Service) – slouží k poskytování pokrytí nebo jeho části na zákaldě prostorových dotazů a filtrů.

Komplexní řešení pro SDI umožňují zpravidla poskytování dat na zákaldě těchto standardů. Další možností je generovat datové soubory (např. pokrývající území dané obce nebo povodí). Tyto soubory je pak možné poskytovat pomocí protokolu ATOM, nebo vystavením na webové stránky. Poskytování dat přes ATOM je i jednou z možností poskytování dat dle směrnice INSPIRE. Při poskytování dat jejich vystavením na webové stránky je vhodné doplnit datové soubory alespoň základními metadaty – především rozsahu datového souboru a datu, ke kterému jsou soubory aktuální. Poskytování dat prostřednictvím webových služeb standardizovaných OGC nebo pomocí ATOM umožňuje uživatelům data snadněji vyhledávat a filtrovat. Pokud vaše organizace chce poskytovat komplexnější data, zvažte publikaci pomocí těchto služeb.

Kromě výše uvedených služeb standatrdizovaných OGC jsou ještě hojně používanéí služby WMS (Web Map Service) a WMTS (Web Map Tile Service), nejedná se však o služby poskytující otevřená data – služby poskytují pouze otisk data ve formě obrázku. Nicméně jsou vhodné k prohlížení dat nebo jako podkladové vrstvy ve webových prohlížečkách.

Pokud jsou data organizace poskytována nebo zpracovávána externím subjektem – napřílad firmou zpracovávající územní plán – měli by zadavatelé trvat na odevzdání práce v některém z otevřených formátů prostorových dat. Podstatné je vyhnout se uzavřeným formátům (mezi nejčastěji používané uzavřené formáty patří DWG, DGN, ESRI GeoDatabase a další). Stejně tak je vhodné vyhnout se proprietárním službám pro publikaci, které používají některé GIS softwary. Data publikovaná prostřednictvím těchto služeb nelze považovat za dostatečně otevřená. Nebývají podporována existujícími softwary třetích stran a licenční podmínky jejich využití nejsou často transparentní. Jedná se například o tzv. REST API v softwarech firmy ESRI.

Metadata

Kromě smotných dat je vhodné poskytovat i metadata – data o datech. Pro soulad se stupněm otevřenosti 3 to ale není nezbytné. Pro popis prostorových dat se běžně používá meatadový standard dle normy ISO 19115. Mezi základní poskytované informace patří poskytovatel dat a kontakt na něj, informace o aktuálnosti a úplnosti dat, o jejich územním rozsahu, o způsobech publikace a licenci nebo o kvalitě těchto dat.

V případě poskytování dat pomocí OGC standardizovaných služeb je vhodné poskytovat i metadata o těchto službách (např. podle standardu ISO 19119). Pro poskytování a vyhledávání metadat existuje služba OGC CSW, která spravuje poskytování metadatových záznamů a umožňuje vyhledávání datových sad a služeb na základě jejich metadat.

INSPIRE

V roce 2007 vešla v platnost směrnice INSPIRE (Infrastructure for Spatial Information in Europe), která si klade za cíl standardizovat publikaci prostrových dat v Evropě. Data rozděluje do 34 témat na základě obsahu a definuje strukturu, v jaké by měly být data poskytovány. Kromě toho vyžaduje užívání standardů, které v tomto textu již byly několikrát zmíněny, jako je využití formátu GML, publikace dat prostřednictvím webových služeb OGC WFS, OGC WCS nebo pomocí ATOM, opatření data služeb metadata podle standardů ISO 19115 a 19119 a jejich správě za pomoci služby OGC CSW. V případě publikace dat orgánem státní správy je vhodné pokusit se publikovat data v souladu se směrnicí INSPIRE a to i v případě, že se nejedná o povinného poskytovatele ve smyslu implementace této směrnice.

Souřadnicové referenční systémy

Pro definici souřadnicových systémů je používán registr EPSG (European Petroleum Survey Group), podporovaný všemi programy pro práci s prostorovými daty (GIS). Registr obsahuje celou řadu souřadnicových referenčních systémů, které opatřuje kódem. V České republice jsou nejčastěji využívány tyto souřadnicové referenční systémy:

  • Systém jednotné trigonometrické sítě katastrální (S-JTSK) – používaný např. v katastru nemovitostí. Pro využití v GIS je využíváno EPSG kódu 5514, který otáčí osy systému a souřadnice nabývají negativních hodnot (jsou uvozeny znaménkem minus).
  • World Geodetic System 1984 (WGS84) – někdy zvaný též “souřadnice GPS”. Souřadnice bývají uvedeny ve stupních s desetinným číslem. Některé publikační formáty (např. GPX nebo KML) počítají přímo s tím, že data jsou uložena v tomto souřadnicovém systému. V registru EPSG je souřadnicový systém označen kódem 4326.
  • Web (nebo též Google) Mercator – je systém používaný na většině globálních webových aplikací. Jeho nevýhodou je mimo jiné zkreslení významné velikosti ploch směrem k pólům. Je označen kódem 3857.
  • European Terrestrial Reference System – je systém zpřesňující WGS pro území Evropy. Zápis je stejný jako u WGS, souřadnice se liší v rámci milimetrů až centimetrů. Je označen kódem 4258.

Další souřadnicové referenční systémy lze dohledat např. zde.

  • draft/technicke-standardy-pro-datove-sady-na-stupni-3.1529916003.txt.gz
  • Poslední úprava: 2020/06/03 09:36
  • (upraveno mimo DokuWiki)