V případě, že data tvořící datovou sadu nejsou k dispozici ve strojově čitelné podobě, je nutné je ručně rekonstruovat. Ujistěte se nejprve, že je tomu skutečně tak. Pokud ano, je nutno zvážit, zda datovou sadu publikovat v otevřené podobě. Ruční rekonstrukce je velmi pracná a je tedy nutno zvážit, zda se náklady rekonstrukce vyrovnají přínosům otevření datové sady. Můžete přistoupit pouze ke zveřejnění datové sady na stupni otevřenosti 1. V tom případě však nebudete zveřejňovat datovou sadu v podobě otevřených dat.
Následující příklady nastiňují, jak se Kurátor dat může ujistit, zda obsah datové sady neexistuje ve strojově čitelné podobě:
Pokud chcete otevřít datovou sadu tvořenou tabulkou, která je dostupná pouze v PDF souboru z výroční zprávy, pokuste se dohledat zdrojový tabulkový soubor (typicky ve formátu XLS), který byl použit pro tvorbu výroční zprávy. Pokud jej najdete, získali jste reprezentaci datové sady odpovídající stupni otevřenosti 2. Pokud jej nenajdete, je nutno přistoupit k ruční rekonstrukci obsahu tabulky.
Pokud chcete otevřít datovou sadu tvořenou tabulkou, která je dostupná pouze v podobě
HTML stránky, pokuste se zjistit, zda
HTML stránka není automaticky generována skriptem z databáze. Pokud ano, IT specialista musí umět zařídit export tabulky do vyššího stupně otevřenosti. Pokud ne, je nutno přistoupit k ruční rekonstrukci obsahu tabulky.
Pokud chcete zveřejnit kolekci dokumentů, ale máte k dispozici pouze jejich naskenované PDF verze, pokuste se zjistit, zda někde neexistuji ve formátu DOC apod, ve kterém byly smlouvy původně editovány. Pokud je najdete, získali jste reprezentaci datové sady odpovídající stupni otevřenosti 2. Pokud je nenajdete, je nutno přistoupit k ruční rekonstrukci textu dokumentů.
Pokud jste nuceni přistoupit k ruční rekonstrukci obsahu datové sady, doporučujeme následující postup:
V případě tabulkové datové sady použijte tabulkový editor (Microsoft Excel apod.), ve kterém vytvořte novou tabulku, jejíž struktura odpovídá zdrojové tabulce a do ní překopírujte (pokud to formát zdrojové tabulky umožňuje) nebo přepište hodnoty ze zdrojové tabulky.
V případě datové sady tvořené kolekcí dokumentů je nutno jednotlivé dokumenty překopírovat (pokud to formát zdrojové kolekce dokumentů umožňuje) či přepsat.
Ruční práci lze urychlit využitím vhodných OCR nástrojů.