Chybné kódování CSV souboru

Jediné přípustné kódování CSV souboru je UTF-8, což řeší problémy s interoperabilitou na webu, zejména pak s diakritikou a písmeny z různých abeced. Může se ale stát, že váš soubor používá jiné kódování, v českém prostředí zejména Windows-1250 či ISO-8859-2, a proto není validní.

Nejčastějším symptomem je chybné zobrazení diakritiky.

Chybné zobrazení diakritiky v CSV souboru

Chybné kódování lze zjistit buďto použitím validátoru, nebo také otevřením souboru textovém editoru. Na obrázku je kódování ANSI, což odpovídá ISO-8859-2.

ANSI kódování CSV souboru

Je třeba zajistit, že soubor je v kódování UTF-8. To lze několika způsoby.

Nejjednodušší je zásah u zdroje problému, tedy pokud CSV soubor exportujeme z databáze, nebo generujeme v kódu aplikace, mělo by jít nastavit UTF-8 jako výstupní kódování tam.

Pokud nemáme přístup ke zdroji, je třeba samotný CSV soubor překódovat, což lze například opět v textovém editoru, jak je vidět na obrázku.

Konverze kódování CSV souboru

Můžeme rovněž využít Google Sheets, který si s chybným kódováním poradí a nechá nás stáhnout validní CSV. Budeme potřebovat Google účet, který ale lze zřídit zdarma.

Stažení CSV souboru z Google Sheets

  • standardy/csv/chybné-kódování.txt
  • Poslední úprava: 2020/06/03 07:37
  • autor: 127.0.0.1