Chybné kódování CSV souboru

Jediné přípustné kódování CSV souboru je UTF-8, což řeší problémy s interoperabilitou na webu, zejména pak s diakritikou a písmeny z různých abeced. Může se ale stát, že váš soubor používá jiné kódování, v českém prostředí zejména Windows-1250 či ISO-8859-2, a proto není validní.

Nejčastějším symptomem je chybné zobrazení diakritiky.

Chybné zobrazení diakritiky v CSV souboru

Chybné kódování lze zjistit buďto použitím validátoru, nebo také otevřením souboru textovém editoru. Na obrázku je kódování ANSI, což odpovídá ISO-8859-2.

ANSI kódování CSV souboru

Je třeba zajistit, že soubor je v kódování UTF-8. To lze několika způsoby.

Nejjednodušší je zásah u zdroje problému, tedy pokud CSV soubor exportujeme z databáze, nebo generujeme v kódu aplikace, mělo by jít nastavit UTF-8 jako výstupní kódování tam.

Konverze souboru v textovém editoru

Pokud nemáme přístup ke zdroji, je třeba samotný CSV soubor překódovat, což lze například opět v textovém editoru, jak je vidět na obrázku.

Konverze kódování CSV souboru

Můžeme rovněž využít Google Sheets, který si s chybným kódováním poradí a nechá nás stáhnout validní CSV. Budeme potřebovat Google účet, který ale lze zřídit zdarma.

Do Google Drive (Disk Google) nahrajeme soubor ke konverzi a otevřeme ho pomocí Google Sheets
Stáhneme data do CSV souboru

Stažení CSV souboru z Google Sheets

Chybné kódování CSV souboru

Symptomy

Ověření problému

Řešení

Správné nastavení výstupu u zdroje

Konverze souboru v textovém editoru

Konverze z pomocí Google Sheets