Chybné kódování CSV souboru
Jediné přípustné kódování CSV souboru je UTF-8
, což řeší problémy s interoperabilitou na webu, zejména pak s diakritikou a písmeny z různých abeced.
Může se ale stát, že váš soubor používá jiné kódování, v českém prostředí zejména Windows-1250
či ISO-8859-2
, a proto není validní.
Symptomy
Nejčastějším symptomem je chybné zobrazení diakritiky.
Ověření problému
Chybné kódování lze zjistit buďto použitím validátoru, nebo také otevřením souboru textovém editoru.
Na obrázku je kódování ANSI
, což odpovídá ISO-8859-2
.
Řešení
Je třeba zajistit, že soubor je v kódování UTF-8
. To lze několika způsoby.
Správné nastavení výstupu u zdroje
Nejjednodušší je zásah u zdroje problému, tedy pokud CSV soubor exportujeme z databáze, nebo generujeme v kódu aplikace, mělo by jít nastavit UTF-8
jako výstupní kódování tam.
Konverze souboru v textovém editoru
Pokud nemáme přístup ke zdroji, je třeba samotný CSV soubor překódovat, což lze například opět v textovém editoru, jak je vidět na obrázku.
Konverze z pomocí Google Sheets
Můžeme rovněž využít Google Sheets, který si s chybným kódováním poradí a nechá nás stáhnout validní CSV. Budeme potřebovat Google účet, který ale lze zřídit zdarma.
- Do Google Drive (Disk Google) nahrajeme soubor ke konverzi a otevřeme ho pomocí Google Sheets
- Stáhneme data do CSV souboru