22/11/2010

Encodage en UTF-8

Oyez oyez!


Nous avons commencé la difficile étape de l'encodage en UTF-8. Difficile étape car la commande "file" ne semble pas vouloir fonctionner correctement et ne récupère donc pas toujours les bons encodages initiaux des pages traitées (ainsi, alors que certaines pages sont en windows-1251, "file" me récupère du us-ascii ...). On va donc récupérer les encodages directement après le "charset=" des pages html aspirées!!

Après cela on pourra donc convertir gentiment via "iconv" nos fichiers. À noter que si le fichier est déjà en utf-8, une gentille boucle ne le convertira pas mais se contentera de faire une copie et de renommer le fichier afin d'avoir un avant/après encodage pour TOUS les fichiers... Mais on changera peut-être cela par une inscription dans le tableau "fichier déjà en utf-8", bref, on verra ce qui nous plaît le plus après votes et délibérations.

Voilà une capture de ce qui se passe dans le terminal:




Le message en jaune ne s'affiche évidemment pas lorsque le fichier initial n'était pas en UTF-8 et qu'il y a bien une conversion.


Je ne m'étends pas plus aujourd"hui car en ce moment, je pense ne pas être la seule d'ailleurs, je cours un peu après le temps... Je mettrai donc des explications avec des bouts de script un peu plus tard!!


Bonne journée!!

0 commentaire(s):

Enregistrer un commentaire