Bonne soirée enneigée!!
On approche peu à peu de la date de rendu de notre fabuleux site et il reste tout de même pas mal de soucis à régler!
Alors, d'abord, les bonnes nouvelles: le contexte, c'est fait!
La commande:
Le tableau est maintenant plus complet:
On peut d'ailleurs voir qu'à côté du numéro de chaque dump il y a désormais la mention de l'encodage d'origine.
Le résultat pour le contexte:
Mais nous avons toujours des soucis dans l'encodage!!
La commande iconv fonctionne presque tout le temps... D'ailleurs en ouvrant chaque fichier dans Notepad++ ou Smultron ou BBedit (etc.) on peut voir que les fichiers sont bien en UTF-8. Néanmoins, néanmoins...
J'ai toujours de gros soucis pour le russe....
La conversion en UTF-8 se fait mais l'affichage (que j'ai bien modifié via Firefox hein) est très bizarre.
Par exemple, un fichiers originellement en windows-1251:
Il s'affiche quasi normalement.
On le convertit en UTF-8, et voilà le résultat:
La recherche de contexte se faisant dans le fichier converti, on n'obtient aucun contexte (bah oui...) puisque le mot recherché est indescriptible......
Mais ce n'est pas fini! (Ah non hein!)
Certains dumps se retrouvent bizarrement en caractères latins....... Avant conversion bien sûr.... Donc impossible de chercher le contexte du mot "граница" dans la mesure où nous n'avons pas l'alphabet cyrillique dans le dump (on a bien par contre le mot "granica" << transcription en alphabet latin)... D'où peut venir ce problème?
Page originelle:
Dump:
Donc voilà voilà... Si quelqu'un a le même problème...
Et juste pour montrer la superbe différence entre le résultat de la commande file -i et la recherche du charset via egrep (en rouge: file -i, en vert: résultat egrep):
Ah oui!
J'allais oublier, les fichiers à concaténer sont concaténés, mais là je ne vous montre pas ma commande quand même!! Bon je donne quand même la syntaxe de 'cat':
cat fichier_a_concatener1 fichier_a_concatener2 >> (ou >) fichier_en_sortie