19/12/2010

Encore des nuages!

Bonjour bonjour!!

Comme je l'ai dit dans la précédente note, nous avons quasiment terminé ce que nous avions à faire, alors nous nous faisons plaisir en faisant des jolis nuages!

Effectivement, ils ne sont pas tous sur le même modèle, mais dans la mesure où les mots principaux (sauf peut-être pour le russe) ressortent vraiment bien, nous avons décidé de ne pas tous les faire selon le même moule (et puis c'est monotone sinon quand même...)....

Donc pour le sens concret de 'frontière', voici les nuages pour l'espagnol, le portugais, le finnois, le français et l'italien:




06/12/2010

On avance d'un pas et on ne recule pas apparemment

Bonjour à tous!

Quelle joie de poster une nouvelle note tout en couleurs quand dehors tout est blanc!! Alors que je pourrais faire de la luge dans le parc à côté de chez moi, dévaler les petites collines, faire des batailles de boules de neige, tout ça tout ça, je vous gratifie d'une nouvelle note!!

Mais ENFIN, voici une note qui ne parle pas que des soucis rencontrés!

Après consultation de M. Fleury, il s'avère que notre script est plutôt pas trop mal, et que le MAL vient  que de bash (et un tout petit peu de nous aussi). Nous sommes donc finalement arrivées au bout de toutes les tâches faisables automatiquement, il nous reste donc à traiter manuellement les petits soucis rencontrés puisqu'au final notre travail est semi-automatique!

C'est donc avec une grande fierté/joie/allégresse (rayez la mention inutile) que je vous annonce ceci: on peut enfin faire les nuages et tous les autres trucs rigolos!!!!!

Voici par exemple les nuages pour le sens concret de 'frontière' en anglais, en allemand et en russe:




Voilà c'est tout pour aujourd'hui!!!

29/11/2010

On avance d'un pas, on recule de deux...

Bonne soirée enneigée!!


On approche peu à peu de la date de rendu de notre fabuleux site et il reste tout de même pas mal de soucis à régler!

Alors, d'abord, les bonnes nouvelles: le contexte, c'est fait!

La commande:



Le tableau est maintenant plus complet:



On peut d'ailleurs voir qu'à côté du numéro de chaque dump il y a désormais la mention de l'encodage d'origine.

Le résultat pour le contexte:



Mais nous avons toujours des soucis dans l'encodage!!
La commande iconv fonctionne presque tout le temps... D'ailleurs en ouvrant chaque fichier dans Notepad++ ou Smultron ou BBedit (etc.) on peut voir que les fichiers sont bien en UTF-8. Néanmoins, néanmoins...
J'ai toujours de gros soucis pour le russe....

La conversion en UTF-8 se fait mais l'affichage (que j'ai bien modifié via Firefox hein) est très bizarre.

Par exemple, un fichiers originellement en windows-1251:

Il s'affiche quasi normalement.
On le convertit en UTF-8, et voilà le résultat:


La recherche de contexte se faisant dans le fichier converti, on n'obtient aucun contexte (bah oui...) puisque le mot recherché est indescriptible......

Mais ce n'est pas fini! (Ah non hein!)

Certains dumps se retrouvent bizarrement en caractères latins....... Avant conversion bien sûr.... Donc impossible de chercher le contexte du mot "граница" dans la mesure où nous n'avons pas l'alphabet cyrillique dans le dump (on a bien par contre le mot "granica" << transcription en alphabet latin)... D'où peut venir ce problème?

Page originelle:


Dump:



Donc voilà voilà... Si quelqu'un a le même problème...

Et juste pour montrer la superbe différence entre le résultat de la commande file -i et la recherche du charset via egrep (en rouge: file -i, en vert: résultat egrep):



Ah oui!

J'allais oublier, les fichiers à concaténer sont concaténés, mais là je ne vous montre pas ma commande quand même!! Bon je donne quand même la syntaxe de 'cat':

cat fichier_a_concatener1 fichier_a_concatener2 >> (ou >) fichier_en_sortie

22/11/2010

Encodage en UTF-8

Oyez oyez!


Nous avons commencé la difficile étape de l'encodage en UTF-8. Difficile étape car la commande "file" ne semble pas vouloir fonctionner correctement et ne récupère donc pas toujours les bons encodages initiaux des pages traitées (ainsi, alors que certaines pages sont en windows-1251, "file" me récupère du us-ascii ...). On va donc récupérer les encodages directement après le "charset=" des pages html aspirées!!

Après cela on pourra donc convertir gentiment via "iconv" nos fichiers. À noter que si le fichier est déjà en utf-8, une gentille boucle ne le convertira pas mais se contentera de faire une copie et de renommer le fichier afin d'avoir un avant/après encodage pour TOUS les fichiers... Mais on changera peut-être cela par une inscription dans le tableau "fichier déjà en utf-8", bref, on verra ce qui nous plaît le plus après votes et délibérations.

Voilà une capture de ce qui se passe dans le terminal:




Le message en jaune ne s'affiche évidemment pas lorsque le fichier initial n'était pas en UTF-8 et qu'il y a bien une conversion.


Je ne m'étends pas plus aujourd"hui car en ce moment, je pense ne pas être la seule d'ailleurs, je cours un peu après le temps... Je mettrai donc des explications avec des bouts de script un peu plus tard!!


Bonne journée!!