16/11/2010

Problème d'aspiration des pages

Bonjour à tous!!



Quelle joie en cette belle journée ensoleillée de vous faire part de mes problèmes d'aspiration de pages!

Je ne donnerai ici pas de solutions aux problèmes rencontrés dans la mesure où je n'en ai pas pour le moment. Aussi, j'en appelle à votre bon cœur: si vous avez la solution à mon problème, merci de bien vouloir me la donner!!

Comme je l'avais dit dans une précédente note, certaines pages ne veulent pas être aspirées par wget, ni par lynx d'ailleurs... Je crois avoir compris, en partie, d'où vient le problème. En effet, à la fin de chaque lien, les symboles %0D viennent se greffer, corrompant ainsi la validité d'un très grand nombre de mes URLs...
J'ai essayé pas mal de choses:

  • vérifier que mes fichiers d'urls étaient bien encodés
  • vérifier qu'il n'y avait pas de retour chariot à la fin de chaque ligne de chaque fichier url (non y'a pas)
  • tenter de supprimer avec egrep
  • tenter de faire un cut en utilisant le % comme séparateur de colonnes
  • et bien d'autres choses
Rien n'a fonctionné. Rien de rien. >> On a trouvé! (voir plus bas)

Donc si vous savez quoi faire: je prends!


EDIT: Kelly apporte la réponse dans son commentaire

"j'ai résolu le problème :D il suffit de prendre les fichiers allemand.txt, finnois.txt et russe.txt et de les mettre en UNIX grâce à Notepad++ ... Bon ok, on l'a vu en cours grâce a Monsieur Fleury"

1 commentaire(s):

KéTAL a dit…

j'ai résolu le pb :D il suffit de prendre les fichiers allemand.txt, finnois.txt et russe.txt et de les mettre en UNIX grâce a notepad++ ... Bon ok, on l'a vu en cours grâce a Monsieur Fleury

Enregistrer un commentaire