Les jeunesses talinistes: Aspiration des pages avec wget et lynx

08/11/2010

Aspiration des pages avec wget et lynx

Eh oui nous sommes de vraies stakhanovistes du bash!!

Maintenant que nous avons réglé les problèmes de commandes non installées, on peut enfin aspirer les pages des liens que nous avons récupérés.

Pour cela, on intègre dans la boucle qui lit chaque ligne (donc chaque url) de chaque fichier, une petite commande wget qui récupère l'url et aspire le contenu de la page.

La commande:

Le seul petit souci est que certain site (comme Wikipédia par exemple) bloque quelques fois cette aspiration!!

Alors comment faire pour récupérer ces pages??

On utilise la commande lynx!!!

La commande:

Lorsque j'avais essayé mercredi dernier j'avais bel et bien récupéré les pages que je n'arrivais pas à avoir avec wget. Malheureusement, en réessayant aujourd'hui, j'en récupère certaines qui n'étaient pas disponibles avec wget mais je n'arrive pas à toutes les avoir quand même (et pourtant j'avais eu celles en question la semaine dernière)... Il va donc falloir trouver une solution à ce problème.

Le résultat du script donne un tableau comme ceci:

2 commentaire(s):

SFgg a dit…: Très beaux graphiques pour la présentation de vos commandes...

SF; 9 novembre 2010 à 08:41
Unknown a dit…: SVP comment faire l'Aspiration du contenu des pages du VIDAL (médicaments par nom commercial et par nom de substance) avec wget+lynx. MERCI d'avance; 31 décembre 2013 à 13:50

08/11/2010

Aspiration des pages avec wget et lynx

2 commentaire(s):

Enregistrer un commentaire