cerhu > linux.debian.user.french

Roger Bouteiller (09/02/2006, 12h20)
Bonjour a tous!

Je me demandais si quelqun aurait il une idee sur la possibilite et le
moyen, dans une console debian, de lister dans un fichier texte tous les
liens d'un site?

Non pas d'aspirer le site, juste de faire un listing de tous les liens sur
ce site la, pour ensuite pouvoir retravailler cette liste.

Mon but serait de faire un truc type 'listing' des liens de mon site,
mais en passant par le net et le serveur web et non pas juste en listant
tous le fichiers des repertoires au niveau local.

Si quelqun a une idee de script ou d'apt-get qui permettrait de faire ca,
(et qui se limiterais a mon domaine, je veux pas faire un plan de tout le
net ;)) je suis prenneur!

Merci!

Roger
steve (09/02/2006, 12h40)
Le Jeudi, 9 Février 2006 11.01, Roger Bouteiller a écrit :
> Bonjour a tous!


Bonjour,

> Je me demandais si quelqun aurait il une idee sur la possibilite et le
> moyen, dans une console debian, de lister dans un fichier texte tous les
> liens d'un site?


un début de réponse :

grep "<a href" fichier.html > lesliens.txt

avec un peu de ménage après.

Mais il doit y avoir d'autres méthodes. Il me semble me rappeler que Firefox
possède une extension qui fait cela, mais je ne me rappelle pas de son nom.

> Non pas d'aspirer le site, juste de faire un listing de tous les liens sur
> ce site la, pour ensuite pouvoir retravailler cette liste.
> Mon but serait de faire un truc type 'listing' des liens de mon site,
> mais en passant par le net et le serveur web et non pas juste en listant
> tous le fichiers des repertoires au niveau local.
> Si quelqun a une idee de script ou d'apt-get qui permettrait de faire ca,
> (et qui se limiterais a mon domaine, je veux pas faire un plan de tout le
> net ;)) je suis prenneur!
> Merci!


Bonne journée
Jacques L'helgoualc'h (09/02/2006, 13h00)
Roger Bouteiller a écrit, jeudi 9 février 2006, à 11:01 :
> Bonjour a tous!


bonjour,

> Je me demandais si quelqun aurait il une idee sur la possibilite et le
> moyen, dans une console debian, de lister dans un fichier texte tous les
> liens d'un site?


wget et sed ?

> Non pas d'aspirer le site, juste de faire un listing de tous les liens sur
> ce site la, pour ensuite pouvoir retravailler cette liste.


$ wget -m -b --delete-after [..]
Poursuite à l'arrière plan, pid 3123.
La sortie sera écrite vers « wget-log ».

.... et cette sortie n'est pas trop difficile à analyser. Si tu préfères
utiliser Perl, « require HTML::LinkExtor;  » peut être utile.
Sylvain Sauvage (09/02/2006, 15h10)
Jeudi 9 février 2006, 11:35:42 CET, steve a écrit :
> Le Jeudi, 9 Février 2006 11.01, Roger Bouteiller a écrit :
> > Bonjour a tous!

> Bonjour,


'jour,
> > Je me demandais si quelqun aurait il une idee sur la possibilite et le
> > moyen, dans une console debian, de lister dans un fichier texte tous
> > les liens d'un site?

> un début de réponse :
> grep "<a href" fichier.html > lesliens.txt
> avec un peu de ménage après.


Marchera pas : le href peut ne pas être sur la même ligne que le <a
Une recherche de "href" seulement serait plus large.

En tout cas, il faut le programmer pour ne rien rater si on veut que cela
soit réutilisable et complet. Un petit script pourrait aller si on est
sûr que les href n'apparaissent pas ailleurs que dans une ancre active
(p.ex. dans un exemple de code ou une partie commentée).
Jean-Damien Durand (09/02/2006, 15h50)
On Thursday, 9 February 2006 13:14, Sylvain Sauvage wrote:
> Marchera pas : le href peut ne pas être sur la même ligne que le <a
> Une recherche de "href" seulement serait plus large.
> En tout cas, il faut le programmer pour ne rien rater si on veut que cela
> soit réutilisable et complet. Un petit script pourrait aller si on est
> sûr que les href n'apparaissent pas ailleurs que dans une ancre active
> (p.ex. dans un exemple de code ou une partie commentée).


Un example a la va-vite, mais vraiment vite alors, i.e. sale et issu de copier/coller.
D'autres pourront poster un truc similaire en (tellement) d'autres languages.
C'est /juste/ pour donner idee de comment ca peut se faire, sans pretentionaucune.
A+, JD.
manioul (13/02/2006, 02h40)
Le jeudi 09 février 2006 à 11:01 +0100, Roger Bouteiller a écrit :
> Bonjour a tous! Coucou!


Du perl, avec les modules HTML::TreeBuilder et HTML::Element
[..]
[..]

++ ;)
[..]
Discussions similaires
Lister les onglets d'un document Excel depuis Access VBA

lister les pages contenant de la coleur

lister les tables d'une base depuis Access

Lister des fichiers depuis un serveur


Fuseau horaire GMT +2. Il est actuellement 03h33. | Privacy Policy