Cet outil me sert { ici, sur #shaarli } et dans ma #veille pour créer des aperçus de pages web.
Des captures écran (ou "instantanés") qui sont ensuite redimensionnées (thumbnails)
Me sert (et peut servir) : pour de la #sauvegarde / #archive :: #archéologie_num .
Mises à jour . ajouts
MAJ : ajout de détection des liens vidéo Youtube / Invidious #2021
MAJ : ajout d'une sauvegarde de 5 versions (par URL-page)
MAJ : ajout d'une version datée-titrée (incorporé à l'image)
MAJ : ajout de conversion img.jpg (+ base64) #2022
MAJ : gestion des accents, dé/en.codage (partiellement)
MAJ : ajout d'un lien incitatif de YT vers #.invidious
MAJ : gestion pour img.jpg, conv. selon dimensions
MAJ : fullpage + crop + thumb
https://liens.vincent-bonnefille.fr/?l3HsUg
Outils . fonctionnement
Mon serveur utilise #nodejs avec #Puppeteer ( #bot_scraper )
Pour éviter Chrome j'ai aussi essayé cutycapt
Je me suis inspiré de https://addons.mozilla.org/fr/firefox/addon/searchpreview/ ...
Limites
J'ai observé pas mal de modules se rapportant à /Puppeteer/ étaient liés à /PhantomJS/ ( dont le dev. est en pause et surtout l'installation sur Raspberrypi un poil unofficial (bidouille, build manuel...) pas top en matière de #durée_de_vie ...
Du coup j'ai repris une mini étude de marché des logiciels de "scrapping" permettant d'explorer le web #bot .... et je suis retombé sur : https://scrapy.org #<3 ( capture plus bas ) ... que j'avais utilisé en #2017 pour explorer le Darknet Tor... Du coup c'est une nouvelle piste, un autre angle d'attaque-recherche.
Résultats avec {cet} "outil maison"
! Awsome list #alternativeto
https://github.com/duyet/awesome-web-scraper
ArchiveBox (alternative)
(prêt à l'emploi) (un archive.org auto-hébergé/local)
Pour une offre prête à l'emploi (avec même une version application -avec Electron-) vous pouvez utiliser ArchiveBox https://liens.vincent-bonnefille.fr/?VvYV3w ...
Moi je l'utilise à nouveau pour de la sauvegarde de sites web
(ça crée une archive Warc / html avec ressources / pdf / capture partielle / ...)
Archivebox + Pupet
-
Add ability to run JS scripts during archiving with Playwright/Puppeteer
https://github.com/ArchiveBox/ArchiveBox/issues/51
( cacher modals / popups / cookies ) -
Autoscroll before before archiving and take full-height screenshots
https://github.com/ArchiveBox/ArchiveBox/issues/80
Aller plus loin (notes pupet)
Pistes plein écran ( auto scroll sur la hauteur )
https://blog.rasterwise.com/Puppeteer-Screenshot-Full-Page-Not-Working-Possible-Fixes-and-Alternatives
https://docs.browserless.io/blog/2018/02/22/large-images.html
https://www.titanwolf.org/Network/q/5c0608d1-34ae-4c37-ae1d-2192cbbc1cd0/y
https://zxc0328.github.io/2018/02/12/hdchrome-long-capture/