Cet outil me sert { ici, sur shaarli } et dans ma veille pour créer des aperçus de pages web.
Des captures écran (ou "instantanés") qui sont ensuite redimensionnées (thumbnails)
Me sert (et peut servir) : pour de la sauvegarde / archive :: archéologie_num .
Mises à jour . ajouts
MAJ : ajout de détection des liens vidéo Youtube / Invidious 2021
MAJ : ajout d'une sauvegarde de 5 versions (par URL-page)
MAJ : ajout d'une version datée-titrée (incorporé à l'image)
MAJ : ajout de conversion img.jpg (+ base64) 2022
MAJ : gestion des accents, dé/en.codage (partiellement)
MAJ : ajout d'un lien incitatif de YT vers .invidious
MAJ : gestion pour img.jpg, conv. selon dimensions
Outils . fonctionnement
Mon serveur utilise nodejs avec Puppeteer ( bot_scraper )
Pour éviter Chrome j'ai aussi essayé cutycapt
Je me suis inspiré de https://addons.mozilla.org/fr/firefox/addon/searchpreview/ ...
Limites
J'ai observé pas mal de modules se rapportant à /Puppeteer/ étaient liés à /PhantomJS/ ( dont le dev. est en pause et surtout l'installation sur Raspberrypi un poil unofficial (bidouille, build manuel...) pas top en matière de durée_de_vie ...
Du coup j'ai repris une mini étude de marché des logiciels de "scrapping" permettant d'explorer le web bot .... et je suis retombé sur : https://scrapy.org <3 ( capture plus bas ) ... que j'avais utilisé en 2017 pour explorer le Darknet Tor... Du coup c'est une nouvelle piste, un autre angle d'attaque-recherche.
Résultats avec {cet} "outil maison"
! Awsome list alternativeto
https://github.com/duyet/awesome-web-scraper
ArchiveBox (alternative)
(prêt à l'emploi) (un archive.org auto-hébergé/local)
Pour une offre prête à l'emploi (avec même une version application -avec Electron-) vous pouvez utiliser ArchiveBox https://liens.vincent-bonnefille.fr/?VvYV3w ...
Moi je l'utilise à nouveau pour de la sauvegarde de sites web
(ça crée une archive Warc / html avec ressources / pdf / capture partielle / ...)
Archivebox + Pupet
-
Add ability to run JS scripts during archiving with Playwright/Puppeteer
https://github.com/ArchiveBox/ArchiveBox/issues/51
( cacher modals / popups / cookies ) -
Autoscroll before before archiving and take full-height screenshots
https://github.com/ArchiveBox/ArchiveBox/issues/80
Aller plus loin (notes pupet)
Pistes plein écran ( auto scroll sur la hauteur )
https://blog.rasterwise.com/Puppeteer-Screenshot-Full-Page-Not-Working-Possible-Fixes-and-Alternatives
https://docs.browserless.io/blog/2018/02/22/large-images.html
https://www.titanwolf.org/Network/q/5c0608d1-34ae-4c37-ae1d-2192cbbc1cd0/y
https://zxc0328.github.io/2018/02/12/hdchrome-long-capture/
https://web.archive.org/web/20180216031145/http://census2012.sourceforge.net/paper.html
"While playing around with the _Nmap Scripting Engine_ (NSE) we discovered an amazing number of open embedded devices on the Internet. Many of them are based on Linux and allow login to standard BusyBox with empty or default credentials. We used these devices to build a distributed port scanner to scan all IPv4 addresses. These scans include service probes for the most common ports, ICMP ping, reverse DNS and SYN scans. We analyzed some of the data to get an estimation of the IP address usage.
All data gathered during our research is released into the public domain for further study. "
2012
Carte interactive
> http://census2012.sourceforge.net/hilbert/index.html
Podcast
+ https://liens.vincent-bonnefille.fr/?cVx5Bw
"Dans le jargon de la sécurité informatique, un honeypot est une méthode de défense active qui consiste à attirer, sur des ressources, des adversaires déclarés ou potentiels afin de les identifier et éventuellement de les neutraliser."
Projet de lutte contre le spam
https://www.projecthoneypot.org/
HP en français, leur fonctionnement, les stratégies, quelques tutos ressources
http://igm.univ-mlv.fr/~dr/XPOSE2009/botnets/honeypot.html
Liste d'HP en anglais
https://github.com/paralax/awesome-honeypots
https://www.smokescreen.io/practical-honeypots-a-list-of-open-source-deception-tools-that-detect-threats-for-free/
" This video looks at one of the most popular projects that //!Mediengruppe_Bitnik has worked on with bots, the Random_Darknet_Shopper. The project investigates how these autonomous systems work within a network that offers anonymity. "
Site du projet
https://wwwwwwwwwwwwwwwwwwwwww.bitnik.org/r/
2014 2015 2016
"Robot" achetant aléatoirement des produits proposés sur le catalogue d'une plateforme d'achat-vente sur Internet via un protocole d'échange sécurisant et anonymisant son origine (( le tout à l'aide d'une crypto-monnaie décentralisée des banques-États )).
Original website http://www.no-home-like-place.com [DEAD]
--> Git https://nonlinearnarrative.github.io/no-home-like-place/
Airbnb is a global hotel filled with the same recurring items. Bed, chair, potted plant, all catered to our cosmopolitan sensibilities. We end up in a place that's completely interchangeable; a room is a room is a room.
An algorithm finds these recurring items and replaces them with the same items from other listings. By clicking them, you can jump between rooms and explore the global hotel. There are many homelike places.
Open-source
You can find the source code for the various tools we created and used to make this website on Github.
Workshop
Outcome of a week-long web scraping workshop led by Jonathan Puckey at Non-Linear Narrative, a masters programme at the Royal Academy of Art The Hague. "
GIT : https://github.com/nonlinearnarrative/no-home-like-place
GIT : https://github.com/nonlinearnarrative/scrape-airbnb ( scrape-airbnb )
Cours : Master @Non_Linear_Narrative :
https://www.kabk.nl/en/programmes/master/non-linear-narrative
( @Royal_academy_of_art_the_hague )
" Led by @Jonathan_Puckey " :
https://puckey.studio UX
( où il relate des projets aussi fun que pointer-pointer [Bulle] )
Je l'ai aussi retrouvé ici https://work.bnjmnearl.eu/projects/no-home-like-place/
( un site d'artiste web.créatif ... avec plein de projets fun )
Étrange de redécouvrir cet appartement infini en cette ère du covid
"The IP.Spy.Sequencer is the first application made for the Antidatamining project. It visualizes the activity of a particular network, whose center has been defined as the RYBN main website. This application was made using the data-monitoring and digital surveillance tools - Traceroute, Whois and Lookup
The application recovers the website's homepage login related informations : IP addresses, previous site or entering links, login time and date, Operating System, browser, downloaded bytes, access paths... All these informations are recorded into a database. In a second time, the data are crossed with a GeoIP database, allowing to determine the visitors geographical location."
A project by @Joana_Moll
" Typically, a tracker is a piece of code placed within a particular website that allows to monitor and collect data on user behavior. For instance: a tracker can automatically know where a user is based, which computer they’re using, which sites have been visited before accessing a particular site, and which webpages will be accessed in the future – among other more detailed and personal information. The US is currently enforcing embargoes and sanctions against Cuba, Iran, North Korea, Sudan, Syria, and the Ukrainian region of Crimea. "
" This project has been developed as part of the web residency program — Blowing the Whistle, Questioning Evidence - curated by Tatiana Bazichelli for Solitude & ZKM. "
Web résidence du ZKM
http://webresidencies-solitude-zkm.com
J'aime beaucoup ce projet,
la mise en valeur des données, le scraping avec tor
- Crée de la confusion à l'endroit de la propriété des données et de l'information
à l'endroit des États représenté en ligne www - Ils ont en communs d'avoir leur code "occupé" par Google, en "sortant"
- Cela pose des questions de gouvernance .p
Google Captchas
Spying and detect false humains
How to ? It's secret for good...
J'aime beaucoup ce que nous raconte les artistes dans cette vidéo
Elle révelle surtout la géométrie variable avec laquelle les "Darknets" sont traité... ou plutôt le principe de l' obfu_secret fondamental aux banques et super-marchés connectés.
De tous ces espaces fermés, heureusement secrtes-privés...
ces réseaux réservés qui appartienet au DeepWeb parcequ'effectivement on ne peut les indexer, en tirer des données (au moins de la part de la concurence et certains bot_scraper ( on omet un peu vite les traitements de données internes aux entreprises qui voudraient faire fructifier les données dormantes ou darkdatas... ). Mais oui, en effet le bot de Gogle ne va pas où il veut et c'est bien comme ça.
Bon bin des fois l'errreurrr est humaine et les portes s'ouvrent...
Que se passe t il quand on laisse les clefs de son compte banquaire à Internet ?
Quand on fait de cet espace symboliquement le plus privé et sécurisé, un espace de intrusion_vulnérabilité volontaire ? Un espace_public dans le cyber_espace ? C'est ce que nous racontent ces deux artistes.
@Ferenc_Gróf and @Jean-Baptiste_Naudy
installation pour les RIAM 06 à Marseille en 2009
http://www.riam.info/06/indexb379.html
alt.vidéo : https://www.youtube.com/watch?v=qF1qPgM-WUo
( leur site est .dead http://www.societerealiste.net )
"In 2012 the Carna botnet was built and unleashed on the world. But it didn’t have any intentions on doing anything malicious. It was built just to help us all understand the Internet better. This botnet used the oldest security vulnerability in the book. And the data that came out of it was amazing.
The Carna botnet was used to scan the internet to create a map of where all the public facing computer are in the world. The map it created is remarkable."