Skip Navigation

Informatica (Italy e non Italy 😁) @feddit.it

lgsp @urbanists.social

5d ago

Dedicato agli admin: una trappola per scraper LLM

Dedicato agli admin: una trappola per scraper LLM

Genera pagine web infinite alimentando gli scraper di merda nonsense.

Avveleniamo i pozzi, ma selettivamente!

https://hackaday.com/2025/01/23/trap-naughty-web-crawlers-in-digestive-juices-with-nepenthes/

4 comments

@lgsp
Ma la domanda è: come distinguere il "legittimo" crawler di un motore di ricerca da quello di una LLM? Dubito facciano la cortesia di usare un loro User Agent…
@informatica
- @paoloredaelli @lgsp @informatica
  Una strategia potrebbe essere pubblicare il rallentatore senza link, non raggiungibile, l’unico riferimento è nel robots.txt con l’istruzione di NON indicizzare.
  Chi accede ha letto robots.txt ignorandone il contenuto e allora sono un pò risorse sue, indipendentemente dal fatto che sia un LLM o un motore di ricerca…
  Chi il file manco lo cerca la passa liscia, ma chi lo usa come ‘spunto’, ci casca: bicchiere mezzo pieno?
- @paoloredaelli
  Basandosi sul comportamento: se i crawler seguono quanto indicato da robots.txt, non cercando di accedere in parti del sito non consentite, non finiscono nella trappola infinita, altrimenti sì.
  EDIT: mi sbagliavo un warning avvisa proprio che non c'è modo di distiguere buoni da cattivi
  @informatica
  https://zadzmo.org/code/nepenthes/
  
  @lgsp
  Mi fatto stanno "avvelenando i pozzi".
  @informatica