########## Tous ceux qu'on veut interdire... ########## # Respectent pas le robots.txt, mais on les met quand même au cas où ils se # décideraient à corriger ça. # Leur robot aspire toutes les pages! En plus ils sont puants et ne se gênent # pas pour le "faites ce que je dis, pas ce que je fais". # # Apparemment, ils n'essayent plus de crawler le web: c'est sur soumission # manuelle uniquement. Mais juste au cas où... User-agent: Art-Online # Ce site n'appartient pas au merveilleux monde sous contrôle de MSN... # Voir aussi . # (redirige sur une page au contenu # utile nul) User-agent: MSNBOT User-agent: msnbot # Une boite qui fait payer pour empêcher le plagiat par les et des # étudiants. # User-agent: turnitinbot # Bla bla bla truc pour que les entreprises vérifient leur image sur le web. # User-agent: CatchBot # L'air d'un truc payant. # User-agent: ICCrawler - iCjobs # Surveillance de marques de merde. # User-agent: R6_FeedFetcher User-agent: R6_CommentReader # Vendent leurs résultats de crawl => dégage. # User-agent: 008 # Probablement pas méchant mais clairement dans une langue qui n'est pas # la mienne, donc mes pages en français ne risquent pas de faire partie de # sa cible. # #User-agent: YoudaoBot # Pareil que YoudaoBot. # #User-agent: Sogou # Pareil que YoudaoBot. # #User-agent: Sosospider # Pareil que YoudaoBot. (Pas sûre s'il faut l'appeler Naverbot ou Yeti.) # #User-agent: Naverbot #User-agent: Yeti # Pareil que YoudaoBot. # #User-agent: ichiro # Ils font payer les données d'autrui. # User-agent: Spinn3r # Un foutage de gueule de trop... Si je ne peux pas empêcher leur sidewiki # de merde de polluer mes pages, je peux au moins envoyer se faire foutre # leur robot. C'est pas comme s'ils m'amenaient du trafic pertinent de # toute manière, c'pas... # http://talkbiz.com/blog/google-steals-the-web/ # http://www.ryanhealy.com/sidewiki-the-great-wall-of-google/ # http://www.marketersboard.com/google-sidewiki-controversy/ # http://blogs.telegraph.co.uk/technology/andrewkeen/100003634/sidewiki-google-colonial-sideswipe/ # http://community.ere.net/blogs/and-im-sticking-to-it/2009/10/three-ways-google-gets-evil-with-sidewiki/ # http://joshnotes.com/blogs/josh/google-sidewiki-www-18.html # http://davejones.ca/blog/2009/10/10/google-sidewiki-is-making-me-a-control-freak.html # http://www.debatpublic.net/2009/10/26/sidewiki-google-adopte-la-strategie-du-coucou/ # http://digitalrecruiting.wordpress.com/2009/10/30/three-ways-google-gets-evil-with-sidewiki/ # http://www.seoreview.com.au/?p=790 # http://shewhomust.livejournal.com/255098.html # http://www.willmaster.com/blog/contentprotection/sidewiki-defense.php # http://netcropolis.org/content/how-block-google-sidewiki # http://www.wendymcelroy.com/print.php?news.2796 # http://blog.fcon21.biz/index.php?url=273/is-google-sidewiki-evil/ # Admettons qu'il me soit utile pour l'instant. # User-agent: Googlebot # Site pour marketeux. # https://moz.com/researchtools/ose/dotbot User-agent: dotbot User-agent: DotBot # Site pour marketeux. # http://www.webmeup-crawler.com/ User-agent: BLEXBot # Marketeux aussi # https://ahrefs.com/robot User-agent: AhrefsBot # "We're sorry but dmp doesn't work properly without JavaScript enabled" -> # fuck you too User-agent: PetalBot # Règle d'interdiction générale. Disallow: / ########## Règles générales ########## # A la fin parce qu'on s'arrête au premier qui matche. # C'est nascze d'indexer les flux, et c'est nascze pour un agrégateur de # lire le robots.txt avant de vouloir récupérer le flux. # Sont dans ce cas: BlogPulseLive, BlogVibeBot # Google débile: c'est le même user-agent pour Google blogs et pour les # pages de recherche standard!! #User-agent: Googlebot User-agent: Slurp User-agent: VoilaBot Disallow: /feed/ Disallow: /informatique/trousansfond/glue/ # Protège du piège les robots qui se comportent bien. User-agent: * Disallow: /informatique/trousansfond/glue/