Bloquear web scraping
Bloquear accesos automatizados provenientes de Web Spider, web scraping y bots tiene un impacto positivo significativo en el rendimiento de un servidor y en el SEO de un sitio web. Estos procesos que vamos a resumir en «Bots» suelen identificarse por el UserAgent, así podemos saber si es un robot de Google, Bing o un Robot de semrush o Ahrefs (de la competencia) o casos peores.
Cuando un servidor es atacado por bad-bots, puede sufrir una sobrecarga que hace que el sitio sea lento o inaccesible para los usuarios legítimos. Esto puede afectar negativamente la experiencia del usuario y disuadirlo de realizar compras en el sitio. Además, los motores de búsqueda penalizan a los sitios que son lentos o inaccesibles, lo que afecta negativamente no solo el SEO del sitio, esto da todas las campañas de tráfico, porque principalmente daña la experiencia de usuarios reales.
Éstos accesos automatizados generan pérdidas millonarias, en Ecommerce y proyectos digitales. Se estima que aproximadamente entre 1/4 y 1/5 del tráfico de una web, es tráfico de Bots o algún proceso de scraping.
Cuando se bloquean los bad-bots en base al User-Agent, el servidor puede proporcionar un servicio más rápido y confiable a los usuarios legítimos. Esto puede mejorar la experiencia del usuario y aumentar la probabilidad de que realicen compras en el sitio. Además, al mejorar la velocidad del servidor, también se puede mejorar el SEO del sitio, ya que los motores de búsqueda valoran a los sitios que ofrecen una buena experiencia al usuario y que son rápidos y accesibles.
Bloquear bots mejoras tu negocio online
Queda claro que bloquear a los bad-bots tiene un impacto positivo significativo en el rendimiento del servidor y en el SEO de un sitio de e-commerce. Al mejorar la experiencia del usuario, además bajas los costos del servidor notablemente, esto tiene un impacto directo en el presupuesto de tu negocio y el ROAS en especial cuando tienes un desarrollo propio o la infraestructura depende directamente de tu equipo.
Se supone que cuando tú estás contratando una plataforma Cloud, como shopify, Vtex o Adobe Commerce (Magento) incluso WordPress o wix, por mencionar algunas plataformas, ellos tienen sistemas de seguridad anti ataques, Y quizás es una ventaja que no estás viendo, pero es una de las mejores ventajas que tienen estos servicios Cloud.
Los ataques de Bots más comunes son
- Price Scraping:
- Definición: Esta práctica consiste en rastrear y recopilar los precios de los productos de la competencia.
- Impacto: Puede perjudicar campañas de marketing y promociones planificadas, ya que los competidores pueden ajustar sus precios estratégicamente para ganar ventaja.
- Content Scraping:
- Definición: Similar al Price Scraping, pero en este caso se trata de copiar contenido textual, visual o multimedia de la competencia.
- Impacto: Esto no solo infringe la propiedad intelectual, sino que también puede afectar el posicionamiento en buscadores y la originalidad del contenido.
- Posesión de cuentas:
- Definición: Los atacantes roban credenciales de usuarios y las prueban en diversos servicios web.
- Impacto: Puede resultar en acceso no autorizado a cuentas personales y empresariales, con posibles consecuencias financieras y de privacidad.
- Creación de cuentas:
- Definición: Los atacantes crean múltiples cuentas gratuitas para enviar spam o realizar actividades maliciosas.
- Impacto: Esto puede saturar plataformas y servicios con contenido no deseado, afectando la experiencia de los usuarios legítimos y la reputación del servicio.
- Fraude de tarjetas de crédito:
- Definición: Los delincuentes prueban números de tarjetas de crédito hasta identificar combinaciones válidas, incluyendo el CVV.
- Impacto: Puede llevar a cargos fraudulentos en cuentas de usuarios, causando pérdidas económicas tanto a consumidores como a negocios.
- Denegación de servicio (DoS):
- Definición: Este ataque sobrecarga un servidor con solicitudes excesivas, ralentizando o incluso deteniendo el servicio.
- Impacto: Puede resultar en la inaccesibilidad de servicios web críticos, afectando tanto a usuarios como a negocios que dependen de estos servicios.
Alternativas para bloquear bots
Proteger una aplicación web o sitio Web contra bots invasivos es esencial, cada una con sus pros y contras, adecuadas para diferentes contextos.
1. CAPTCHA: Una Solución Sencilla
CAPTCHA: Es como un desafío que se presenta a los visitantes del sitio para verificar que son humanos reales y no programas automatizados. Puedes haberlos visto al completar formularios en línea, donde se te pide resolver un rompecabezas simple. Los CAPTCHA son excelentes para puntos específicos como formularios de inicio de sesión y registros, asegurando que las interacciones provengan de personas reales.
Debo decirte que, si bien los CAPTCHA son una excelente herramienta, no creo que a largo plazo sigan funcionando tan eficientemente considerando los avances en inteligencia artificial y APIS como GPT, un hacker experimentado sabe cómo entrenar un GPT que resuelva estos CAPTCHA. Por lo cual si hay un proceso extremadamente sensible, que depende de un CAPTCHA, yo que tú estaría evaluando implementar mejoras.
- Ventaja: Fácil de implementar y comprensible para los usuarios.
- Consideración: Ideal para proteger puntos críticos como formularios, pero no es invulnerable a técnicas avanzadas de bots.
2. Servicios de Akamai y Cloudflare: Monitoreo Avanzado de Bots
Bloqueo de Bots a Nivel de Servidor (Akamai o Cloudflare): Este método trabaja más en las sombras. Funciona filtrando el tráfico no deseado antes de que llegue al sitio, bloqueando bots a nivel del servidor. Esto aligera la carga en el servidor y protege contra diversos tipos de ataques.
- Ventaja: Ofrecen servicios avanzados de monitoreo automático y categorización de bots.
- Consideración: Categorizan bots de forma extremadamente específica, incluyendo herramientas SEO, bots publicitarios, y más. Sin embargo, estos servicios pueden tener un costo significativo.
3. Uso de .htaccess: Control Artesanal
- Ventaja: Permite un control detallado a nivel del servidor.
- Consideración: Más artesanal pero eficiente. Requiere conocimientos técnicos para configurar y mantener.
4. Análisis de Patrones de Tráfico: Estrategia Proactiva
- Ventaja: Analiza patrones de tráfico para identificar comportamientos sospechosos.
- Consideración: Requiere implementación de algoritmos avanzados y análisis constante para adaptarse a nuevas amenazas.
5. Lista Negra de IP: Enfoque Directo
- Ventaja: Bloquea direcciones IP conocidas por comportamientos maliciosos.
- Consideración: Puede resultar en falsos positivos y no es completamente efectiva contra bots que cambian constantemente de IP.
6. JavaScript Challenge: Obstáculos Dinámicos
- Ventaja: Presenta desafíos dinámicos que requieren ejecución de JavaScript.
- Consideración: Puede afectar la velocidad de carga para usuarios legítimos que deshabilitan JavaScript.
7. Soluciones Basadas en Inteligencia Artificial (IA): Detección Avanzada
- Ventaja: Utiliza IA para identificar patrones de comportamiento de bots.
- Consideración: Requiere entrenamiento y ajustes constantes para mejorar la precisión.
La elección de la estrategia de bloqueo de bots depende de la naturaleza y las necesidades específicas de tu sitio web. Es común combinar varias soluciones para obtener una defensa más completa. Mientras que CAPTCHA es simple y efectivo, servicios como Akamai y Cloudflare ofrecen un enfoque avanzado, aunque a un costo. .htaccess proporciona un control más manual, y otras estrategias como análisis de patrones y soluciones basadas en IA están en la vanguardia (que Akamai y Cloudflare tienen ) de la defensa contra bots avanzados. La clave está en encontrar un equilibrio entre seguridad y experiencia del usuario.
Cómo utilices las recomendaciones que te voy a comentar a continuación, son meramente informativas y no es una recomendación que podría no aplicar para tu sitio Web o empresa. Debes consultar con los responsables técnicos de tu empresa o proveedor de servicio de Hosting, y un consultor SEO, antes de realizar cualquier modificación.
Modificar incorrectamente el .htaccess puede dañar de forma temporal o permanente tu sitio web. De Igual forma que Bloquear el acceso de Bots de forma imprudente o sin planificación
Informe por Dispositivo en Google Analytics
El informe por Dispositivo en Google Analytics de adquisición es una herramienta que permite conocer la relación entre las adquisiciones (es decir, el número de usuarios que han llegado a un sitio web o aplicación) y las conversiones (es decir, el número de usuarios que han realizado alguna acción deseada, como hacer una compra o rellenar un formulario). Este informe muestra cuántos usuarios adquiridos en un determinado tipo de dispositivo (por ejemplo, móvil, tablet o ordenador) han realizado una conversión en ese mismo tipo de dispositivo, cuántos han realizado la conversión en otro tipo de dispositivo y cuántos no han realizado ninguna conversión. Con este informe, es posible comprender mejor el papel de cada dispositivo en la adquisición de nuevos usuarios y en la conversión de ellos.
Los Ataques a un sitio web con bots tienen un impacto negativo en SEO
Los ataques a un sitio web con bots tienen un impacto negativo en SEO, en el rendimiento y la seguridad del sitio. Algunos de los efectos potenciales de un ataque con bots son:
- Sobrecarga del servidor: los bots pueden generar tráfico falso en masa, lo que puede sobrecargar el servidor y hacer que el sitio sea más lento o incluso inaccesible para los usuarios legítimos. Esto puede afectar negativamente el SEO del sitio ya que los motores de búsqueda penalizan a los sitios que son lentos o inaccesibles.
- Contenido duplicado: los bots pueden generar contenido duplicado en el sitio, lo que puede afectar negativamente el SEO del sitio. Encuentran vulnerabilidades para acceder como un editor, creando páginas con diferente propósitos malignos desde phishing hasta, usar tu servidor de CDN para almacenar imágenes y contenido pirata.
- Spam: los bots pueden utilizar el sitio para enviar spam a otros usuarios o para publicar comentarios no deseados en el sitio. Esto puede afectar negativamente el SEO del sitio ya que los motores de búsqueda penalizan a los sitios que tienen contenido spammy o de baja calidad.
- Robo de información: los bots pueden utilizar el sitio para recopilar información confidencial, como contraseñas o datos de pago, y utilizarla para fines malintencionados.
Es importante tomar medidas para proteger el sitio de los ataques con bots y minimizar el impacto en el SEO del sitio. Esto puede incluir configurar medidas de seguridad adecuadas, monitorear el tráfico del sitio para detectar cualquier actividad sospechosa y utilizar herramientas de detección de bots para bloquear el acceso no autorizado.
Toma medidas si es un Bot te quiere robar el contenido
Existen varias medidas que puedes tomar para identificar si un bot está tratando de robar el contenido de tu sitio web:
- Utiliza una herramienta de monitoreo de tráfico: puedes utilizar una herramienta como Google Analytics para monitorear el tráfico de tu sitio y detectar cualquier actividad sospechosa.
- Configura alertas: puedes configurar alertas en Google Analytics o en otras herramientas de monitoreo de tráfico para recibir notificaciones cuando haya un aumento súbito o inesperado en el tráfico del sitio.
- Revisa los registros del servidor: puedes revisar los registros del servidor para ver qué IPs están accediendo al sitio y buscar cualquier actividad sospechosa.
- Utiliza una herramienta de detección de bots: existen herramientas especializadas que pueden ayudarte a identificar si hay bots tratando de acceder al sitio y a bloquear su acceso.
- Configura medidas de seguridad: puedes utilizar medidas de seguridad como autenticación de dos pasos o contraseñas seguras para proteger el sitio contra los ataques de bots.
Recuerda que mientras los CAPTCHA son efectivos, no son una solución única. Combinar varias capas de seguridad y adoptar un enfoque proactivo en la detección de actividades sospechosas es clave para garantizar una protección robusta contra bots no deseados.
Antes de modificar el .htaccess Deberías considerar
El archivo .htaccess es un archivo de configuración que se utiliza para controlar la forma en que se sirve el contenido de un sitio web en un servidor Apache. Se encuentra en la raíz del directorio del sitio web y puede utilizarse para controlar el acceso al sitio, redirigir el tráfico y realizar otras tareas de configuración.
No es algo con lo que deberías estar jugando, especialmente si no programas habitualmente, NO tienes el conocimiento o la capacidad para realizar Backups y poder restaurar el sitio y su configuración original.
Te recomiendo que valides con tu proveedor de hosting o con los responsables de Infraestructura o desarrollo de tu proyecto, incluso delegar en ellos estas tareas de mejoras y mantenimiento. compartirles el link a este artículo
Para encontrar el archivo .htaccess en tu servidor, puedes utilizar un cliente FTP o un panel de control de tu hosting para acceder a los archivos del sitio. Una vez que hayas accedido al directorio del sitio, deberías ver el archivo .htaccess.
Para editar el archivo .htaccess, puedes utilizar un editor de texto o de código, como el Bloc de notas o el Sublime Text. Asegúrate de hacer una copia de seguridad del archivo antes de realizar cualquier cambio
Bloquee bots y arañas «malas» usando .htaccess
Es importante tener en cuenta que existen muchos tipos diferentes de bots y que no es posible crear una lista exhaustiva de todos ellos. Algunos bots pueden tener user agents legítimos y ser útiles para el sitio, como los bots de los motores de búsqueda, como Google, Yahoo, Bing mientras que otros pueden ser malintencionados y tratar de acceder al sitio de forma no autorizada.
Para bloquear estos User-Agent de bots en un archivo .htaccess, puedes utilizar la siguiente sintaxis:
El listado de User-Agent, en formato .htaccess
# Bad bot
SetEnvIfNoCase User-Agent "^abot" bad_bot
SetEnvIfNoCase User-Agent "^aipbot" bad_bot
SetEnvIfNoCase User-Agent "^asterias" bad_bot
SetEnvIfNoCase User-Agent "^EI" bad_bot
SetEnvIfNoCase User-Agent "^libwww-perl" bad_bot
SetEnvIfNoCase User-Agent "^LWP" bad_bot
SetEnvIfNoCase User-Agent "^lwp" bad_bot
SetEnvIfNoCase User-Agent "^MSIECrawler" bad_bot
SetEnvIfNoCase User-Agent "^nameprotect" bad_bot
SetEnvIfNoCase User-Agent "^PlantyNet_WebRobot" bad_bot
SetEnvIfNoCase User-Agent " ^UCmore" bad_bot
SetEnvIfNoCase Usuario-Agente "Cocodrilo" bad_bot
SetEnvIfNoCase Usuario-Agente "AllSubmitter" bad_bot
SetEnvIfNoCase User-Agent "Anónimo" bad_bot
SetEnvIfNoCase User-Agent "Asterias" bad_bot
SetEnvIfNoCase User-Agent "autoemailspider" bad_bot
SetEnvIfNoCase User-Agent "Badass" bad_bot
SetEnvIfNoCase User-Agent "Baiduspider" bad_bot
SetEnvIfNoCase User-Agent "BecomeBot" bad_bot
SetEnvIfNoCase User-Agent "Bitacle" bad_bot
User SetEnvIfNoCase User-Agent "Bitacle" bad_bot
User SetEnvIfNoCase User-Agent "Bitacle" bad_bot
User SetEnvIfNoCase -Agente "vejiga\ fusion" bad_bot
SetEnvIfNoCase User-Agent "Blogshares\ Spiders" bad_bot
SetEnvIfNoCase User-Agent "Board\ Bot" bad_bot
SetEnvIfNoCase User-Agent "Board\ Bot" bad_bot
SetEnvIfNoCase User-Agent "Convera" bad_bot
SetEnvIfNoCase User-Agent "ConveraMultiMediaCrawler"bad_bot
SetEnvIfNoCase Agente de usuario "c-spider" bad_bot
SetEnvIfNoCase Agente de usuario "DA" bad_bot
SetEnvIfNoCase User-Agent "DnloadMage" bad_bot
SetEnvIfNoCase User-Agent "Download\ Demon" bad_bot
SetEnvIfNoCase User-Agent "Download\ Express" bad_bot
SetEnvIfNoCase User-Agent "Download\ Wonder" bad_bot
SetEnvIfNoCase User-Agent "dragonfly" bad_bot
SetEnvIfNoCase User-Agent "DreamPassport" bad_bot
SetEnvIfNoCase User-Agent "DSurf" bad_bot
SetEnvIfNoCase User-Agent "DTS Agent" bad_bot
SetEnvIfNoCase User-Agent "EBrowse" bad_bot
SetEnvIfNoCase User-Agent "eCatch" bad_bot
SetEnvIfNoCase User-Agent "edgeio" bad_bot
SetEnvIfNoCase User-Agent " Correo electrónico\ Extractor" bad_bot
SetEnvIfNoCase User-Agent "EmailSiphon" bad_bot
SetEnvIfNoCase Agente de usuario "EmailWolf" bad_bot
SetEnvIfNoCase User-Agent "EmeraldShield" bad_bot
SetEnvIfNoCase User-Agent "ESurf" bad_bot
SetEnvIfNoCase User-Agent "Exabot" bad_bot
SetEnvIfNoCase User-Agent "ExtractorPro" bad_bot
SetEnvIfNoCase User-Agent "FileHeap!\ descargador de archivos" bad_bot
SetEnvIfNoCase User-Agent "FileHound " bad_bot
SetEnvIfNoCase User-Agent "Forex" bad_bot
SetEnvIfNoCase User-Agent "Franklin\ Locator" bad_bot
SetEnvIfNoCase User-Agent "FreshDownload" bad_bot
SetEnvIfNoCase User-Agent "FrontPage" bad_bot
SetEnvIfNoCase User-Agent "FSurf" bad_bot
SetEnvIfNoCase User-Agent "Gaisbot "bad_bot
SetEnvIfNoCase User-Agent"Gamespy_Arcade" bad_bot
SetEnvIfNoCase Agente de usuario "genieBot" bad_bot
SetEnvIfNoCase User-Agent "GetBot" bad_bot
SetEnvIfNoCase User-Agent "GetRight" bad_bot
SetEnvIfNoCase User-Agent "Gigabot" bad_bot
SetEnvIfNoCase User-Agent "Go!Zilla" bad_bot
SetEnvIfNoCase User-Agent "Go-Ahead-Got-It" bad_bot
SetEnvIfNoCase User -Agente "GOFORITBOT" bad_bot
SetEnvIfNoCase User-Agent "heritrix" bad_bot
SetEnvIfNoCase User-Agent "HLoader" bad_bot
SetEnvIfNoCase User-Agent "HooWWWer" bad_bot
SetEnvIfNoCase User-Agent "HTTrack" bad_bot
SetEnvIfNoCase User-Agent "iCCrawler" bad_bot
SetEnvIfNoCase User-Agent "ichiro" bad_bot
SetEnvIfNoCase Agente de usuario "iGetter"bad_bot
SetEnvIfNoCase Usuario-Agente "imds_monitor" bad_bot
SetEnvIfNoCase User-Agent "Industria\ Programa" bad_bot
SetEnvIfNoCase User-Agent "Indy\ Library" bad_bot
SetEnvIfNoCase User-Agent "InetURL" bad_bot
SetEnvIfNoCase User-Agent "InstallShield\ DigitalWizard" bad_bot
SetEnvIfNoCase User-Agent "IRLbot" bad_bot
SetEnvIfNoCase User-Agent "IUPUI\ Research\ Bot" bad_bot
SetEnvIfNoCase User-Agent "Java" bad_bot
SetEnvIfNoCase User-Agent "jeteye" bad_bot
SetEnvIfNoCase User-Agent "jeteyebot" bad_bot
SetEnvIfNoCase User-Agent "JoBo" bad_bot
SetEnvIfNoCase User-Agent "JOC\ Web\ Spider " bad_bot
SetEnvIfNoCase Agente de usuario "Kapere"bad_bot
SetEnvIfNoCase Usuario-Agente "Larbin" bad_bot
SetEnvIfNoCase Usuario-Agente "LeechGet" bad_bot
SetEnvIfNoCase User-Agent "LightningDownload" bad_bot
SetEnvIfNoCase User-Agent "Linkie" bad_bot
SetEnvIfNoCase User-Agent "Mac\ Finder" bad_bot
SetEnvIfNoCase User-Agent "Mail\ Sweeper" bad_bot
SetEnvIfNoCase User-Agent "Mass\ Downloader" bad_bot
SetEnvIfNoCase User-Agent "MetaProductos\ Descargar\ Express" bad_bot
SetEnvIfNoCase User-Agent "Microsoft\ Data\ Access" bad_bot
SetEnvIfNoCase User-Agent "Microsoft\ URL\ Control" bad_bot
SetEnvIfNoCase User-Agent "Missauga\ Locate" bad_bot
SetEnvIfNoCase User-Agent "Missauga\ Locator " bad_bot
SetEnvIfNoCase Usuario-Agente "Missigua Locator" bad_bot
SetEnvIfNoCase Usuario-Agente "Misuri\ Colegio\ Explorar" bad_bot
SetEnvIfNoCase User-Agent "Mister\ PiX" bad_bot
SetEnvIfNoCase User-Agent "MovableType" bad_bot
SetEnvIfNoCase User-Agent "Mozi!" bad_bot
SetEnvIfNoCase User-Agent "Mozilla/3.0 (compatible)" bad_bot
SetEnvIfNoCase User-Agent "Mozilla/5.0 (compatible; MSIE 5.0)" bad_bot
SetEnvIfNoCase User-Agent "MSIE_6.0" bad_bot
SetEnvIfNoCase User-Agent "MSIECrawler" badbot
SetEnvIfNoCase User -Agente "MVAClient" bad_bot
SetEnvIfNoCase User-Agent "MyFamilyBot" bad_bot
SetEnvIfNoCase User-Agent "MyGetRight" bad_bot
SetEnvIfNoCase User-Agent "NASA\ Search" bad_bot
SetEnvIfNoCase User-Agent "Naver"
SetEnvIfNoCase User-Agent "NetResearchServer" bad_bot
SetEnvIfNoCase User-Agent "NEWT\ ActiveX" bad_bot
SetEnvIfNoCase User-Agent "Nextopia" bad_bot
SetEnvIfNoCase User-Agent "NICErsPRO" bad_bot
SetEnvIfNoCase User-Agent "NimbleCrawler" bad_bot
SetEnvIfNoCase User-Agent "Nitro\ Downloader " bad_bot
SetEnvIfNoCase User-Agent "Nutch" bad_bot
SetEnvIfNoCase User-Agent "Offline\ Explorer" bad_bot
SetEnvIfNoCase User-Agent "OmniExplorer" bad_bot
SetEnvIfNoCase User-Agent "OutfoxBot" bad_bot
SetEnvIfNoCase User-Agent "P3P" bad_bot
SetEnvIfNoCase User-Agent "PagmIEDownload "bad_bot
SetEnvIfNoCase User-Agent "pavuk" bad_bot
SetEnvIfNoCase User-Agent "PHP\ versión" bad_bot
SetEnvIfNoCase User-Agent "playstarmusic" bad_bot
SetEnvIfNoCase User-Agent "Program\ Shareware" bad_bot
SetEnvIfNoCase User-Agent "Descarga progresiva" bad_bot
SetEnvIfNoCase User-Agent "psycheclone" bad_bot
SetEnvIfNoCase User-Agent "puf" bad_bot
SetEnvIfNoCase User-Agent "PussyCat" bad_bot
SetEnvIfNoCase User-Agent "PuxaRapido" bad_bot
SetEnvIfNoCase User-Agent "Python-urllib" bad_bot
SetEnvIfNoCase User-Agent "RealDownload" bad_bot
SetEnvIfNoCase User-Agent "RedKernel" bad_bot
SetEnvIfNoCase User-Agent "ruido relevante" bad_bot
SetEnvIfNoCase User-Agent "RepoMonkey\ Cebo\ &\ Tackle"bad_bot
SetEnvIfNoCase Agente de usuario "RTG30" bad_bot
SetEnvIfNoCase Agente de usuario "SBIder" bad_bot
SetEnvIfNoCase User-Agent "script" bad_bot
SetEnvIfNoCase User-Agent "Seekbot" bad_bot
SetEnvIfNoCase User-Agent "SiteSnagger" bad_bot
SetEnvIfNoCase User-Agent "SmartDownload" bad_bot
SetEnvIfNoCase User-Agent "sna-" bad_bot
SetEnvIfNoCase User-Agent "Snap\ bot" bad_bot
SetEnvIfNoCase User-Agent "SpeedDownload" bad_bot
SetEnvIfNoCase User-Agent "Sphere" bad_bot
SetEnvIfNoCase User-Agent "sproose" bad_bot
SetEnvIfNoCase User-Agent "SQ\ Webscanner" bad_bot
SetEnvIfNoCase User-Agent "Stamina" bad_bot
SetEnvIfNoCase User-Agent "Star\ Descargador" bad_bot
SetEnvIfNoCase User-Agent "Teleport"bad_bot
SetEnvIfNoCase Usuario-Agente "TurnitinBot" bad_bot
SetEnvIfNoCase User-Agent "UdmSearch" bad_bot
SetEnvIfNoCase User-Agent "URLGetFile" bad_bot
SetEnvIfNoCase User-Agent "User-Agent" bad_bot
SetEnvIfNoCase User-Agent "UtilMind\ HTTPGet" bad_bot
SetEnvIfNoCase User-Agent "WebAuto" bad_bot
SetEnvIfNoCase User-Agent "WebCapture " bad_bot
SetEnvIfNoCase User-Agent "webcollage" bad_bot
SetEnvIfNoCase User-Agent "WebCopier" bad_bot
SetEnvIfNoCase User-Agent "WebFilter" bad_bot
SetEnvIfNoCase User-Agent "WebReaper" bad_bot
SetEnvIfNoCase User-Agent "Website\ eXtractor" bad_bot
SetEnvIfNoCase User-Agent "WebStripper "bad_bot
SetEnvIfNoCase User-Agent"WebZIP" bad_bot
SetEnvIfNoCase Agente de usuario "Wells\ Search" bad_bot
SetEnvIfNoCase User-Agent "WEP\ Search\ 00" bad_bot
SetEnvIfNoCase User-Agent "Wget" bad_bot
SetEnvIfNoCase User-Agent "Wildsoft\ Surfer" bad_bot
SetEnvIfNoCase User-Agent "WinHttpRequest" bad_bot
SetEnvIfNoCase User-Agent "WWWOFFLE" bad_bot
SetEnvIfNoCase User-Agent "Xaldon\ WebSpider" bad_bot
SetEnvIfNoCase User-Agent "Y!TunnelPro" bad_bot
SetEnvIfNoCase User-Agent "YahooYSMcm" bad_bot
SetEnvIfNoCase User-Agent "Zade" bad_bot
SetEnvIfNoCase User-Agent "ZBot" bad_bot
SetEnvIfNoCase User-Agent "zerxbot" bad_bot
las Reglas de exclusión htaccess:
# Apache < 2.4
<IfModule !mod_authz_core.c>
<Limit GET POST>
Order Allow,Deny
Allow from all
Deny from env=bad_bot
</Limit>
</IfModule>
# Apache >= 2.4
<IfModule mod_authz_core.c>
<Limit GET POST>
<RequireAll>
Order Allow,Deny
Allow from all
Deny from env=bad_bot
</RequireAll>
</Limit>
</IfModule>
Otra sintaxis de htaccess que podrías considerar para bloquear Robots
ErrorDocument 503 ",.-{Acceso denegado}-.,"
RewriteEngine On
RewriteCond %{HTTP_USER_AGENT} ^.(TESTtest|
Apache-HttpClient|python|python-requests|Adsbot
|Barkrowler|serpstatbot|SeekportBot|seekport|Photon|ahrefs
|aiohttp|TweetmemeBot|DataForSeoBot|hypefactors
|github|buck|megaindex|barkrowler|rogerbot|DotBot|blexbot
|crawler|moz|dataforseo|MauiBot|mj12bot|SEMrush|ahref
|EvilBotHere|SpamSpewer|SecretAgentAgent).$
RewriteRule .* - [R=503,L]
Hay Bots buenos, como Google 🙂
Algunos SEOs utilizamos herramientas para monitorear y optimizar nuestros sitios. Estas herramientas emplean sus propios bots. Al implementar estrategias para bloquear el web scraping y los bots maliciosos, es crucial evitar «pegarnos un tiro en el pie», es decir, bloquear accidentalmente nuestras herramientas SEO o de monitoreo. Aquí te dejo algunos trucos para bloquear el scraping de terceros sin afectar tus herramientas:
- Crea una lista blanca de IPs para tus herramientas de scraping.
- Define reglas de User-Agents propios para que puedan navegar por tu sitio web.
- Establece una franja horaria en la que tus herramientas de bloqueo no se activen, por ejemplo, de 2 a.m. a 3 a.m., permitiendo el acceso al bot de SEMrush.
- Implementa CAPTCHA en áreas clave de tu sitio para evitar el scraping automatizado.
- Utiliza Honeypots: campos ocultos que solo los bots llenarán, permitiendo identificarlos y bloquearlos.
- Monitorea el tráfico anómalo para detectar y bloquear patrones inusuales que podrían indicar scraping.
- Configura Rate Limiting para limitar la cantidad de solicitudes permitidas por un usuario en un tiempo determinado.
- Ofusca el código HTML para dificultar que los bots extraigan información fácilmente.
- Utiliza servicios de protección DDoS que también ofrezcan protección contra scraping.
- Audita y actualiza regularmente tus reglas de firewall para asegurarte de que sean efectivas contra los nuevos métodos de scraping.
- Implementa encabezados HTTP como «X-Robots-Tag» para controlar el comportamiento de los bots en tu sitio.
- Utiliza técnicas de Fingerprinting para identificar y bloquear bots que no cumplan con los comportamientos esperados de los usuarios humanos o por tus propios Bots
- Crea alertas en tiempo real para notificarte de actividades sospechosas, permitiéndote tomar medidas inmediatas.
Con eso en mente, aquí hay algunos ejemplos de User-Agents de bots buenos que No deberías considerar no bloquear
- «Baiduspider»
- «Googlebot»
- «Yahoo! Slurp»
- «bingbot»
- «YandexBot»
Para NO bloquear estos bots en un archivo .htaccess, puedes utilizar la siguiente sintaxis:
SetEnvIfNoCase User-Agent "Baiduspider" good_bot
SetEnvIfNoCase User-Agent "80legs" good_bot
SetEnvIfNoCase User-Agent "CCBot" good_bot
SetEnvIfNoCase User-Agent "Googlebot"good_bot
SetEnvIfNoCase User-Agent "Yahoo! Slurp" good_bot
SetEnvIfNoCase User-Agent "bingbot" good_bot
SetEnvIfNoCase User-Agent "YandexBot" good_bot
Es importante tener en cuenta que esto es solo un ejemplo y que puede ser necesario ajustar la lista de bots según las necesidades del sitio. También es importante monitorear el tráfico del sitio y utilizar herramientas de detección de bots para detectar cualquier actividad sospechosa y ajustar la lista de bots según sea necesario.
por si no lo leíste, pero más arriba te estaba comentando respecto a los servicios que tienen sistemas de inteligencia artificial, que detecta comportamientos irregulares combinados con registros para identificar User-Agent de Bots.
Un comportamiento irregular, habitual para un Bot o scraping es la cantidad de accesos recurrentes en un lapso de tiempo desde una misma IP, pero obviamente los expertos en scraping son temas que tienen presentes como utilizar IP a través de VPNs o utilizar variables Random de tiempo para que la secuencia de accesos no sea constante, es decir, no acceden a una URL cada 5 segundos, sino que acceden a una URL en modo Random, con un valor por ejemplo Random(5 a 12) segundos.
Es muy sencillo, crear un código para hacer scraping, la puerta de entrada es muy simple. Claro que esos «ataques» son los más fáciles de bloquear. A medida que mejoramos nuestros sistemas de seguridad, los hackers también mejoran sus técnicas