Saltar al contenido

Protege a tu sitio de ataques de BOTs

Bloquear a los bad-bots puede tener un impacto positivo significativo en el rendimiento de un servidor y en el SEO de un sitio web de e-commerce. Los Bots suelen identificarse por el UserAgent, así podemos saber si es un robot de Google, Bing o un Robot de semrush o Ahrefs (de la competencia) o casos peores

Cuando un servidor es atacado por bad-bots, puede sufrir una sobrecarga que hace que el sitio sea lento o inaccesible para los usuarios legítimos. Esto puede afectar negativamente la experiencia del usuario y disuadirlo de realizar compras en el sitio. Además, los motores de búsqueda penalizan a los sitios que son lentos o inaccesibles, lo que puede afectar negativamente el SEO del sitio.

Por otro lado, cuando se bloquean los bad-bots en base al User-Agent, el servidor puede proporcionar un servicio más rápido y confiable a los usuarios legítimos. Esto puede mejorar la experiencia del usuario y aumentar la probabilidad de que realicen compras en el sitio. Además, al mejorar la velocidad del servidor, también se puede mejorar el SEO del sitio, ya que los motores de búsqueda valoran a los sitios que ofrecen una buena experiencia al usuario y que son rápidos y accesibles.

Queda claro que bloquear a los bad-bots tiene un impacto positivo significativo en el rendimiento del servidor y en el SEO de un sitio de e-commerce. Al mejorar la experiencia del usuario, además bajas los costos del servidor notablemente.

Alternativas para bloquear bots

Proteger una aplicación web o sitio Web contra bots invasivos es esencial, cada una con sus pros y contras, adecuadas para diferentes contextos.

1. CAPTCHA: Una Solución Sencilla
CAPTCHA: Es como un desafío que se presenta a los visitantes del sitio para verificar que son humanos reales y no programas automatizados. Puedes haberlos visto al completar formularios en línea, donde se te pide resolver un rompecabezas simple. Los CAPTCHA son excelentes para puntos específicos como formularios de inicio de sesión y registros, asegurando que las interacciones provengan de personas reales.

  • Ventaja: Fácil de implementar y comprensible para los usuarios.
  • Consideración: Ideal para proteger puntos críticos como formularios, pero no es invulnerable a técnicas avanzadas de bots.

2. Servicios de Akamai y Cloudflare: Monitoreo Avanzado de Bots

Bloqueo de Bots a Nivel de Servidor (Akamai o Cloudflare): Este método trabaja más en las sombras. Funciona filtrando el tráfico no deseado antes de que llegue al sitio, bloqueando bots a nivel del servidor. Esto aligera la carga en el servidor y protege contra diversos tipos de ataques.

  • Ventaja: Ofrecen servicios avanzados de monitoreo y categorización de bots.
  • Consideración: Categorizan bots de forma extremadamente específica, incluyendo herramientas SEO, bots publicitarios, y más. Sin embargo, estos servicios pueden tener un costo significativo.

3. Uso de .htaccess: Control Artesanal

  • Ventaja: Permite un control detallado a nivel del servidor.
  • Consideración: Más artesanal pero eficiente. Requiere conocimientos técnicos para configurar y mantener.

4. Análisis de Patrones de Tráfico: Estrategia Proactiva

  • Ventaja: Analiza patrones de tráfico para identificar comportamientos sospechosos.
  • Consideración: Requiere implementación de algoritmos avanzados y análisis constante para adaptarse a nuevas amenazas.

5. Lista Negra de IP: Enfoque Directo

  • Ventaja: Bloquea direcciones IP conocidas por comportamientos maliciosos.
  • Consideración: Puede resultar en falsos positivos y no es completamente efectiva contra bots que cambian constantemente de IP.

6. JavaScript Challenge: Obstáculos Dinámicos

  • Ventaja: Presenta desafíos dinámicos que requieren ejecución de JavaScript.
  • Consideración: Puede afectar la velocidad de carga para usuarios legítimos que deshabilitan JavaScript.

7. Soluciones Basadas en Inteligencia Artificial (IA): Detección Avanzada

  • Ventaja: Utiliza IA para identificar patrones de comportamiento de bots.
  • Consideración: Requiere entrenamiento y ajustes constantes para mejorar la precisión.

La elección de la estrategia de bloqueo de bots depende de la naturaleza y las necesidades específicas de tu sitio web. Es común combinar varias soluciones para obtener una defensa más completa. Mientras que CAPTCHA es simple y efectivo, servicios como Akamai y Cloudflare ofrecen un enfoque avanzado, aunque a un costo. .htaccess proporciona un control más manual, y otras estrategias como análisis de patrones y soluciones basadas en IA están en la vanguardia (que Akamai y Cloudflare tienen ) de la defensa contra bots avanzados. La clave está en encontrar un equilibrio entre seguridad y experiencia del usuario.

Cómo utilices las recomendaciones que te voy a comentar a continuación, son meramente informativas y no es una recomendación que podría no aplicar para tu sitio Web o empresa. Debes consultar con los responsables técnicos de tu empresa o proveedor de servicio de Hosting, y un consultor SEO, antes de realizar cualquier modificación.

Modificar incorrectamente el .htaccess puede dañar de forma temporal o permanente tu sitio web. De Igual forma que Bloquear el acceso de Bots de forma imprudente o sin planificación

Informe por Dispositivo en Google Analytics

El informe por Dispositivo en Google Analytics de adquisición es una herramienta que permite conocer la relación entre las adquisiciones (es decir, el número de usuarios que han llegado a un sitio web o aplicación) y las conversiones (es decir, el número de usuarios que han realizado alguna acción deseada, como hacer una compra o rellenar un formulario). Este informe muestra cuántos usuarios adquiridos en un determinado tipo de dispositivo (por ejemplo, móvil, tablet o ordenador) han realizado una conversión en ese mismo tipo de dispositivo, cuántos han realizado la conversión en otro tipo de dispositivo y cuántos no han realizado ninguna conversión. Con este informe, es posible comprender mejor el papel de cada dispositivo en la adquisición de nuevos usuarios y en la conversión de ellos.

Los Ataques a un sitio web con bots tienen un impacto negativo en SEO

Los ataques a un sitio web con bots tienen un impacto negativo en SEO, en el rendimiento y la seguridad del sitio. Algunos de los efectos potenciales de un ataque con bots son:

  1. Sobrecarga del servidor: los bots pueden generar tráfico falso en masa, lo que puede sobrecargar el servidor y hacer que el sitio sea más lento o incluso inaccesible para los usuarios legítimos. Esto puede afectar negativamente el SEO del sitio ya que los motores de búsqueda penalizan a los sitios que son lentos o inaccesibles.
  2. Contenido duplicado: los bots pueden generar contenido duplicado en el sitio, lo que puede afectar negativamente el SEO del sitio. Encuentran vulnerabilidades para acceder como un editor, creando páginas con diferente propósitos malignos desde phishing hasta, usar tu servidor de CDN para almacenar imágenes y contenido pirata.
  3. Spam: los bots pueden utilizar el sitio para enviar spam a otros usuarios o para publicar comentarios no deseados en el sitio. Esto puede afectar negativamente el SEO del sitio ya que los motores de búsqueda penalizan a los sitios que tienen contenido spammy o de baja calidad.
  4. Robo de información: los bots pueden utilizar el sitio para recopilar información confidencial, como contraseñas o datos de pago, y utilizarla para fines malintencionados.

Es importante tomar medidas para proteger el sitio de los ataques con bots y minimizar el impacto en el SEO del sitio. Esto puede incluir configurar medidas de seguridad adecuadas, monitorear el tráfico del sitio para detectar cualquier actividad sospechosa y utilizar herramientas de detección de bots para bloquear el acceso no autorizado.

Toma medidas si es un Bot te quiere robar el contenido

Existen varias medidas que puedes tomar para identificar si un bot está tratando de robar el contenido de tu sitio web:

  1. Utiliza una herramienta de monitoreo de tráfico: puedes utilizar una herramienta como Google Analytics para monitorear el tráfico de tu sitio y detectar cualquier actividad sospechosa.
  2. Configura alertas: puedes configurar alertas en Google Analytics o en otras herramientas de monitoreo de tráfico para recibir notificaciones cuando haya un aumento súbito o inesperado en el tráfico del sitio.
  3. Revisa los registros del servidor: puedes revisar los registros del servidor para ver qué IPs están accediendo al sitio y buscar cualquier actividad sospechosa.
  4. Utiliza una herramienta de detección de bots: existen herramientas especializadas que pueden ayudarte a identificar si hay bots tratando de acceder al sitio y a bloquear su acceso.
  5. Configura medidas de seguridad: puedes utilizar medidas de seguridad como autenticación de dos pasos o contraseñas seguras para proteger el sitio contra los ataques de bots.

Recuerda que mientras los CAPTCHA son efectivos, no son una solución única. Combinar varias capas de seguridad y adoptar un enfoque proactivo en la detección de actividades sospechosas es clave para garantizar una protección robusta contra bots no deseados.

Antes de modificar el .htaccess Deberías considerar

El archivo .htaccess es un archivo de configuración que se utiliza para controlar la forma en que se sirve el contenido de un sitio web en un servidor Apache. Se encuentra en la raíz del directorio del sitio web y puede utilizarse para controlar el acceso al sitio, redirigir el tráfico y realizar otras tareas de configuración.

No es algo con lo que deberías estar jugando, especialmente si no programas habitualmente, NO tienes el conocimiento o la capacidad para realizar Backups y poder restaurar el sitio y su configuración original.

Te recomiendo que valides con tu proveedor de hosting o con los responsables de Infraestructura o desarrollo de tu proyecto, incluso delegar en ellos estas tareas de mejoras y mantenimiento. compartirles el link a este artículo

Para encontrar el archivo .htaccess en tu servidor, puedes utilizar un cliente FTP o un panel de control de tu hosting para acceder a los archivos del sitio. Una vez que hayas accedido al directorio del sitio, deberías ver el archivo .htaccess.

Para editar el archivo .htaccess, puedes utilizar un editor de texto o de código, como el Bloc de notas o el Sublime Text. Asegúrate de hacer una copia de seguridad del archivo antes de realizar cualquier cambio

Bloquee bots y arañas «malas» usando .htaccess

Es importante tener en cuenta que existen muchos tipos diferentes de bots y que no es posible crear una lista exhaustiva de todos ellos. Algunos bots pueden tener user agents legítimos y ser útiles para el sitio, como los bots de los motores de búsqueda, como Google, Yahoo, Bing mientras que otros pueden ser malintencionados y tratar de acceder al sitio de forma no autorizada.

Para bloquear estos User-Agent de bots en un archivo .htaccess, puedes utilizar la siguiente sintaxis:

El listado de User-Agent, en formato .htaccess

# Bad bot
SetEnvIfNoCase User-Agent "^abot" bad_bot
SetEnvIfNoCase User-Agent "^aipbot" bad_bot
SetEnvIfNoCase User-Agent "^asterias" bad_bot
SetEnvIfNoCase User-Agent "^EI" bad_bot
SetEnvIfNoCase User-Agent "^libwww-perl" bad_bot
SetEnvIfNoCase User-Agent "^LWP" bad_bot
SetEnvIfNoCase User-Agent "^lwp" bad_bot
SetEnvIfNoCase User-Agent "^MSIECrawler" bad_bot
SetEnvIfNoCase User-Agent "^nameprotect" bad_bot
SetEnvIfNoCase User-Agent "^PlantyNet_WebRobot" bad_bot
SetEnvIfNoCase User-Agent " ^UCmore" bad_bot
SetEnvIfNoCase Usuario-Agente "Cocodrilo" bad_bot
SetEnvIfNoCase Usuario-Agente "AllSubmitter" bad_bot
SetEnvIfNoCase User-Agent "Anónimo" bad_bot
SetEnvIfNoCase User-Agent "Asterias" bad_bot
SetEnvIfNoCase User-Agent "autoemailspider" bad_bot
SetEnvIfNoCase User-Agent "Badass" bad_bot
SetEnvIfNoCase User-Agent "Baiduspider" bad_bot
SetEnvIfNoCase User-Agent "BecomeBot" bad_bot
SetEnvIfNoCase User-Agent "Bitacle" bad_bot
User SetEnvIfNoCase User-Agent "Bitacle" bad_bot
User SetEnvIfNoCase User-Agent "Bitacle" bad_bot
User SetEnvIfNoCase -Agente "vejiga\ fusion" bad_bot
SetEnvIfNoCase User-Agent "Blogshares\ Spiders" bad_bot
SetEnvIfNoCase User-Agent "Board\ Bot" bad_bot
SetEnvIfNoCase User-Agent "Board\ Bot" bad_bot
SetEnvIfNoCase User-Agent "Convera" bad_bot
SetEnvIfNoCase User-Agent "ConveraMultiMediaCrawler"bad_bot
SetEnvIfNoCase Agente de usuario "c-spider" bad_bot
SetEnvIfNoCase Agente de usuario "DA" bad_bot
SetEnvIfNoCase User-Agent "DnloadMage" bad_bot
SetEnvIfNoCase User-Agent "Download\ Demon" bad_bot
SetEnvIfNoCase User-Agent "Download\ Express" bad_bot
SetEnvIfNoCase User-Agent "Download\ Wonder" bad_bot
SetEnvIfNoCase User-Agent "dragonfly" bad_bot
SetEnvIfNoCase User-Agent "DreamPassport" bad_bot
SetEnvIfNoCase User-Agent "DSurf" bad_bot
SetEnvIfNoCase User-Agent "DTS Agent" bad_bot
SetEnvIfNoCase User-Agent "EBrowse" bad_bot
SetEnvIfNoCase User-Agent "eCatch" bad_bot
SetEnvIfNoCase User-Agent "edgeio" bad_bot
SetEnvIfNoCase User-Agent " Correo electrónico\ Extractor" bad_bot
SetEnvIfNoCase User-Agent "EmailSiphon" bad_bot
SetEnvIfNoCase Agente de usuario "EmailWolf" bad_bot
SetEnvIfNoCase User-Agent "EmeraldShield" bad_bot
SetEnvIfNoCase User-Agent "ESurf" bad_bot
SetEnvIfNoCase User-Agent "Exabot" bad_bot
SetEnvIfNoCase User-Agent "ExtractorPro" bad_bot
SetEnvIfNoCase User-Agent "FileHeap!\ descargador de archivos" bad_bot
SetEnvIfNoCase User-Agent "FileHound " bad_bot
SetEnvIfNoCase User-Agent "Forex" bad_bot
SetEnvIfNoCase User-Agent "Franklin\ Locator" bad_bot
SetEnvIfNoCase User-Agent "FreshDownload" bad_bot
SetEnvIfNoCase User-Agent "FrontPage" bad_bot
SetEnvIfNoCase User-Agent "FSurf" bad_bot
SetEnvIfNoCase User-Agent "Gaisbot "bad_bot
SetEnvIfNoCase User-Agent"Gamespy_Arcade" bad_bot
SetEnvIfNoCase Agente de usuario "genieBot" bad_bot
SetEnvIfNoCase User-Agent "GetBot" bad_bot
SetEnvIfNoCase User-Agent "GetRight" bad_bot
SetEnvIfNoCase User-Agent "Gigabot" bad_bot
SetEnvIfNoCase User-Agent "Go!Zilla" bad_bot
SetEnvIfNoCase User-Agent "Go-Ahead-Got-It" bad_bot
SetEnvIfNoCase User -Agente "GOFORITBOT" bad_bot
SetEnvIfNoCase User-Agent "heritrix" bad_bot
SetEnvIfNoCase User-Agent "HLoader" bad_bot
SetEnvIfNoCase User-Agent "HooWWWer" bad_bot
SetEnvIfNoCase User-Agent "HTTrack" bad_bot
SetEnvIfNoCase User-Agent "iCCrawler" bad_bot
SetEnvIfNoCase User-Agent "ichiro" bad_bot
SetEnvIfNoCase Agente de usuario "iGetter"bad_bot
SetEnvIfNoCase Usuario-Agente "imds_monitor" bad_bot
SetEnvIfNoCase User-Agent "Industria\ Programa" bad_bot
SetEnvIfNoCase User-Agent "Indy\ Library" bad_bot
SetEnvIfNoCase User-Agent "InetURL" bad_bot
SetEnvIfNoCase User-Agent "InstallShield\ DigitalWizard" bad_bot
SetEnvIfNoCase User-Agent "IRLbot" bad_bot
SetEnvIfNoCase User-Agent "IUPUI\ Research\ Bot" bad_bot
SetEnvIfNoCase User-Agent "Java" bad_bot
SetEnvIfNoCase User-Agent "jeteye" bad_bot
SetEnvIfNoCase User-Agent "jeteyebot" bad_bot
SetEnvIfNoCase User-Agent "JoBo" bad_bot
SetEnvIfNoCase User-Agent "JOC\ Web\ Spider " bad_bot
SetEnvIfNoCase Agente de usuario "Kapere"bad_bot
SetEnvIfNoCase Usuario-Agente "Larbin" bad_bot
SetEnvIfNoCase Usuario-Agente "LeechGet" bad_bot
SetEnvIfNoCase User-Agent "LightningDownload" bad_bot
SetEnvIfNoCase User-Agent "Linkie" bad_bot
SetEnvIfNoCase User-Agent "Mac\ Finder" bad_bot
SetEnvIfNoCase User-Agent "Mail\ Sweeper" bad_bot
SetEnvIfNoCase User-Agent "Mass\ Downloader" bad_bot
SetEnvIfNoCase User-Agent "MetaProductos\ Descargar\ Express" bad_bot
SetEnvIfNoCase User-Agent "Microsoft\ Data\ Access" bad_bot
SetEnvIfNoCase User-Agent "Microsoft\ URL\ Control" bad_bot
SetEnvIfNoCase User-Agent "Missauga\ Locate" bad_bot
SetEnvIfNoCase User-Agent "Missauga\ Locator " bad_bot
SetEnvIfNoCase Usuario-Agente "Missigua Locator" bad_bot
SetEnvIfNoCase Usuario-Agente "Misuri\ Colegio\ Explorar" bad_bot
SetEnvIfNoCase User-Agent "Mister\ PiX" bad_bot
SetEnvIfNoCase User-Agent "MovableType" bad_bot
SetEnvIfNoCase User-Agent "Mozi!" bad_bot
SetEnvIfNoCase User-Agent "Mozilla/3.0 (compatible)" bad_bot
SetEnvIfNoCase User-Agent "Mozilla/5.0 (compatible; MSIE 5.0)" bad_bot
SetEnvIfNoCase User-Agent "MSIE_6.0" bad_bot
SetEnvIfNoCase User-Agent "MSIECrawler" badbot
SetEnvIfNoCase User -Agente "MVAClient" bad_bot
SetEnvIfNoCase User-Agent "MyFamilyBot" bad_bot
SetEnvIfNoCase User-Agent "MyGetRight" bad_bot
SetEnvIfNoCase User-Agent "NASA\ Search" bad_bot
SetEnvIfNoCase User-Agent "Naver"
SetEnvIfNoCase User-Agent "NetResearchServer" bad_bot
SetEnvIfNoCase User-Agent "NEWT\ ActiveX" bad_bot
SetEnvIfNoCase User-Agent "Nextopia" bad_bot
SetEnvIfNoCase User-Agent "NICErsPRO" bad_bot
SetEnvIfNoCase User-Agent "NimbleCrawler" bad_bot
SetEnvIfNoCase User-Agent "Nitro\ Downloader " bad_bot
SetEnvIfNoCase User-Agent "Nutch" bad_bot
SetEnvIfNoCase User-Agent "Offline\ Explorer" bad_bot
SetEnvIfNoCase User-Agent "OmniExplorer" bad_bot
SetEnvIfNoCase User-Agent "OutfoxBot" bad_bot
SetEnvIfNoCase User-Agent "P3P" bad_bot
SetEnvIfNoCase User-Agent "PagmIEDownload "bad_bot
SetEnvIfNoCase User-Agent "pavuk" bad_bot
SetEnvIfNoCase User-Agent "PHP\ versión" bad_bot
SetEnvIfNoCase User-Agent "playstarmusic" bad_bot
SetEnvIfNoCase User-Agent "Program\ Shareware" bad_bot
SetEnvIfNoCase User-Agent "Descarga progresiva" bad_bot
SetEnvIfNoCase User-Agent "psycheclone" bad_bot
SetEnvIfNoCase User-Agent "puf" bad_bot
SetEnvIfNoCase User-Agent "PussyCat" bad_bot
SetEnvIfNoCase User-Agent "PuxaRapido" bad_bot
SetEnvIfNoCase User-Agent "Python-urllib" bad_bot
SetEnvIfNoCase User-Agent "RealDownload" bad_bot
SetEnvIfNoCase User-Agent "RedKernel" bad_bot
SetEnvIfNoCase User-Agent "ruido relevante" bad_bot
SetEnvIfNoCase User-Agent "RepoMonkey\ Cebo\ &\ Tackle"bad_bot
SetEnvIfNoCase Agente de usuario "RTG30" bad_bot
SetEnvIfNoCase Agente de usuario "SBIder" bad_bot
SetEnvIfNoCase User-Agent "script" bad_bot
SetEnvIfNoCase User-Agent "Seekbot" bad_bot
SetEnvIfNoCase User-Agent "SiteSnagger" bad_bot
SetEnvIfNoCase User-Agent "SmartDownload" bad_bot
SetEnvIfNoCase User-Agent "sna-" bad_bot
SetEnvIfNoCase User-Agent "Snap\ bot" bad_bot
SetEnvIfNoCase User-Agent "SpeedDownload" bad_bot
SetEnvIfNoCase User-Agent "Sphere" bad_bot
SetEnvIfNoCase User-Agent "sproose" bad_bot
SetEnvIfNoCase User-Agent "SQ\ Webscanner" bad_bot
SetEnvIfNoCase User-Agent "Stamina" bad_bot
SetEnvIfNoCase User-Agent "Star\ Descargador" bad_bot
SetEnvIfNoCase User-Agent "Teleport"bad_bot
SetEnvIfNoCase Usuario-Agente "TurnitinBot" bad_bot
SetEnvIfNoCase User-Agent "UdmSearch" bad_bot
SetEnvIfNoCase User-Agent "URLGetFile" bad_bot
SetEnvIfNoCase User-Agent "User-Agent" bad_bot
SetEnvIfNoCase User-Agent "UtilMind\ HTTPGet" bad_bot
SetEnvIfNoCase User-Agent "WebAuto" bad_bot
SetEnvIfNoCase User-Agent "WebCapture " bad_bot
SetEnvIfNoCase User-Agent "webcollage" bad_bot
SetEnvIfNoCase User-Agent "WebCopier" bad_bot
SetEnvIfNoCase User-Agent "WebFilter" bad_bot
SetEnvIfNoCase User-Agent "WebReaper" bad_bot
SetEnvIfNoCase User-Agent "Website\ eXtractor" bad_bot
SetEnvIfNoCase User-Agent "WebStripper "bad_bot
SetEnvIfNoCase User-Agent"WebZIP" bad_bot
SetEnvIfNoCase Agente de usuario "Wells\ Search" bad_bot
SetEnvIfNoCase User-Agent "WEP\ Search\ 00" bad_bot
SetEnvIfNoCase User-Agent "Wget" bad_bot
SetEnvIfNoCase User-Agent "Wildsoft\ Surfer" bad_bot
SetEnvIfNoCase User-Agent "WinHttpRequest" bad_bot
SetEnvIfNoCase User-Agent "WWWOFFLE" bad_bot
SetEnvIfNoCase User-Agent "Xaldon\ WebSpider" bad_bot
SetEnvIfNoCase User-Agent "Y!TunnelPro" bad_bot
SetEnvIfNoCase User-Agent "YahooYSMcm" bad_bot
SetEnvIfNoCase User-Agent "Zade" bad_bot
SetEnvIfNoCase User-Agent "ZBot" bad_bot
SetEnvIfNoCase User-Agent "zerxbot" bad_bot

las Reglas de exclusión htaccess:

# Apache < 2.4
<IfModule !mod_authz_core.c>
 <Limit GET POST>
  
Order Allow,Deny
Allow from all
Deny from env=bad_bot
 </Limit>
</IfModule>
# Apache >= 2.4
<IfModule mod_authz_core.c>
 <Limit GET POST>
  <RequireAll>
   
Order Allow,Deny
Allow from all
Deny from env=bad_bot

  </RequireAll>
 </Limit>
</IfModule>

Otra sintaxis de htaccess que podrías considerar para bloquear Robots


ErrorDocument 503 ",.-{Acceso denegado}-.,"
RewriteEngine On
RewriteCond %{HTTP_USER_AGENT} ^.(TESTtest|
Apache-HttpClient|python|python-requests|Adsbot
|Barkrowler|serpstatbot|SeekportBot|seekport|Photon|ahrefs
|aiohttp|TweetmemeBot|DataForSeoBot|hypefactors
|github|buck|megaindex|barkrowler|rogerbot|DotBot|blexbot
|crawler|moz|dataforseo|MauiBot|mj12bot|SEMrush|ahref
|EvilBotHere|SpamSpewer|SecretAgentAgent).$
RewriteRule .* - [R=503,L]

Hay Bots buenos, como Google 🙂

Con eso en mente, aquí hay algunos ejemplos de User-Agents de bots buenos que No deberías bloquea

  1. «Baiduspider»
  2. «Googlebot»
  3. «Yahoo! Slurp»
  4. «bingbot»
  5. «YandexBot»

Para NO bloquear estos bots en un archivo .htaccess, puedes utilizar la siguiente sintaxis:

<code>SetEnvIfNoCase User-Agent "Baiduspider" good_bot
SetEnvIfNoCase User-Agent "80legs" good_bot
SetEnvIfNoCase User-Agent "CCBot" good_bot
SetEnvIfNoCase User-Agent "Googlebot"good_bot
SetEnvIfNoCase User-Agent "Yahoo! Slurp" good_bot
SetEnvIfNoCase User-Agent "bingbot" good_bot
SetEnvIfNoCase User-Agent "YandexBot" good_bot

Es importante tener en cuenta que esto es solo un ejemplo y que puede ser necesario ajustar la lista de bots según las necesidades del sitio. También es importante monitorear el tráfico del sitio y utilizar herramientas de detección de bots para detectar cualquier actividad sospechosa y ajustar la lista de bots según sea necesario.