Ir al contenido

Protege a tu sitio de ataques de BOTs usando el .htaccess

Bloquear a los bad-bots puede tener un impacto positivo significativo en el rendimiento de un servidor y en el SEO de un sitio web de e-commerce. Los Bots suelen identificarse por el UserAgent, así podemos saber si es un robot de Google, Bing o un Robot de Ahrefs (de la competencia) o casos peores

Cuando un servidor es atacado por bad-bots, puede sufrir una sobrecarga que hace que el sitio sea lento o inaccesible para los usuarios legítimos. Esto puede afectar negativamente la experiencia del usuario y disuadirlo de realizar compras en el sitio. Además, los motores de búsqueda penalizan a los sitios que son lentos o inaccesibles, lo que puede afectar negativamente el SEO del sitio.

Por otro lado, cuando se bloquean los bad-bots en base al UserAgent, el servidor puede proporcionar un servicio más rápido y confiable a los usuarios legítimos. Esto puede mejorar la experiencia del usuario y aumentar la probabilidad de que realicen compras en el sitio. Además, al mejorar la velocidad del servidor, también se puede mejorar el SEO del sitio, ya que los motores de búsqueda valoran a los sitios que ofrecen una buena experiencia al usuario y que son rápidos y accesibles.

En resumen, bloquear a los bad-bots puede tener un impacto positivo significativo en el rendimiento del servidor y en el SEO de un sitio de e-commerce. Al mejorar la experiencia del usuario, además bajas los costos del servidor notablemente.

Cómo utilices las recomendaciones que te voy a comentar a continuación, son meramente informativas y no es una recomendación que podría no aplicar para tu sitio Web o empresa. Debes consultar con los responsables técnicos de tu empresa o proveedor de servicio de Hosting, y un consultor SEO, antes de realizar cualquier modificación.

Modificar incorrectamente el .htaccess puede dañar de forma temporal o permanente tu sitio web.

informe por Dispositivo en Google Analytics

El informe por Dispositivo en Google Analytics de adquisición es una herramienta que permite conocer la relación entre las adquisiciones (es decir, el número de usuarios que han llegado a un sitio web o aplicación) y las conversiones (es decir, el número de usuarios que han realizado alguna acción deseada, como hacer una compra o rellenar un formulario). Este informe muestra cuántos usuarios adquiridos en un determinado tipo de dispositivo (por ejemplo, móvil, tablet o ordenador) han realizado una conversión en ese mismo tipo de dispositivo, cuántos han realizado la conversión en otro tipo de dispositivo y cuántos no han realizado ninguna conversión. Con este informe, es posible comprender mejor el papel de cada dispositivo en la adquisición de nuevos usuarios y en la conversión de ellos.

Ataques a un sitio web con bots tienen un impacto negativo en SEO

Los ataques a un sitio web con bots tienen un impacto negativo en SEO, en el rendimiento y la seguridad del sitio. Algunos de los efectos potenciales de un ataque con bots son:

  1. Sobrecarga del servidor: los bots pueden generar tráfico falso en masa, lo que puede sobrecargar el servidor y hacer que el sitio sea más lento o incluso inaccesible para los usuarios legítimos. Esto puede afectar negativamente el SEO del sitio ya que los motores de búsqueda penalizan a los sitios que son lentos o inaccesibles.
  2. Contenido duplicado: los bots pueden generar contenido duplicado en el sitio, lo que puede afectar negativamente el SEO del sitio. Encuentran vulnerabilidades para acceder como un editor, creando páginas con diferente propósitos malignos desde phishing hasta, usar tu servidor de CDN para almacenar imágenes y contenido pirata.
  3. Spam: los bots pueden utilizar el sitio para enviar spam a otros usuarios o para publicar comentarios no deseados en el sitio. Esto puede afectar negativamente el SEO del sitio ya que los motores de búsqueda penalizan a los sitios que tienen contenido spammy o de baja calidad.
  4. Robo de información: los bots pueden utilizar el sitio para recopilar información confidencial, como contraseñas o datos de pago, y utilizarla para fines malintencionados.

Es importante tomar medidas para proteger el sitio de los ataques con bots y minimizar el impacto en el SEO del sitio. Esto puede incluir configurar medidas de seguridad adecuadas, monitorear el tráfico del sitio para detectar cualquier actividad sospechosa y utilizar herramientas de detección de bots para bloquear el acceso no autorizado.

Toma medidas si es un Bot te quiere robar el contenido

Existen varias medidas que puedes tomar para identificar si un bot está tratando de robar el contenido de tu sitio web:

  1. Utiliza una herramienta de monitoreo de tráfico: puedes utilizar una herramienta como Google Analytics para monitorear el tráfico de tu sitio y detectar cualquier actividad sospechosa.
  2. Configura alertas: puedes configurar alertas en Google Analytics o en otras herramientas de monitoreo de tráfico para recibir notificaciones cuando haya un aumento súbito o inesperado en el tráfico del sitio.
  3. Revisa los registros del servidor: puedes revisar los registros del servidor para ver qué IPs están accediendo al sitio y buscar cualquier actividad sospechosa.
  4. Utiliza una herramienta de detección de bots: existen herramientas especializadas que pueden ayudarte a identificar si hay bots tratando de acceder al sitio y a bloquear su acceso.
  5. Configura medidas de seguridad: puedes utilizar medidas de seguridad como autenticación de dos pasos o contraseñas seguras para proteger el sitio contra los ataques de bots.

Antes de modificar el .htaccess Deberías considerar

El archivo .htaccess es un archivo de configuración que se utiliza para controlar la forma en que se sirve el contenido de un sitio web en un servidor Apache. Se encuentra en la raíz del directorio del sitio web y puede utilizarse para controlar el acceso al sitio, redirigir el tráfico y realizar otras tareas de configuración.

No es algo con lo que deberías estar jugando, especialmente si no programas habitualmente, NO tienes el conocimiento o la capacidad para realizar Backups y poder restaurar el sitio y su configuración original.

Te recomiendo que valides con tu proveedor de hosting o con los responsables de Infraestructura o desarrollo de tu proyecto, incluso delegar en ellos estas tareas de mejoras y mantenimiento. compartirles el link a este artículo

Para encontrar el archivo .htaccess en tu servidor, puedes utilizar un cliente FTP o un panel de control de tu hosting para acceder a los archivos del sitio. Una vez que hayas accedido al directorio del sitio, deberías ver el archivo .htaccess.

Para editar el archivo .htaccess, puedes utilizar un editor de texto o de código, como el Bloc de notas o el Sublime Text. Asegúrate de hacer una copia de seguridad del archivo antes de realizar cualquier cambio

Bloquee bots y arañas “malas” usando .htaccess

Es importante tener en cuenta que existen muchos tipos diferentes de bots y que no es posible crear una lista exhaustiva de todos ellos. Algunos bots pueden tener user agents legítimos y ser útiles para el sitio, como los bots de los motores de búsqueda, como Google, Yahoo, Bing mientras que otros pueden ser malintencionados y tratar de acceder al sitio de forma no autorizada.

Para bloquear estos User-Agent de bots en un archivo .htaccess, puedes utilizar la siguiente sintaxis:

El listado de User-Agent, en formato .htaccess

# Bad bot
SetEnvIfNoCase User-Agent "^abot" bad_bot
SetEnvIfNoCase User-Agent "^aipbot" bad_bot
SetEnvIfNoCase User-Agent "^asterias" bad_bot
SetEnvIfNoCase User-Agent "^EI" bad_bot
SetEnvIfNoCase User-Agent "^libwww-perl" bad_bot
SetEnvIfNoCase User-Agent "^LWP" bad_bot
SetEnvIfNoCase User-Agent "^lwp" bad_bot
SetEnvIfNoCase User-Agent "^MSIECrawler" bad_bot
SetEnvIfNoCase User-Agent "^nameprotect" bad_bot
SetEnvIfNoCase User-Agent "^PlantyNet_WebRobot" bad_bot
SetEnvIfNoCase User-Agent " ^UCmore" bad_bot
SetEnvIfNoCase Usuario-Agente "Cocodrilo" bad_bot
SetEnvIfNoCase Usuario-Agente "AllSubmitter" bad_bot
SetEnvIfNoCase User-Agent "Anónimo" bad_bot
SetEnvIfNoCase User-Agent "Asterias" bad_bot
SetEnvIfNoCase User-Agent "autoemailspider" bad_bot
SetEnvIfNoCase User-Agent "Badass" bad_bot
SetEnvIfNoCase User-Agent "Baiduspider" bad_bot
SetEnvIfNoCase User-Agent "BecomeBot" bad_bot
SetEnvIfNoCase User-Agent "Bitacle" bad_bot
User SetEnvIfNoCase User-Agent "Bitacle" bad_bot
User SetEnvIfNoCase User-Agent "Bitacle" bad_bot
User SetEnvIfNoCase -Agente "vejiga\ fusion" bad_bot
SetEnvIfNoCase User-Agent "Blogshares\ Spiders" bad_bot
SetEnvIfNoCase User-Agent "Board\ Bot" bad_bot
SetEnvIfNoCase User-Agent "Board\ Bot" bad_bot
SetEnvIfNoCase User-Agent "Convera" bad_bot
SetEnvIfNoCase User-Agent "ConveraMultiMediaCrawler"bad_bot
SetEnvIfNoCase Agente de usuario "c-spider" bad_bot
SetEnvIfNoCase Agente de usuario "DA" bad_bot
SetEnvIfNoCase User-Agent "DnloadMage" bad_bot
SetEnvIfNoCase User-Agent "Download\ Demon" bad_bot
SetEnvIfNoCase User-Agent "Download\ Express" bad_bot
SetEnvIfNoCase User-Agent "Download\ Wonder" bad_bot
SetEnvIfNoCase User-Agent "dragonfly" bad_bot
SetEnvIfNoCase User-Agent "DreamPassport" bad_bot
SetEnvIfNoCase User-Agent "DSurf" bad_bot
SetEnvIfNoCase User-Agent "DTS Agent" bad_bot
SetEnvIfNoCase User-Agent "EBrowse" bad_bot
SetEnvIfNoCase User-Agent "eCatch" bad_bot
SetEnvIfNoCase User-Agent "edgeio" bad_bot
SetEnvIfNoCase User-Agent " Correo electrónico\ Extractor" bad_bot
SetEnvIfNoCase User-Agent "EmailSiphon" bad_bot
SetEnvIfNoCase Agente de usuario "EmailWolf" bad_bot
SetEnvIfNoCase User-Agent "EmeraldShield" bad_bot
SetEnvIfNoCase User-Agent "ESurf" bad_bot
SetEnvIfNoCase User-Agent "Exabot" bad_bot
SetEnvIfNoCase User-Agent "ExtractorPro" bad_bot
SetEnvIfNoCase User-Agent "FileHeap!\ descargador de archivos" bad_bot
SetEnvIfNoCase User-Agent "FileHound " bad_bot
SetEnvIfNoCase User-Agent "Forex" bad_bot
SetEnvIfNoCase User-Agent "Franklin\ Locator" bad_bot
SetEnvIfNoCase User-Agent "FreshDownload" bad_bot
SetEnvIfNoCase User-Agent "FrontPage" bad_bot
SetEnvIfNoCase User-Agent "FSurf" bad_bot
SetEnvIfNoCase User-Agent "Gaisbot "bad_bot
SetEnvIfNoCase User-Agent"Gamespy_Arcade" bad_bot
SetEnvIfNoCase Agente de usuario "genieBot" bad_bot
SetEnvIfNoCase User-Agent "GetBot" bad_bot
SetEnvIfNoCase User-Agent "GetRight" bad_bot
SetEnvIfNoCase User-Agent "Gigabot" bad_bot
SetEnvIfNoCase User-Agent "Go!Zilla" bad_bot
SetEnvIfNoCase User-Agent "Go-Ahead-Got-It" bad_bot
SetEnvIfNoCase User -Agente "GOFORITBOT" bad_bot
SetEnvIfNoCase User-Agent "heritrix" bad_bot
SetEnvIfNoCase User-Agent "HLoader" bad_bot
SetEnvIfNoCase User-Agent "HooWWWer" bad_bot
SetEnvIfNoCase User-Agent "HTTrack" bad_bot
SetEnvIfNoCase User-Agent "iCCrawler" bad_bot
SetEnvIfNoCase User-Agent "ichiro" bad_bot
SetEnvIfNoCase Agente de usuario "iGetter"bad_bot
SetEnvIfNoCase Usuario-Agente "imds_monitor" bad_bot
SetEnvIfNoCase User-Agent "Industria\ Programa" bad_bot
SetEnvIfNoCase User-Agent "Indy\ Library" bad_bot
SetEnvIfNoCase User-Agent "InetURL" bad_bot
SetEnvIfNoCase User-Agent "InstallShield\ DigitalWizard" bad_bot
SetEnvIfNoCase User-Agent "IRLbot" bad_bot
SetEnvIfNoCase User-Agent "IUPUI\ Research\ Bot" bad_bot
SetEnvIfNoCase User-Agent "Java" bad_bot
SetEnvIfNoCase User-Agent "jeteye" bad_bot
SetEnvIfNoCase User-Agent "jeteyebot" bad_bot
SetEnvIfNoCase User-Agent "JoBo" bad_bot
SetEnvIfNoCase User-Agent "JOC\ Web\ Spider " bad_bot
SetEnvIfNoCase Agente de usuario "Kapere"bad_bot
SetEnvIfNoCase Usuario-Agente "Larbin" bad_bot
SetEnvIfNoCase Usuario-Agente "LeechGet" bad_bot
SetEnvIfNoCase User-Agent "LightningDownload" bad_bot
SetEnvIfNoCase User-Agent "Linkie" bad_bot
SetEnvIfNoCase User-Agent "Mac\ Finder" bad_bot
SetEnvIfNoCase User-Agent "Mail\ Sweeper" bad_bot
SetEnvIfNoCase User-Agent "Mass\ Downloader" bad_bot
SetEnvIfNoCase User-Agent "MetaProductos\ Descargar\ Express" bad_bot
SetEnvIfNoCase User-Agent "Microsoft\ Data\ Access" bad_bot
SetEnvIfNoCase User-Agent "Microsoft\ URL\ Control" bad_bot
SetEnvIfNoCase User-Agent "Missauga\ Locate" bad_bot
SetEnvIfNoCase User-Agent "Missauga\ Locator " bad_bot
SetEnvIfNoCase Usuario-Agente "Missigua Locator" bad_bot
SetEnvIfNoCase Usuario-Agente "Misuri\ Colegio\ Explorar" bad_bot
SetEnvIfNoCase User-Agent "Mister\ PiX" bad_bot
SetEnvIfNoCase User-Agent "MovableType" bad_bot
SetEnvIfNoCase User-Agent "Mozi!" bad_bot
SetEnvIfNoCase User-Agent "Mozilla/3.0 (compatible)" bad_bot
SetEnvIfNoCase User-Agent "Mozilla/5.0 (compatible; MSIE 5.0)" bad_bot
SetEnvIfNoCase User-Agent "MSIE_6.0" bad_bot
SetEnvIfNoCase User-Agent "MSIECrawler" badbot
SetEnvIfNoCase User -Agente "MVAClient" bad_bot
SetEnvIfNoCase User-Agent "MyFamilyBot" bad_bot
SetEnvIfNoCase User-Agent "MyGetRight" bad_bot
SetEnvIfNoCase User-Agent "NASA\ Search" bad_bot
SetEnvIfNoCase User-Agent "Naver"
SetEnvIfNoCase User-Agent "NetResearchServer" bad_bot
SetEnvIfNoCase User-Agent "NEWT\ ActiveX" bad_bot
SetEnvIfNoCase User-Agent "Nextopia" bad_bot
SetEnvIfNoCase User-Agent "NICErsPRO" bad_bot
SetEnvIfNoCase User-Agent "NimbleCrawler" bad_bot
SetEnvIfNoCase User-Agent "Nitro\ Downloader " bad_bot
SetEnvIfNoCase User-Agent "Nutch" bad_bot
SetEnvIfNoCase User-Agent "Offline\ Explorer" bad_bot
SetEnvIfNoCase User-Agent "OmniExplorer" bad_bot
SetEnvIfNoCase User-Agent "OutfoxBot" bad_bot
SetEnvIfNoCase User-Agent "P3P" bad_bot
SetEnvIfNoCase User-Agent "PagmIEDownload "bad_bot
SetEnvIfNoCase User-Agent "pavuk" bad_bot
SetEnvIfNoCase User-Agent "PHP\ versión" bad_bot
SetEnvIfNoCase User-Agent "playstarmusic" bad_bot
SetEnvIfNoCase User-Agent "Program\ Shareware" bad_bot
SetEnvIfNoCase User-Agent "Descarga progresiva" bad_bot
SetEnvIfNoCase User-Agent "psycheclone" bad_bot
SetEnvIfNoCase User-Agent "puf" bad_bot
SetEnvIfNoCase User-Agent "PussyCat" bad_bot
SetEnvIfNoCase User-Agent "PuxaRapido" bad_bot
SetEnvIfNoCase User-Agent "Python-urllib" bad_bot
SetEnvIfNoCase User-Agent "RealDownload" bad_bot
SetEnvIfNoCase User-Agent "RedKernel" bad_bot
SetEnvIfNoCase User-Agent "ruido relevante" bad_bot
SetEnvIfNoCase User-Agent "RepoMonkey\ Cebo\ &\ Tackle"bad_bot
SetEnvIfNoCase Agente de usuario "RTG30" bad_bot
SetEnvIfNoCase Agente de usuario "SBIder" bad_bot
SetEnvIfNoCase User-Agent "script" bad_bot
SetEnvIfNoCase User-Agent "Seekbot" bad_bot
SetEnvIfNoCase User-Agent "SiteSnagger" bad_bot
SetEnvIfNoCase User-Agent "SmartDownload" bad_bot
SetEnvIfNoCase User-Agent "sna-" bad_bot
SetEnvIfNoCase User-Agent "Snap\ bot" bad_bot
SetEnvIfNoCase User-Agent "SpeedDownload" bad_bot
SetEnvIfNoCase User-Agent "Sphere" bad_bot
SetEnvIfNoCase User-Agent "sproose" bad_bot
SetEnvIfNoCase User-Agent "SQ\ Webscanner" bad_bot
SetEnvIfNoCase User-Agent "Stamina" bad_bot
SetEnvIfNoCase User-Agent "Star\ Descargador" bad_bot
SetEnvIfNoCase User-Agent "Teleport"bad_bot
SetEnvIfNoCase Usuario-Agente "TurnitinBot" bad_bot
SetEnvIfNoCase User-Agent "UdmSearch" bad_bot
SetEnvIfNoCase User-Agent "URLGetFile" bad_bot
SetEnvIfNoCase User-Agent "User-Agent" bad_bot
SetEnvIfNoCase User-Agent "UtilMind\ HTTPGet" bad_bot
SetEnvIfNoCase User-Agent "WebAuto" bad_bot
SetEnvIfNoCase User-Agent "WebCapture " bad_bot
SetEnvIfNoCase User-Agent "webcollage" bad_bot
SetEnvIfNoCase User-Agent "WebCopier" bad_bot
SetEnvIfNoCase User-Agent "WebFilter" bad_bot
SetEnvIfNoCase User-Agent "WebReaper" bad_bot
SetEnvIfNoCase User-Agent "Website\ eXtractor" bad_bot
SetEnvIfNoCase User-Agent "WebStripper "bad_bot
SetEnvIfNoCase User-Agent"WebZIP" bad_bot
SetEnvIfNoCase Agente de usuario "Wells\ Search" bad_bot
SetEnvIfNoCase User-Agent "WEP\ Search\ 00" bad_bot
SetEnvIfNoCase User-Agent "Wget" bad_bot
SetEnvIfNoCase User-Agent "Wildsoft\ Surfer" bad_bot
SetEnvIfNoCase User-Agent "WinHttpRequest" bad_bot
SetEnvIfNoCase User-Agent "WWWOFFLE" bad_bot
SetEnvIfNoCase User-Agent "Xaldon\ WebSpider" bad_bot
SetEnvIfNoCase User-Agent "Y!TunnelPro" bad_bot
SetEnvIfNoCase User-Agent "YahooYSMcm" bad_bot
SetEnvIfNoCase User-Agent "Zade" bad_bot
SetEnvIfNoCase User-Agent "ZBot" bad_bot
SetEnvIfNoCase User-Agent "zerxbot" bad_bot

las Reglas de exclusión htaccess:

# Apache < 2.4
<IfModule !mod_authz_core.c>
 <Limit GET POST>
  
Order Allow,Deny
Allow from all
Deny from env=bad_bot
 </Limit>
</IfModule>
# Apache >= 2.4
<IfModule mod_authz_core.c>
 <Limit GET POST>
  <RequireAll>
   
Order Allow,Deny
Allow from all
Deny from env=bad_bot

  </RequireAll>
 </Limit>
</IfModule>

otra sintaxis de htaccess que podrías considerar para bloquear Robots


ErrorDocument 503 ",.-{Acceso denegado}-.,"
RewriteEngine On
RewriteCond %{HTTP_USER_AGENT} ^.(TESTtest|
Apache-HttpClient|python|python-requests|Adsbot
|Barkrowler|serpstatbot|SeekportBot|seekport|Photon|ahrefs
|aiohttp|TweetmemeBot|DataForSeoBot|hypefactors
|github|buck|megaindex|barkrowler|rogerbot|DotBot|blexbot
|crawler|moz|dataforseo|MauiBot|mj12bot|SEMrush|ahref
|EvilBotHere|SpamSpewer|SecretAgentAgent).$
RewriteRule .* - [R=503,L]

Hay Bots buenos, como Google 🙂

Con eso en mente, aquí hay algunos ejemplos de User-Agents de bots buenos que No deberías bloquea

  1. “Baiduspider”
  2. “Googlebot”
  3. “Yahoo! Slurp”
  4. “bingbot”
  5. “YandexBot”

Para NO bloquear estos bots en un archivo .htaccess, puedes utilizar la siguiente sintaxis:

<code>SetEnvIfNoCase User-Agent "Baiduspider" good_bot
SetEnvIfNoCase User-Agent "80legs" good_bot
SetEnvIfNoCase User-Agent "CCBot" good_bot
SetEnvIfNoCase User-Agent "Googlebot"good_bot
SetEnvIfNoCase User-Agent "Yahoo! Slurp" good_bot
SetEnvIfNoCase User-Agent "bingbot" good_bot
SetEnvIfNoCase User-Agent "YandexBot" good_bot

Es importante tener en cuenta que esto es solo un ejemplo y que puede ser necesario ajustar la lista de bots según las necesidades del sitio. También es importante monitorear el tráfico del sitio y utilizar herramientas de detección de bots para detectar cualquier actividad sospechosa y ajustar la lista de bots según sea necesario.