Saltar al contenido

SEO para LLMs: Guía llms.txt

seo-llms-guia-llms.txt

Estamos presenciando una evolución sin precedentes en el SEO. Si bien en el pasado nuestro objetivo principal era optimizar contenidos y mejorar la accesibilidad para que los motores de búsqueda como Google pudieran encontrar y entender mejor nuestras páginas, productos o Ecommerce, hoy nos enfrentamos a un nuevo desafío: los Agentes de IA que pueden buscar y desarrollar documentos de forma 100% autónoma, o casi, sin intervención humana. En estos desarrollos pueden citar y sugerir contenidos de nuestras Webs, algunos ya están utilizando el concepto de GSO (Generative Search Optimization), para mi el SEO y seguirá siendo solo “SEO” ya que los LLM, depende de las bases previamente indexadas por Google (Gemini) o Bing (chatGPT y Copilot) y otras Organizaciones que se ocupan simplemente de Indexar Todo el contenido publico como Common Crawl o WebText2 asi como fuentes como Wikipedia o Reddit.

Debemos estar alertas para poder medir el trafico proveniente de los enlaces en los resultados de estos chats al momento de mencionar las fuentes o sugerirle al usuario links por ello es necesario saber ¿Como medir el Tráfico de ChatGPT?, mucho de este trafico si bien se puede enmascarara dentro de directo, muchos links no son ofuscados (con rel=”noopener noreferrer”) y podemos identificarlos como referral souce

Los Chats como Gemini, Perplexity y ChatGPT no navegan directamente por por Internet, sino que “analizan” contenido publico indexado por ejemplo por Common Crawl o Wikipedia según sus criterios se seguridad y sesgos, interpretan y procesan información de sus bases de conocimiento y para el caso resultados 100% orgánicos, redefiniendo la forma en que interactuamos con el contenido digital. En este contexto, surge el archivo llms.txt, una propuesta (que esta en discusión, en estos momentos) que tiene como objetivo facilitar y optimizar estas interacciones, permitiendo a los sitios web adaptarse a las necesidades específicas de esta nueva generación de navegantes artificiales.

Nota: llms.txt, es una propuesta desde la comunidad SEO que esta en discusión y no tiene confirmación de su impacto, Yo lo implemente en algunos proyectos como TEST. Y es importante que sepas que existe

Un Agente de Inteligencia Artificial es un sistema capaz de actuar de manera autónoma, “razonando” y adaptándose a su entorno para alcanzar objetivos. Su funcionamiento se basa en una arquitectura cognitiva que organiza sus procesos de observación, decisión y ejecución pudiendo ademas buscar información en internet, como parte de sus tareas autónomas, el archivo llms.txt, no es por el momento un estandar realmente adaptado pero no deja de ser un aliado para facilitar el entendimiento de nuestros contenidos como un Sitemap.xml

¿Qué es llms.txt?

El llms.txt es, en esencia, un “robots.txt” para la inteligencia artificial, pero con un propósito muy diferente. Mientras que el robots.txt actúa como una señal de tráfico digital, indicando a los motores de búsqueda qué partes de un sitio web pueden rastrear o ignorar, el llms.txt se enfoca en estructurar y presentar información relevante específicamente para Modelos de Lenguaje de Gran Escala (LLMs).

El archivo llms.txt propone ser un resumen es un prompt formato markdown code.

Ubicado en la raíz de un sitio web (e.g., https://tu-sitio.com/llms.txt), este archivo utiliza el formato Markdown para ofrecer un acceso claro y eficiente tanto para humanos como para modelos de lenguaje. Su objetivo no es bloquear o permitir acceso, sino destacar información clave de forma ordenada y comprensible.

Por ejemplo, un archivo llms.txt puede incluir enlaces a documentación técnica, políticas corporativas o categorías de productos, organizadas de manera precisa. Esto permite que los LLMs, como Perplexity o ChatGPT, puedan interpretar y procesar datos esenciales de manera mucho más eficiente, proporcionando una nueva capa de interacción optimizada para el futuro de la navegación en línea. Claro que esto Depende de algo que al momento no tenemos evidencia, que los LLMs indexen directamente con contenidos Web sin intermediarios, algo que no sucede al momento.

Propósito del archivo llms.txt

El llms.txt no reemplaza a estándares como el robots.txt o el sitemap.xml, sino que los complementa. Entre sus objetivos principales están:

  1. Optimizar la interacción con LLMs: Proporcionar información clave y bien estructurada.
  2. Simplificar procesos de inferencia: Evitar que los modelos procesen información redundante o irrelevante.
  3. Mejorar la accesibilidad a datos críticos: Ayudar a los desarrolladores, empresas y usuarios a interactuar con contenido relevante en tiempo real.

Estructura del archivo llms.txt Markdown

El diseño del archivo llms.txt se basa en el formato Markdown, una herramienta ampliamente utilizada en el mundo de la programación y la documentación técnica por su simplicidad y versatilidad. Markdown es un lenguaje de marcado ligero que permite dar formato a textos de manera sencilla y eficiente, sin la complejidad de lenguajes más estructurados como HTML o XML.

Google-Extended Robots.txt

Google por su parte Propone una nueva directiva user-agent: Google-Extended, no afecta la inclusión de un sitio en la Búsqueda de Google ni se usa como un indicador de clasificación en la Búsqueda de Google.

Es un token para definir que contenidos consideras apropiados para entrenar futuros algoritmos, en especial esta diseñado para Proteger Derechos de autor.

Google-Extended es un token de producto independiente que los publicadores web pueden usar para administrar si el contenido que Google rastrea desde sus sitios se puede usar para entrenar generaciones futuras de modelos de Gemini que impulsan las Apps con Gemini y la API de Vertex AI para Gemini y para la fundamentación (proporcionar contenido del índice de la Búsqueda de Google al modelo en el momento de la instrucción para mejorar la veracidad y la relevancia) en las Apps con Gemini y la Fundamentación con la Búsqueda de Google en Vertex AI.

Google-Extended no afecta la inclusión de un sitio en la Búsqueda de Google ni se usa como un indicador de clasificación en la Búsqueda de Google.

Usuario-agente en solicitudes HTTPGoogle-Extended no tiene una cadena de usuario-agente de solicitud HTTP independiente. El rastreo se realiza con cadena de usuario-agente existentes de Google; se usa el token de usuario-agente de robots.txt con capacidad de control.
robots.txtToken de usuario-agente en robots.txt
Google-Extended Ejemplo de grupo de robots.txt

user-agent: Google-Extended
allow: /archive/1Q84
disallow: /archive/

Google-CloudVertexBot

Subcadena de usuario-agente en las solicitudes HTTPGoogle-CloudVertexBot
robots.txtToken de usuario-agente en robots.txtGoogle-Cloud<wbr>Vertex<wbr>BotGooglebotEjemplo de grupo de robots.txtuser-agent: Google-CloudVertexBot allow: /archive/1Q84 disallow: /archive/
Productos afectadosLas preferencias de rastreo dirigidas al usuario-agente Google-CloudVertexBot afectan los rastreos que solicitan los propietarios del sitio para compilar agentes de Vertex AI. No tiene ningún efecto en la Búsqueda de Google ni en otros productos.

Agente ChatGPT para SEO

¿Te mencioné código XML, HTML y ya te asustaste? ¡Tranquilo! Creé un agente para ChatGPT diseñado específicamente para ayudarte con el SEO de tu proyecto. Este agente es como un auditor externo que te da feedback y te guía paso a paso.

¿Querés mejorar la optimización de un producto, categoría o toda tu web? Solo tenés que pasarle la URL, y el agente te irá sugiriendo qué ajustes realizar. Eso sí, no esperes magia: como todo buen experto, el agente te dirá qué mejorar, pero el trabajo real estará en tus manos.

Si querés descubrir cómo usar este agente y llevar tu SEO al próximo nivel, no te pierdas el artículo completo: Agente ChatGPT SEO para E-commerce. Este verano, ¡es el momento perfecto para poner tus contenidos a punto! 🚀

¿Qué hace especial a Markdown?

1 – Legibilidad para humanos y máquinas
Markdown está diseñado para ser fácilmente entendible tanto por personas como por sistemas. Esto significa que el texto con formato es claro incluso cuando se ve sin renderizar. Por ejemplo, un título en Markdown se define simplemente con un #, y las listas se construyen usando guiones - o números.

# Este es un título
- Punto uno
- Punto dos

2 – Simplicidad en la escritura
No se requieren conocimientos avanzados para escribir en Markdown. Es posible crear títulos, listas, enlaces y más con una sintaxis mínima, lo que acelera el proceso de creación de contenido estructurado. Esto es especialmente útil para quienes no son expertos en lenguajes de marcado tradicionales.

3 – Compatibilidad con herramientas modernas
Markdown es compatible con una gran variedad de herramientas y plataformas. Los archivos escritos en este formato pueden ser fácilmente procesados por sistemas automatizados, lo que lo convierte en el lenguaje ideal para el llms.txt.

Resumen formato Markdown:

  1. Título: Un encabezado principal (#) con el nombre del proyecto o sitio.
  2. Resumen breve: Un bloque de texto (>) con una descripción del propósito del sitio o proyecto.
  3. Información adicional: Detalles clave en forma de párrafos o listas.
  4. Listas de archivos: Secciones opcionales (##) con enlaces a recursos clave.

Ejemplo Markdown:

## Documentación - [Guía rápida](https://tusitio.com/guia.md): Introducción al proyecto. 
- [Referencia técnica](https://tusitio.com/referencia.md): Detalles avanzados.

SEO para LLMS, Ventajas de implementar llms.txt

  1. Mayor claridad para los LLMs: Simplifica la extracción de información útil.
  2. Adaptabilidad a múltiples sectores: Desde comercio electrónico hasta educación, cualquier dominio puede beneficiarse.
  3. Formato humanamente legible: Markdown es fácil de crear y revisar.
  4. Complemento a estándares existentes: Trabaja junto con robots.txt y sitemap.xml para organizar información específica para LLMs.

Casos de uso en diferentes dominios

El archivo llms.txt es altamente versátil. Algunos ejemplos de aplicación incluyen:

  • Bibliotecas de software: Organizar documentación técnica para facilitar el acceso de los desarrolladores.
  • Sitios corporativos: Resumir estructura organizacional y políticas clave.
  • Educación: Destacar ofertas de cursos y recursos disponibles.
  • E-commerce: Detallar categorías de productos, políticas de envío y devoluciones.
  • Portafolios personales: Resumir habilidades y logros para mejorar la interacción en búsquedas relacionadas.

Comparación con estándares existentes

  • robots.txt: Controla qué partes de un sitio pueden ser rastreadas por bots, pero no organiza información útil para LLMs.
  • sitemap.xml: Lista todas las páginas indexables, pero no simplifica los datos específicos para LLMs.
  • llms.txt: Proporciona un enfoque curado y directo para que los LLMs encuentren información relevante al momento de la inferencia.

Implementación práctica

Para implementar llms.txt, seguí estas recomendaciones:

  1. Lenguaje claro y conciso: Evitá jerga innecesaria.
  2. Descripciones informativas: Acompañá los enlaces con detalles relevantes.
  3. Pruebas constantes: Verificá con herramientas basadas en LLMs que el archivo sea funcional.
  4. Iteración gradual: Comenzá con información esencial y expandí según las necesidades.

Secciones del archivo llms.txt

El llms.txt, construido con esta estructura, incluye las siguientes secciones:

1 – Título
Un encabezado principal (#) con el nombre del proyecto o sitio. Este título ayuda a los LLMs a identificar rápidamente el propósito del archivo.

Ejemplo Markdown:

# Proyecto XYZ

2 – Resumen breve
Un bloque de texto introductorio (>) que proporciona una descripción concisa del proyecto o sitio web. Es la primera referencia que utiliza un modelo para comprender el contexto general.

Ejemplo Markdown:

> Este proyecto se centra en facilitar el acceso a información técnica para desarrolladores.

3 – Información adicional
Detalles clave sobre el proyecto, como secciones con enlaces a recursos específicos, políticas o documentación técnica. Estos enlaces están formateados para incluir una descripción breve de su contenido

Ejemplo Markdown:

## Documentación - [Guía de inicio](https://tusitio.com/guia.md): Explicación inicial de las funcionalidades básicas. 
- [Referencia técnica](https://tusitio.com/referencia.md): Descripción detallada de las APIs disponibles.

4 – Secciones opcionales
Información adicional que no es crítica, pero que puede ser relevante en contextos específicos. Esto permite priorizar contenido clave mientras se proporciona flexibilidad para incluir más detalles.

Ejemplo Markdown:

## Opcional - [Ejemplo avanzado](https://tusitio.com/avanzado.md): Casos prácticos detallados.

SEO para LLMS: llms.txt y llms-full.txt

/llms.txt

  • Propósito principal: Este es el archivo principal y estándar propuesto. Sirve como punto de entrada básico para que los Modelos de Lenguaje de Gran Escala (LLMs) accedan a información clave sobre un sitio web o proyecto.
  • Formato: Utiliza Markdown.
  • Contenido:
    • Un resumen breve del sitio o proyecto.
    • Enlaces a recursos esenciales organizados de manera concisa.
    • Información básica necesaria para entender el propósito del sitio.
  • Uso: Ideal para proporcionar una visión rápida y directa de los elementos más importantes del sitio, como documentación clave, políticas o categorías principales.
  • ejemplo https://martingaray.com.ar/llms.txt

Ejemplo:

# Mi Proyecto

> Este archivo proporciona información clave para que los LLMs interactúen eficientemente con nuestro sitio.

## Documentación
- [Guía rápida](https://mi-sitio.com/guia.md): Introducción al uso de la plataforma.

2. /llms-full.txt

  • Propósito principal: Este archivo amplía la información del /llms.txt, incluyendo detalles más completos y enlaces secundarios que pueden ser útiles en contextos más específicos o técnicos.
  • Formato: También está en Markdown.
  • Contenido:
    • Información adicional que no es crítica, pero que puede ser valiosa para usuarios avanzados o modelos que necesitan un contexto más amplio.
    • Enlaces detallados, incluyendo notas explicativas y recursos menos prioritarios.
    • Esencialmente, todo lo que está en /llms.txt, más contenido extendido.
  • Uso: Útil para LLMs que necesitan realizar inferencias más profundas o para usuarios que desean comprender todos los aspectos disponibles del sitio o proyecto.
  • ejemplo https://martingaray.com.ar/llms-full.txt

Ejemplo:

# Mi Proyecto Completo

> Este archivo contiene información extendida para un análisis más detallado.

## Documentación
- [Guía rápida](https://mi-sitio.com/guia.md): Introducción al uso de la plataforma.
- [Referencia técnica](https://mi-sitio.com/referencia.md): Detalles avanzados 
para desarrolladores.

## Ejemplos
- [Caso práctico](https://mi-sitio.com/ejemplo.md): Cómo aplicar nuestras herramientas
 en proyectos reales.

Próximos pasos en SEO para LLMs

La adopción de llms.txt aún está en sus primeras etapas, pero ya está siendo respaldada por plataformas como Anthropic, Hugging Face y Zapier. Si querés sumarte, podés empezar implementando el archivo en tu sitio y ajustándolo según las necesidades de tu audiencia.

El llms.txt representa una oportunidad para optimizar la interacción entre los sitios web y los modelos de lenguaje, beneficiando tanto a desarrolladores como a usuarios finales. Su adopción promete una web más eficiente y organizada, tanto para humanos como para la inteligencia artificial.

Yo lo implemente fundamentalmente como TEST, para evaluar proyectos con y sin llms.txt, el tiempo (y las documentaciones oficiales) nos dirán ¿cuales son las mejoras optimizaciones para LLMs? de “GSO 😅”

Directorio de llms.txt

Existe un directorio de llms.txt en https://llmstxt.site, el cual a mí me está ayudando mucho para entender la mejor forma de aplicar cada caso, te recomiendo que ingreses a ese sitio y los analices con detenimiento

+Recursos

Referencias adicionales: