¿Qué es el contenido duplicado en SEO y cómo solucionarlo?

Entre las Penalizaciones de SEO, el contenido duplicado es la más frecuente. Consideren la situación que desarrollamos contenidos originales, de la mejor calidad posible para mejorar el nivel de atracción y competir contra otros sitios. Y la situación es que Google, luego de validar nuestro sitio identifica que estamos creando URLs diferentes que muestran el mismo texto. Por lo cual, por considerar SPAM a nuestro sitio no se posiciona tan bien como lo esperado.

Tener diferentes dominios que muestran el mismo contenido puede tener un impacto negativo en el SEO de un sitio web. Los motores de búsqueda prefieren mostrar contenido único y relevante a los usuarios, por lo que si varios dominios muestran el mismo contenido, puede haber una dilución de la autoridad y la relevancia del sitio web, lo que puede afectar su posicionamiento en los resultados de búsqueda.

Hay varios aspectos técnicos que pueden generar contenido duplicado en un sitio web:

URLs duplicadas: si una página tiene varias URLs que muestran el mismo contenido, los motores de búsqueda pueden considerar ese contenido como duplicado y pueden penalizar el posicionamiento del sitio.
Subdominios: si un sitio web tiene subdominios que muestran el mismo contenido, puede ser considerado como contenido duplicado por los motores de búsqueda.
Redireccionamientos: si una página redirige a otra página con contenido similar, es posible que los motores de búsqueda consideren ese contenido como duplicado.
Contenido generado por el usuario: si un sitio web permite que los usuarios publiquen contenido, es posible que algunos usuarios publiquen contenido que ya existe en otra parte del sitio o en Internet, lo que puede considerarse como contenido duplicado.

Es importante evitar el contenido duplicado en un sitio web para asegurar un buen posicionamiento en los motores de búsqueda y brindar una experiencia de usuario óptima. Si hay varias versiones de una página con contenido similar, se recomienda utilizar la etiqueta “canonical” para indicar a los motores de búsqueda cuál es la versión principal de la página. También se pueden utilizar redireccionamientos para enviar a los usuarios y a los motores de búsqueda a la versión correcta de la página.

SEO Establecer el dominio preferido (con o sin www)

Las URL afectadas por contenido duplicado, porque así lo considero el buscador comienzan a competir entre sí, de manera tal que el buscador intentara determinar ¿cuál es la URL dueña de ese contenido? el buscador indexada todas las versiones, pero solo una tendrá un valor relevante como resultado de una búsqueda y “contra un competidor real”.

Herramientas de validación de contenidos

Existen diversos casos por los cuales podemos estar generando contenido duplicado. Es muy importante analizar nuestro sitio con herramientas de Search Engine Spider Simulator, ya que muy probablemente los Robots de Google interpreten lo mismo.

Podemos recurrir a los reportes de Googlge WebMasterTools, para poder identificar contenido duplicado, según un criterio básico el cual es:

Repetir el “título de la página” en más de una URL.
Repetir la “Etiqueta meta descripción” en más de una URL.

Dentro de WebMasrter Tools > https://www.google.com/webmasters/tools/ Vamos a: Aspectos de búsqueda > Mejoras de HTML. Y vamos a hacer foco en el ítem “Etiquetas de título duplicadas”. Al darle clic, nos mostrara el listado de títulos duplicados, y al desplegar éste segundo ítem, veremos el listado de Páginas con etiquetas de título duplicadas.

Está claro que la ida de este proceso es lograr que nuestro sitio Web tenga URL con títulos únicos e irrepetibles, y Etiqueta meta descripción única e irrepetible.

¿Como Hacer un Keyword Research?

Casos que son considerados como contenido Duplicado

Entre los casos que pueden generar esta penalización de SEO, la menos asociado es cuando desarrollamos un contenido original, y lo distribuimos entre “sitios amigos”, con vínculos. Con la idea que esto mejorara nuestro posicionamiento SEO. Y la realidad es que solo lo estamos perjudicando.

Sucede lo mismo pero en menor medida cuando re-publicamos contenido en redes sociales, con a idea de viralizar.

Dentro de nuestro sitio, los casos que podemos identificar son:

La misma página de producto tiene URL dinámicas como resultado de las preferencias relacionadas con la sesión de usuario o con la búsqueda.	http://www.example.com/productos?categoria=vestidos&color=verde http://example.com/vestidos/cocktail?gclid=ABCD http://www.example.com/vestidos/verde/vestidoverde.html
El sistema del blog guarda automáticamente varias URL a medida que sitúas la misma publicación en varias secciones.	http://blog.example.com/vestidos/vestidos-verdes-increibles/ http://blog.example.com/color-verde/vestidos-verdes-increibles/
Tu servidor está configurado para mostrar el mismo contenido para el subdominio con www o para el protocolo https.	http://example.com/vestidos-verdes https://example.com/vestidos-verdes http://www.example.com/vestidos-verdes https://example.com/vestidos-verdes
El contenido que publicas en ese blog para que se distribuya a otros sitios queda duplicado de forma parcial o completa en dichos dominios.	http://novedades.example.com/vestidos-verdes-para-cada-dia-155672.html (publicación distribuida) http://blog.example.com/vestidos/vestidos-verdes-increibles/3245/ (publicación original)

Link Building ¿Qué hacer y qué no hacer?

Contenido duplicado al mejorar la Experiencia del usuario

Existen numerosos casos provocados en el intento de mejorar la experiencia del usuario, como son la versión web mobile, un visualizador en formato PDF, o el vínculo para imprimir la página. En la mayoría de estos casos, estas versiones alternativas son identificadas como contenido duplicado.

Otra situación de contenido duplicado se produce cuando copiamos parcialmente contenido entre páginas, por una necesidad de marketing o comunicación. La realidad es que es una pésima excusa.

La necesidad de Paginación, es un clásico ejemplo que causa ser penalizado por contenidos duplicado.

Otros problemas a causa del contenido Duplicado

Para el caso de seguimiento del Goal de conversión, ya sea con Google Analytics, adWords, Facebook…Email… SEO…etc. Deben tener una única URL Goal de para poder comprender la atribución de conversión. Una campaña multicanal, debe apuntar a una única URL (con su correcto Taggeado de campañas). Es una muy mala práctica desarrollar una URL por canal de atribución, – lo comento ya que he visto a “grandes agencias” y compañías de desarrollo Web que realizan esta acción, con la intención de segmentar usuarios por fuente de tráfico.

Otros problemas que trae el contenido duplicado

En el proceso de desarrollar una estrategia de link Building, tener URL duplicadas causa que se diluya la fuerza del vínculo, ya que se supondría que cada link debería apuntar a una única página (URL)
Sindicación, mediante el servicio de RSS que puedes estar ofreciendo para servicios de noticias. Sitios Web de tercero podrían recurrir al RSS para re publicar secciones enteras de tu sitio Web.
Scraping de contenidos, “algunos estrategas” puede recurrir a herramientas que capturan contenido de otros sitios Web para re-publicar en los suyos, pensando que ello les sumara posicionamiento (la realidad es que solo se perjudicaran), el punto es que te estarán perjudicando, para ello deberías hacer monitoreo periódico de tus contenidos. Podrías recurrirá servicios de tercero que resuelven este tema check duplicate content y periódicamente te envían alertas.
Con la ida de que todo es gratis en Internet, alguien deliberadamente podría copiar contenidos, sin saber que en realidad se está perjudicando. Suponiendo que “fue sin intención” podríamos contactarlo bajo los términos del “Creative Commons” y solicitarle que incorpore un vínculo con propiedades de autor atribuidas a nuestro sitio.

Cómo solucionar el contenido duplicado

La etiqueta “rel=canonical”

se creó precisamente para tratar este problema, por lo que es la mejor solución. Consiste en una línea de código dentro de la sección <head> del código <HTML> de la página, la cual le dice al buscador qué versión de la página es la original o dueña del contenido (la canónica).

<head>
 ... 
 
 ...

SEO Web Mobile

Con el auge de los sitios Web desarrollados /optimizados para dispositivos móviles, en algunos casos estamos generando más contenido duplicado, y el caso es cuando tenemos www.sitio.com y m.sitio.com

Para no tener problemas de contenido duplicado, debemos implementar una paridad entre las versiones, implementando dentro del <head> el tag <link rel alternate ó canonical. (por las dudas lo aclaro) esto se debe implementar en la totalidad de URLs, con el href correspondiente

En la Web NoMobile ( www.sitio.com)

<link rel="alternate" media="only screen and (max-width: 640px)" href="http://m.sitio.com" />

<link rel="alternate" media="handheld" href="http://m.sitio.com..." />

En WebMobile, ( m.sitio.com )

<link rel="canonical" href="http://www.sitio.com...." />

Redirecciones 301

Es un método algo drástico, pero muy útil cuando no se puede implementar la etiqueta canónica. Por otro lado es el método que se debe implementar cuando se trata de casos de normalizar el nombre del dominio. Cuando el sitio se puede navegar con y sin www. La redirección 301 es un comando que es incluidos dentro del archivo .htaccess (para el caso de servidores Apache/Linux), o global.asa (servidores Microsoft) en el directorio raíz de tu sitio Web. Lee mas sobre re direcciones amigables

Para el caso del archivo .htaccess


#Forzar Con www:

RewriteEngine on
RewriteCond %{HTTP_HOST} ^example.com [NC]
RewriteRule ^(.*)$ http://www.example.com/$1 [L,R=301,NC]


#Forzar sin www:

RewriteEngine on
RewriteCond %{HTTP_HOST} ^www\.example\.com [NC]
RewriteRule ^(.*)$ http://example.com/$1 [L,R=301]

Negar el acceso a los Robots

Podemos “sugerir una versión preferida” para que buscadores no encuentren páginas duplicadas en tu sitio Web. para ello podemos utilizar la etiqueta Meta Robots o del archivo robots.txt (también conocido como protocolo de exclusión) podes encontrar una explicación bien completa del robots.txt

<head>
 ... 
 <meta name="robots" content="noindex, nofollow" />
 ...
 </head>

Gestionar los parámetros de URL

En el caso de que el contenido duplicado esté provocado por parámetros en tus URls, puedes indicar a mediante Web Master Tool, cuáles el Robot debe ignorar. En Rastreo > Parámetros de URL. Claro que este método solo cubriría solucionar la interpretación de Google, y los demás buscadores continuarían penalizando el sitio Web.

Unifica contenidos

Cuando tenemos todos las cuestiones técnicas solucionadas surgen decisiones de terceros que perjudican el producto adrede, por no tener los conocimientos adecuados para la toma de decisiones. Comente más arriba como por una necesidad de marketing o comunicación de la empresa, es necesario tener un texto o parte de un texto repetido en más de una URL.
La solución más sensata es tener una URL página única, que puede resultar extensa, pero desarrolla “esa temática” a la perfección, y no es necesario paginar o duplicar contenidos.