¿Qué es el contenido duplicado?

¿Qué es el contenido duplicado?

El contenido duplicado es el mismo contenido que aparece en dos o más URL únicas. Por “mismo contenido” entendemos bloques de contenido que son "apreciablemente similares" que pueden ir desde copias exactas hasta contenido que contiene fragmentos de texto copiado.

El contenido duplicado puede referirse al contenido publicado en un solo dominio o en múltiples dominios. Por lo tanto, podría haber duplicado accidentalmente páginas en tu propio sitio, o alguien podría tomar contenido de tu página y publicarlo como propio. O ambos.

Ahora, “apreciablemente similar” puede ser un poco difícil de definir.

Now, "appreciably similar" can be a bit tricky to define. Por suerte, disponemos de los lineamientos de calidad de Búsquedas de Google (en inglés) para ver cómo ven ellos el contenido copiado.

Google tiene tres cosas que considera "contenido duplicado":

  1. Contenido copiado de una fuente identificable. El tipo de contenido duplicado más fácil de atrapar, este es el texto que se acaba de copiar y pegar, palabra por palabra, de una página a otra.

  2. Contenido que ha cambiado ligeramente del original. Un poco más difícil de entender, este contenido ha sido ligeramente reescrito, generalmente mediante el uso de la función "buscar y reemplazar" para palabras individuales o incluso oraciones completas. Google se refiere a esto como contenido "copiado con mínima alteración".

  3. Contenido copiado de una fuente que ha cambiado, o cambia con frecuencia. Una vez más, un poco más difícil de captar por ti mismo o por Google, este contenido se copia de una página que actualiza o contiene contenido dinámico. Piensa en un sitio de noticias o una página de Wikipedia.

Google considera que el contenido copiado que no proporciona algún tipo de valor agregado para los usuarios es la página con la calificación más baja.

¿Por qué Google se preocupa por el contenido duplicado?

Google tiene problemas con el contenido duplicado por tres razones principales:

  1. Puede ser difícil determinar qué página es la original.
  2. No quieren mostrar contenido más de una vez en los resultados de búsqueda.
  3. Puede confundirlo cuando intenta seguir enlaces o rastrear e indexar URLs.

Piénsalo desde la perspectiva de Google y sus usuarios. Cuando estás buscando algo en Google, si muestran tres o cuatro páginas diferentes que alojan el mismo artículo, es bastante frustrante para ti.

Es por eso que Google mostrará su famoso "hemos omitido algunas entradas muy similares a las 150 que ya se muestran".

Cómo frenar el contenido plagiado

Es difícil evitar que la gente copie tu contenido, pero hay pasos que puedes seguir para decirle a Google que tú eres la fuente original.

Si te preocupa que otros copien tu contenido, puedes firmar con tu nombre cualquier pieza de contenido utilizando marcado de datos estructurados (o Schema) dado que rel=author ya no es compatible. También puedes verificar tu Google My Business y vincularlo a tu sitio web.

El contenido puede hacerse más visible en los resultados de búsqueda, y la investigación realizada por Catalyst Search Marketing muestra que los fragmentos enriquecidos aumentan el CTR hasta en un 150%.

También es una buena manera de hacer que su contenido sea más autoritario y confiable.

Contenido duplicado accidental

El contenido copiado deliberadamente por otros sitios web es el caso más obvio de contenido duplicado. Sin embargo, hay otras cosas en que podrían terminar accidentalmente duplicando tu propio contenido en tu sitio.

Este contenido duplicado a menudo es causado por problemas en la configuración de la plataforma de comercio electrónico o administración de contenido de un sitio web.

a) Comercio electrónico

Las personas que dirigen tiendas minoristas en línea tienden a usar la descripción del producto proporcionada por el fabricante. A primera vista, esto tiene sentido para los minoristas del comercio electrónico: ahorra un montón de tiempo y los fabricantes conocen mejor sus productos. Sin embargo, hay 2-3 millones de empresas de comercio electrónico en todo el mundo.

Hay muchos sitios web que piensan lo mismo sobre la reutilización de las descripciones de los productos del fabricante.

Tu plataforma de comercio electrónico también puede generar contenido duplicado debido a productos con diferentes opciones de color y tamaño. Algunas plataformas usarán las mismas descripciones pero crearán diferentes páginas para cada variación del producto.

b) Paginación

El contenido que continúa en una segunda página puede hacer que Google vea contenido que es "apreciablemente similar". El contenido paginado a menudo usará las mismas etiquetas de título y meta descripciones para cada página. Si bien esto tiene mucho sentido desde la perspectiva del usuario, desde el punto de vista de Google, son dos páginas que se ven iguales.

c) WWW resolve

También conocido como dominio preferido, la resolución WWW es cuando un sitio web redirige a los visitantes de la versión no WWW a la versión WWW del dominio o viceversa.

La resolución WWW importa porque los motores de búsqueda no necesariamente saben que las dos versiones de la URL son el mismo sitio web, por lo que terminan viendo copias de las páginas en dos URL únicas.

Esto también puede resultar en la pérdida de link juice porque no todos se vincularán a la misma versión de sus URL.

Contenido duplicado y redes sociales

La actividad en las redes sociales puede afectar tu SEO. Es una práctica común publicar el mismo contenido en diferentes plataformas sociales. ¿Pero cuenta esto como contenido duplicado?

Hay puntos de vista muy diversos al hablar de los problemas anteriores. Una escuela de pensamiento sostiene que esta es una mala idea ya que las audiencias en las plataformas pueden ser diferentes con diferentes intereses.

Una segunda escuela de pensamiento es que compartir el mismo contenido en diferentes plataformas te ayuda a llegar a audiencias más amplias. Otro punto es que el contenido tiene una "vida útil" más larga en algunas plataformas (como LinkedIn) que en otras (Twitter, por ejemplo). Esto ayuda a que tu contenido sea más fácil de encontrar para tu audiencia.

Probablemente esté bien que publiques el mismo contenido en varios canales de redes sociales.

El hecho de que la mayoría de las plataformas de redes sociales utilicen enlaces nofollow significa que Google se preocupa demasiado por las personas que intentan manipular PageRank de esta manera.

Si todavía te preocupa publicar el mismo contenido en diferentes plataformas sociales, es posible que desees ser un poco creativo y reempaquetar tu contenido. Puedes publicar un artículo en Facebook, una imagen o un video que lo represente en Instagram y una infografía que contenga la misma información en Twitter.

Por lo general, diferentes tipos de contenido funcionan de manera diferente en diferentes plataformas sociales. Con el tiempo, podrás saber qué contenido funciona mejor para qué plataforma.

¿Existe una penalización por contenido duplicado?

Google no aplica una penalización por contenido duplicado, al menos no en la forma en que las personas suelen entender una penalización de Google. En cambio, Google simplemente elige no clasificar las páginas que detecta que se copian de otros lugares en lugar de recomendar solo la versión original del contenido.

Google entiende que, en cierto modo, nada es 100% único. Matt Cutts mencionó que Google sabe que al menos 26 a 30% de internet será duplicado. Es que no es factible crear siempre nada más que contenido 100% único en todos los sitios habidos y por haber.

Sin embargo, es uno de los mitos más comunes y duraderos en SEO que si su sitio tiene contenido duplicado, Google lo penalizará automáticamente.

Este mito surge de los primeros días del filtro Google Panda. Cuando Panda se lanzó por primera vez, muchos sitios dependían de contenido breve y copiado. Esto hizo que muchos sitios web, incluidas algunas marcas realmente grandes y conocidas, perdieran una gran cantidad de tráfico de una manera muy dramática:

Graph showing site killed by Panda

Estos sitios se basaban en gran medida en contenido duplicado y/o "hilado" (levemente reescrito) para construir sitios web enormes con muchas páginas. Otros sitios usaban estas "granjas de contenido" como una forma de promocionar sus artículos y crear algunos enlaces.

Evita a los “raspadores”

Los raspadores son sitios que literalmente copian y pegan el contenido de otro sitio, incluidos los enlaces. Google tiende a ver estos raspadores como irrelevantes, entiende que no los controlas y, por lo tanto, no actuará en tu contra. El algoritmo Penguin 4.0 de Google también generalmente ignora los enlaces de bajo valor de estos sitios.

Por lo tanto, no necesita pasar todo el tiempo rastreando raspadores conocidos en Google Search Console.

Aún así debería preocuparte el contenido duplicado

Aunque Google no penaliza las instancias de contenido duplicado en su sitio, no debes sentarte y relajarte por completo.

Veamos por qué necesitas lidiar con los problemas provocados por el contenido duplicado:

a) El contenido duplicado diluye los beneficios de la construcción de enlaces

Tener el mismo contenido disponible en múltiples URL dispersa el potencial link juice en lugar de concentrarlo en un solo lugar. Las personas que quieran compartir su contenido no buscarán la versión original, sino que vincularán a la que encontraron.

Entonces, en lugar de tener una página con muchos enlaces, puedes tener muchas páginas con solo uno o dos enlaces, y pasar de la clasificación en la parte superior de los resultados de búsqueda de Google a ser enterrado en la página 20.

El otro problema potencial es que, incluso si una versión de tu contenido logra clasificarse bien, podría no ser la mejor página. Todos los visitantes del mundo no valen mucho si visitan una página que no genera conversiones.

b) El contenido duplicado desalienta el rastreo regular

Cuando tienes contenido duplicado, los robots de los motores de búsqueda "desperdician" sus recursos rastreando el mismo contenido. Esos recursos podrían haber sido utilizados para rastrear otras páginas en su lugar. Google no quiere desperdiciar sus recursos de esta manera, por lo que decide que tu sitio web no necesitará ser rastreado muy a menudo.

¿Qué significa eso para el SEO de tu sitio?

Hará más difícil que tus nuevas páginas aparezcan en los resultados de búsqueda. No se rastreará, por lo tanto, no se indexará. Es posible que nunca sea encontrada a pesar de los esfuerzos de optimización que hayas realizado. Es difícil tener éxito en la comercialización de tu negocio si Google tarda una semana (o más) en encontrar tu nueva página.

Cómo identificar problemas de contenido duplicado

Para solucionar un problema, debes identificarlo. Veamos cómo identificar contenido duplicado.

1. Use Google Search Console

Para hacer esto, inicia sesión en Google Search Console. Dado que el informe que vamos a ver no está disponible en la nueva consola de búsqueda, haz clic en el enlace "volver a la versión anterior" en la parte inferior de la barra de navegación lateral:

Acceso a la antigua Search Console desde la nueva Search Console

Haz clic en "Aspecto de búsqueda" y luego "Mejoras HTML":

Informe de mejora de HTML que muestra contenido duplicado

Este informe detalla instancias de etiquetas de título duplicadas y metadescripciones. Dado que se supone que los títulos y las metadescripciones resumen el contenido de la página, tener etiquetas HTML idénticas podría hacer que Google lo interprete como contenido duplicado.

Algo más que debes tener en cuenta son las métricas del rastreador. Puedes encontrarlas en la opción "Rastrear" en tu tablero. Elige las "estadísticas de rastreo" en el menú expandido. Estos te muestran la cantidad de páginas rastreadas en tu sitio. Si hay cientos de páginas rastreadas y tu sitio no tiene cientos de páginas, esto muestra que parte del contenido duplicado se rastrea una y otra vez.

2. Usa las herramientas del rastreador

Una buena herramienta de rastreo es nuestra propia herramienta Site Crawl, disponible en los Proyectos de tu sitio.

WooRank site crawl duplicate content

Dependiendo del rastreador, podrá detectar:

  • Títulos duplicados
  • Descripciones duplicadas
  • Duplicados en el cuerpo de texto principal

Todos los rastreadores se limitan solo a tu dominio, lo que significa que no encontrarán lugares donde otras personas hayan copiado tu contenido, o en los que (accidentalmente, por supuesto) tú hayas publicado algo demasiado similar a otra persona.

Para eso, necesitarás un programa de detección de plagio. Uno de esos programas que puedes usar es Copyscape. Te mostrará la fuente exacta del contenido duplicado y te dirá si es interno o no. Es más fácil de solucionar si el contenido duplicado es interno.

3. Búsqueda manual en Google

Si no tienes acceso a un rastreador o a Google Search Console (en cuyo caso, recomendamos SEOPrompts para ayudarte a configurarlo), puedes hacer búsquedas manuales de Google para encontrar duplicados de páginas

Utiliza el operador de búsqueda “site:” seguido de tu dominio y cualquier palabra clave o fragmento de texto que deseas encontrar. Algo así como site:ejemplo.com frase que creo que podría estar duplicada.

Cuanto más específico seas (hasta 30 caracteres, el límite de las consultas de búsqueda de Google), más precisos serán tus resultados.

Contenido demasiado corto

Es imposible hablar de contenido duplicado sin tratar también el tema del contenido corto. Estos dos problemas a menudo se consideran estrechamente vinculados, ya que ambos son considerados parte de la forma en que Google ve la calidad de un sitio web y ambos se abordan mediante la actualización Panda.

Cuando tengas diferentes categorías, por ejemplo, categorías de productos, es posible que no describas cada producto completamente hasta el punto de obtener suficiente contenido para una página web que pueda indexarse ​​como una página separada. Google puede ver que tales páginas tienen contenido reducido que podría causar problemas con las clasificaciones.

No hay un recuento oficial de palabras para definir contenido demasiado corto. Algunos en la industria de SEO aconsejan que se necesitan al menos 250 palabras por página para evitar problemas de contenido reducido, y algunos estudios han demostrado que los principales resultados de búsqueda de Google promedian más de 1000 palabras por artículo.

Sin embargo, no debes tomarte esto demasiado a pecho, ya que algunas páginas con menos de 100 palabras ocupan el primer lugar, superando contenido que es diez veces más largo.

La prueba real que debes aplicar cuando buscas contenido corto debe ser preguntarte "¿esto cubre lo que se necesita?" y "¿esto satisface la necesidad de los usuarios?".

Si respondes que sí a esas preguntas, probablemente no tengas mucho de qué preocuparte.

Guías recientes