Ideas para proteger contenidos en WordPress y evitar a los scrapers

A la hora de abordar la gestión y el mantenimiento de un blog, además de ocuparnos de la gestión de los contenidos, también tendremos que dedicar tiempo a la gestión de la plataforma que estemos utilizando para publicar. Si bien existen servicios como Blogger o Tumblr que nos ahorran parte del trabajo, apostar por una instalación propia de WordPress puede ser interesante por las opciones de personalización que tenemos gracias a los plugins y widgets disponibles que nos permiten dotar al gestor de contenidos de funcionalidades adicionales y mecanismos para facilitar la gestión.


Cuando uno dedica esfuerzos a generar contenidos para su blog, lógicamente busca que a largo plazo sus contenidos sean "tocados" por el "gran Google" para que se encuentren fácilmente y, poco a poco, vayamos teniendo algo más de relevancia en las búsquedas y que nuestra página se posicione bien. Este objetivo, en el que entre otras cosas el SEO tiene mucho que decir, se puede ver afectado por terceros con no muy buenas intenciones que quieran aprovecharse de nuestra web para su propio beneficio.

Además de lidiar contra el spam, que en su gran mayoría busca dejarnos enlaces que apunten a páginas web que quieren promocionar o mejorar en posicionamiento, también nos enfrentaremos a otro tipo de abuso: los scrapers.

¿Y qué es un scrapper? Conocemos como scrapper a aquellas páginas web que se dedican a copiar, literalmente, el contenido que publicamos; un proceso automático que se hace bebiendo de nuestro feed RSS o copiando el código HTML de nuestras entradas y que se utiliza para hacer relevante un sitio llevándose el contenido de terceros. Teniendo en cuenta que el buscador de Google prima la calidad de los contenidos y, a veces, no es capaz de distinguir la fuente original, los scrapers se aprovechan para competir directamente con otras páginas y salir bien parados en las búsquedas porque ofrecen buenos contenidos a los usuarios y, al final, estos acaban haciendo clic cuando lo ven en los resultados. El problema es que el contenido es de un tercero al que se está fastidiando directamente y, claro está, el visitante a veces no se da cuenta que está delante de un contenido que se ha copiado (aunque algunos scrapers para "salvar el tipo" pongan en pequeño la fuente de la que extrajeron el contenido).

Proteger el contenido que publicamos entrará también dentro de nuestras tareas de gestión del blog, algo que podemos hacer recurriendo a una licencia de publicación de los contenidos (como Creative Commons) y también poniendo algunos medios que pongan en valor que el contenido es nuestro por si algún scraper lo copia, de regalo, se lleve una marca que indica quién es la fuente original. En el caso de WordPress, la protección de contenidos también podemos hacerla usando algunos de los plugins disponibles:
Firmar los contenidos

Si sigues Bitelia a través de un feed RSS habrás podido observar que, al finalizar cada entrada, aparece una firma al pie que indica que el contenido "se publicó primero en Bitelia". Esta marca suele utilizarse, precisamente, para que en el caso que un scraper copie nuestro contenido también se lleve este disclaimer y aparezca en su web (este tipo de copias suele ser un proceso automático y los gestores de estas webs no suelen revisar los contenidos porque lo que les interesa es la publicidad).

Esta marca podemos generarla automáticamente usando plugins como:
WordPress SEO by Yoast (que además de ayudarnos con el SEO también nos sirve de apoyo contra los scrapers)

O bien certificar el contenido con un tercero que actúe de notario usando lo que nos propone Copyright Proof.
Evitar el copy-paste

La copia que hacen los scrapers es un proceso automático que, básicamente, copia el código HTML que sirve nuestra web (prueba de ello es que las imágenes que usan son las de nuestro sitio web) pero, aún así podemos encontrar webs que protegen sus contenidos hasta el punto que evitan que un visitante pueda "copiar" los contenidos seleccionándolos y pulsando Control+C.

Personalmente, me parecen este tipo de medidas muy exageradas y creo que con una licencia adecuada (Creative Commons con atribución, por ejemplo) es suficiente y no hay que llegar a esos extremos. De todas formas, si alguien tiene especial interés en que no se pueda hacer copy-paste de sus contenidos puede hacerlo recurriendo a plugins como wordpress prevent copy paste plugin (un nombre bastante descriptivo) o WP Content Copy Protection.

Comentarios

Entradas populares de este blog

Dabbleboard, una pizarra para hacer más productivas las reuniones

Community Managers: Una fórmula sencilla de medir el ROI para Pymes

5 procesadores de texto alternativos y no convencionales