La importancia de la Indexabilidad web para SEO

La indexabilidad de una web es la capacidad que ésta tiene para poner a disposición de los motores de búsqueda toda la información del sitio, ya sean textos, imágenes o vídeos. Trabajar la indexabilidad es, sin duda, uno de los trabajos más importantes de un SEO. El objetivo será lograr que la visita de los buscadores a nuestra web sea lo más productiva posible, de forma que éstos visiten el mayor número de páginas relevantes en el menor tiempo. Como habéis podido observar, estoy hablando de páginas relevantes. Es decir, no nos interesa que Google (bueno, y el resto de buscadores que también los hay) utilicen parte del tiempo de su paso por nuestra web en visitar páginas intrascendentes que no aportan un valor real o, en el peor de los casos, páginas duplicadas cuya indexación sería perjudicial para nuestro sitio. Para lograr una adecuada indexabilidad de nuestro contenido la situación ideal sería el de la creación de una nueva web. En este caso, el primer paso sería el de realizar una cuidada planificación de su estructura y de su red interna de enlaces, basándose en un estudio previo de palabras clave del sector y de la competencia. Con estas premisas y con la creación de contenido de calidad, un proyecto web tiene todas las papeletas para experimentar un crecimiento constante a lo largo del tiempo. Pero la realidad es que, en la mayor parte de las ocasiones, debemos trabajar sobre una web ya creada que no ha sido correctamente planificada y que cuenta, en muchos casos, con contenido duplicado, de baja calidad e incluso copiado. Con multitud páginas que "ultraclasifican" la información de forma poco adecuada (como esos malditos tags que sólo listan un post y que se crean tanto en singular como en plural) y con contenidos que se encuentran a muchos clics de distancia de la home. En estos casos el trabajo será más duro. Necesitaremos apoyarnos en herramientas y técnicas (que iremos comentando a lo largo de este post) que nos permitan limitar el acceso a los buscadores a determinadas páginas o tipos de páginas, así como otras que nos permitan redirigir contenidos de baja calidad a aquellas secciones de la web más indicadas en cada caso. Google Webmasters Tools nos ofrece, en su sección "Rastreo - Estadísticas de Rastreo", información sobre las páginas rastreadas al día (que no indexadas) en los últimos 90 días. Hacer hincapié en que se trata del número de páginas visitadas, no indexadas. Esto es, si tenemos una web de 1000 páginas y 900 de ellas tienen etiqueta "noindex", Googlebot visitará aquellas páginas accesibles para él sean o no indexables. En la siguiente captura se muestra un ejemplo de una web la sección Estadísticas de Rastreo para una web:

¿En función de qué se determina el número de páginas rastreadas al día y la frecuencia con la que Google visita un sitio? Está claro, que una web en la que sólo un 20% de sus páginas cuenta con contenido de calidad, cuyos contenidos se actualizan con muy poca frecuencia, que recibe muy pocos enlaces externos y que encima es lenta como el caballo del malo, no recibirá la misma atención por parte de Google que una web con el mismo número de páginas, que se actualiza diariamente, que cuenta con un 90% de contenido de calidad y recibe enlaces de las páginas más importantes de su sector y que, además, carga como un tiro. Como siempre en el SEO, la clave es hacer las cosas bien y trabajar duro. Si nuestra web se actualiza regularmente con un contenido de calidad que aporta valor al usuario, lograremos un buen número de enlaces externos. De esta forma lograremos que Google nos visite en más ocasiones, especialmente si son enlaces procedentes de páginas influyentes. Si, además, la arquitectura de nuestra web facilita a los buscadores el acceso al contenido, y la optimización del código y del servidor les permite descargar más páginas en menos tiempo, mayor será el número de páginas rastreadas al día. Indicar que existen otros factores que influyen en el número de páginas rastreadas al día. Por ejemplo, una migración o un exceso de páginas de error 404 provocará un pico en el número de páginas visitadas. Una herramienta muy útil para "adivinar" problemas de indexabilidad en nuestra web es el propio buscador de google. Mediante el comando "site:" podemos conocer el número de páginas de nuestra web indexadas por Google. Si existe un gran desfase entre el número de páginas de nuestra web y el número de páginas indexadas tenemos un problema de indexabilidad.

Cuando trabajamos con una web mal estructurada y con multitud de páginas duplicadas tenemos que apoyarnos en herramientas que nos ayuden a desindexar las páginas poco relevantes y repetidas. Una de ellas es el archivo robots.txt, que es el primero en ser visitado por los buscadores. En él podremos incluir las directivas que permitirán o impedirán a los buscadores el acceso a determinadas secciones de la web o a toda ella. De esta forma podemos indicarles, por ejemplo, que no indexen páginas que contengan en su url el siguiente parámetro de ordenación ascendente "orderby=?asc", ya que éstas tienen el mismo contenido que la página original salvo que modificando el orden de su contenido. Google Webmasters Tools nos permite utilizar un "probador del archivo robots.txt" para saber si las directivas que hemos introducido en él están funcionando tal y como habíamos pensado. En la siguiente captura se muestra un ejemplo de su funcionamiento.

Las metaetiquetas robots y canonical son otras herramientas que podemos utilizar para evitar la indexación de una página. Por ejemplo, en nuestra página de ordenación de productos ascendente (con el parámetro "orderby=?asc"), podemos utilizar la etiqueta canonical que apuntará a la página "original". Esta es una forma de decirle a Google que esa página no la indexe ya que no tiene más que contenido copiado de la original. Se utilizaría utilizando dentro de la etiqueta <head> de la página "www.midominio.com/categoria1?orderby=asc" de la siguiente forma:

<link rel="canonical" href="http://www.midominio.com/categoria1/"/>

Asimismo, podemos utilizar la metaetiqueta robots para decirle a Google que no indexe esa página de dos formas diferntes en función de si queremos o no que siga los enlaces que contienen esa página:

Es el turno de hablar del archivo sitemap.xml, otra de las herramientas fundamentales para ayudar a los motores de búsqueda a la indexación de nuestra web. En una web pueden existir uno o varios archivos sitemap, que han de ser para Google y para el resto de buscadores lo mismo que un índice en un libro. Por supuesto, en él debemos asegurarnos de introducir las urls relevantes de nuestro sitio. En Google Webmasters Tools podemos (y debemos) indicar a Google cuál o cuáles son los archivos sitemap de nuestra web (sección "Rastreo - Sitemaps". Asimismo, en el archivo robots.txt también podemos indicar su ubicación. Hablemos ahora de las páginas de error 404, un factor muy importante en la indexabilidad de una web. Cuando un usuario o un buscador sigue un enlace a una página de nuestra web que no existe tenemos una página de error y un dolor de cabeza que que debemos evitar a toda costa. Google Webmasters Tools nos permite conocer las páginas de error que su robot se va encontrando en su sección "Rastreo - Errores de Rastreo". Sin duda, una sección a controlar diariamente por un SEO y, de forma muy especial en migraciones. Cuando una web tiene páginas de error 404 entran en juego las redirecciones permanentes 301. Con ellas podemos redirigir automáticamente todo el tráfico que visita una determinada url a aquella otra que indiquemos. Además, utilizando expresiones regulares, podemos introducir reglas que nos permitan redirigir masivamente unas urls que cumplan una determinada condición a aquellas otras que cumplan otra condición. Para introducir las redirecciones 301 podemos emplear el archivo .htaccess o bien hacerlo a través reglas que introduciremos en la cabecera de nuestra página de error a través de php o el lenguaje de programación utilizado en la web. Las redirecciones 301 también son el elemento ideal para eliminar duplicidades, incluso más que el archivo robots.txt. ¿Por qué? Porque estaremos evitando que en nuestra red de enlaces internos existan links a páginas no relevantes. Para finalizar este post comentar que debemos evitar a toda costa utilizar elementos que den problemas de indexabilidad, como por ejemplo los menús o enlaces programados en Flash, Javascript o Ajax, los iframes o los pop-Up, todos ellos totalmente desaconsejados.