Cuantas páginas ha indexado Google sin usar el operador site

Ramón Rautenstrauch 1 agosto 2012 GOOGLE Comentarios desactivados en Cuantas páginas ha indexado Google sin usar el operador site

Finalmente tenemos disponible en Google Webmaster Tools el Informe del «Estado de indexación» que nos indica cuantas URLs tiene indexado Google de la web y su evolución durante el último año.

Este informe está disponible en Google Webmaster Tools bajo la solapa de SALUD / Estado de indexación. Y hay dos informes, uno básico y otro avanzado.

El informe de Estado de indexación básico nos muestra la evolución del número total de páginas indexadas a lo largo del último año. Google dice que esta cifra es exacta (no como el uso del operador site: en el buscador) y después de quitar todas las URLs con el meta-tag canonical. En otras palabras, si la web incluye muchas URLs duplicadas con la etiqueta canonical, Google solo cuenta la versión canónica y no los duplicados.

Este informe no es a tiempo real y pueden tardar algunas semanas en actualizar los datos, por lo que se pueden utilizar para ver tendencias, pero no para análisis a tiempo real.

Por otro lado y esto es muy importante, si vemos los datos para el dominio incluyendo las www delante, solo nos mostrará los datos del subdominio www; pero si vemos los datos sin las www delante veremos el contenido idexado de todos los subdominios, incluyendo el dominio sin las www. Esto significa que no hay forma de ver las estadísticas de webs que no incluyen las www en su dirección (a no ser que no tengan ningún subdominio y entonces coincidan los datos).

El informe de Estado de indexación avanzado nos da detalles adicionales. Para poder analizar los datos, de momento hay que excluir las «Rastreadas alguna vez» y basarse en:

Indexadas
No seleccionadas
Páginas bloqueadas por robots

La suma de estos tres números nos indica las URLs que Google tiene en cuenta de esa página web. Lamentablemente ya no hay informe para ver las páginas bloqueadas por los robots, aunque si que los podemos ver a través del API.

Una URL pude no ser seleccionada para ser indexada porque:

Redirige a otra página
Tiene un rel=»canonical» a otra página.
Los algoritmos de Google han detectado que es muy similar a otra URL y se ha seleccionado la otra URL como representativa del contenido.

Finalmente están las páginas «Rastreadas alguna vez«: Este número hay que mirarlo de forma separada del resto de datos y es muy difícil (o imposible) saber a que corresponden.

Muy interesante este informe: Si lo comparamos con los datos de la web que nosotros tenemos (en la evolución a lo largo del último año), podemos ver de un vistazo como es la evolución de la indexación.