Experimento Pantani-Contador o ¿cómo indiza Google Académico sus referencias?


ciclismoLa noticia salió a la luz pública a finales del año pasado y fue ampliamente publicada en medios de comunicación generales tanto escritos como audiovisuales por lo que posiblemente para la mayoría de vosotros no estemos contando nada nuevo.

Aún así traemos este caso para reflexionar un poco sobre la necesidad de mejora de la calidad de algunos de los procesos de indexación de los artículos por parte de Google.

Explicamos cómo funciona Google Académico y cómo se le pudo engañar.

Google Académico es un buscador de Google que indexa todas las publicaciones científico-técnicas más importantes incluyendo artículos publicados en revistas científicas, libros, tesis doctorales, referencias de bases de datos científicas y páginas web de instituciones docentes y universitarias.

El objetivo de todo ello es lograr resultados de búsquedas más específicos en caso de querer buscar información de un nivel alto de complejidad científico-técnica.

A partir de este buscador se ha desarrollado una herramienta de perfil individual («mis citas» dentro del perfil de Google) en la que se concentran los artículos de los que somos autores creando un recopilatorio de nuestra actividad de publicación que se complementa con dos índices de citas y referencias bibliográficas como son el índice h y el índice i10, este último desarrollado por Google.

En principio la idea es muy buena. Tenemos una herramienta que bebe de fuentes acreditadas y se cran índices de ciatación y referencia en perfiles personales de manera que podemos crear nuestro perfil científico personal.

Hay ocasiones que se indexan los artículos de forma irregular (a veces no todos los datos de revista o fuente de donde se citan, fecha, paginación o apellidos, está bien  colocados) por lo que se da la opción de citación manual o de corrección de la referencia.

Este filtro humano se produce al final de la cadena y se puede realizar por el propio interesado de forma que ya existe una sospecha que todo el proceso se realiza de forma automática sin que exista  ningún filtro por parte de personas. También esto es en parte lógico ya que la producción de artículos en todas las ramas del saber y conocimiento es muy grande.

Ya que el proceso es automático realizado por robots indexadores, ¿podríamos engañarles?. Más o menos esta debió ser la pregunta que se plantearon los investigadores del grupo EC3 de la Universidad de Granada de evaluación de la Ciencia y de la Comunicación Científica. Ya en el año 2012 emitió un informe en el que se detallan las  desventajas de este sistema de Google:

  • Falta de transparencia en el contenido de la base de datos.
  • No se declaran acuerdos con editoriales ni de las fuentes que se indizan.
  • No existe control de las fuentes procesadas.
  • Duplicidades de fuentes con índices y formas de evaluación diferentes.
  • Errores en el procesamiento de la información: errores tipográficos (falta de discriminación de mayúsculas minúsculas y tildes en el nombre de las revistas), algoritmos automáticos, errores en las referencias bibliográficas, en el idioma de publicación…

De esta forma consideran que el producto Google Schoolar Metrics (GSM) es potencialmente bueno pero tiene una serie de errores importantes que hace que no sea recomendable como fuente de evaluación de la actividad de publicación de un investigador concreto.

Pero nos sorprendieron a finales del año pasado con la publicación de un artículo científico donde muestran qué fácil es engañar a las máquinas. El trabajo ha sido realizado por los investigadores de la Universidad de Granada Emilio Delgado López-Cózar, Nicolás Robinson-García y Daniel Torres-Salinas.

La estrategia del engaño fue la siguiente:

  • Crearon un «investigador»: Marco Alberto Pantani-Contador a partir de apellidos de dos ciclistas involucrados en escándalo sobre uso de sustancias dopantes.
  • Hicieron que este «autor» publicara, creando artículos falsos a partir de «corta/pega» de artículos publicados por el propio equipo de investigación.
  • En las referencias bibliográficas de estos artículos falsos se incluyeron referencias a artículos verdaderos publicados por los miembros del quipo de investigación. De esta manera los índice que hacen referencia a las citas bibliográficas de artículos ya publicados van aumentando.
  • Publicaron los «artículos falsos» en la web de la Universidad de Granada traduciéndolos al inglés utilizando Google Translator.

Y a esperar….

Google indizó de forma automática los artículos falsos y los índices de referencias de citas de los investigadores (índice h, número de citaciones e índice i10) aumentaron considerablemente. Los indicadores bibliométricos de los tres autores se incrementaron notablemente y también se vieron afectados, con aumentos de citas, 47 investigadores y 51 revistas.

Tomado del artículo: The Google Scholar Experiment: how to index false papers and manipulate bibliometric indicators Emilio Delgado López-Cózar, Nicolás Robinson- García, Daniel Torres-Salina E
Tomado del artículo: The Google Scholar Experiment: how to index false papers and manipulate bibliometric indicators
Emilio Delgado López-Cózar, Nicolás Robinson-
García, Daniel Torres-Salina.

De esta forma la reputación de un investigador puede ser manipulada.

El interesante artículo The Google Scholar Experiment: how to index false papers and manipulate bibliometric indicators nos muestra claramente los fallos de los sistemas actuales de «reputación» digital.

Pero nuestra inquietud no ha quedado en el resumen del artículo que seguro ya era conocido por muchos de vosotros, ¿qué ha pasado después con estos autores?, ¿ha corregido Google Schoolar Metrics los índices de los mismos?, ¿los artículos de Pantani-Contador siguen indizados?.

Hemos tecleado «Pantani-Contador» en Google Académico y vemos cómo además del artículo en el que se «destapa» al falso investigador que aparece como primera referencia, aparecen los artículos donde consta como autor «Pantani-Contador». Es decir en Google Scholar están coexistiendo la realidad y la ficción.

Google Schoolar Pantani-Contador

Los autores siguen teniendo su perfil en GSM y el número de citas y los índices h e i10 son aún mayores que los que aparecen en su artículo (ver tabla 1 del artículo publicada como imagen en esta entrada). Este aumento ha podido ser debido a las citas que se hayan derivado del artículo, pero posiblemente no se haya corregido el error.

Emilio Delgado Lopez Cozar

Robinson Garcia Nicolas

Torres Salinas Daniel