Proyecto Cranfield
Proyecto Cranfield es el nombre como se conocen a los dos estudios de evaluación de sistemas de recuperación de información, dirigidos por Cyril Cleverdon entre los años 1957 y 1966, que sentaron las bases metodológicas de la disciplina Recuperación de información.
Los estudios de evaluación comenzaron a llevarse a cabo en 1953, pero desde un ámbito filosófico y meramente especulativo. Cyril Cleverdon, trabajando en el College of Aeronautics de Cranfield (Cranfield Institute of Technology), diseñó un sistema de evaluación donde se proporcionaba un objeto de estudio, una metodología de investigación científica y un lenguaje terminológico.
Cranfield I (1957-1962)
editarTenía como fin comparar la efectividad de cuatro sistemas de indización: una clasificación decimal (concretamente la Clasificación Decimal Universal), un catálogo alfabético de materias basado en una lista de encabezamientos (unas LEM), un sistema de clasificación colonada o facetada (semejante a la clasificación creada por Ranganathan) y un índice coordinado de unitérminos (concretamente el modelo UNITERM de Mortimer Taube). Aquí aparecen los elementos necesarios para evaluaciones posteriores:
- Una colección de documentos (llamados fuente) de los que obtuvieron las preguntas que se le plantearían al sistema. Estos documentos se obtendrían pidiendo a diferentes autores que identificasen los principales aspectos que trataban sus artículos que figurasen dentro de los documentos fuente. Esta colección sería pues un entorno ficticio y controlado.
- Una serie de juicios de relevancia de los documentos y expresados en 3 niveles: muy útil, útil o nada útil.
- Empleo de las fórmulas para hallar los parámetro de exhaustividad y precisión. Estos parámetros habían sido expresados antes por Fairthorne en las frases ABNO (All But Not Only o alta exhaustivdad) y OBNA (Only But Not All o alta precisión). La exhaustividad mide la capacidad del sistema para recuperar documentos útiles mientras que la precisión mide la habilidad de rechazar material no relevante. La exhaustividad se calcula dividiendo el número de documentos relevantes recuperados entre el número de documentos relevantes existentes en la colección. La precisión se halla dividiendo el número de documentos relevantes recuperados entre el número de documentos recuperados.
Los resultados obtenidos ofrecieron los siguientes resultados: Unitérminos (82%), encabezamientos de materia (81,5%), Clasificación Decimal Universal (75,6%) y Clasificación facetada (73,8%). El sistema facetado dio una exhaustividad baja, atribuyéndose a la rigidez del orden fijo de combinación de términos que se caracteriza.
Además, probó que la mejora de la indización no radica en la experiencia del indizador, si no por el tiempo dedicado a esta tarea intelectual.
Cranfield II (1963-1966)
editarEl segundo proyecto consolidó la metodología. En esta ocasión, estudió los efectos componentes de los lenguajes de indización con sus diferentes características, según utilizasen unitérminos, términos compuestos, estructuras jerárquicas entre términos, control de sinonimia y polisemia... Se pretendió conocer los fallos de un sistema de recuperación de información de forma global a través de la evaluación de 33 tipos de lenguajes de indización distintos. El número de documentos y el de preguntas fue mucho mayor. La colección documental se formó, además de documentos fuente, con documentos adicionales; estos surgen de preguntar a los autores por otras referencias relevantes para la búsqueda. En cuanto a las preguntas, se pidió a los autores de los artículos seleccionados que reconstruyeran las búsquedas que se habían planteado originariamente al recopilar la información para escribir sus trabajos.
Los autores también determinaron la relevancia de los documentos en relación con las preguntas formuladas a través de una escala formada por cuatro niveles en detrimento de las escalas binarias (relevante vs no relevante). Estas categorías son las siguientes:
- Documentos recuperados y relevantes.
- Documentos recuperados y no relevantes (ruido documental).
- Documentos no recuperados y relevantes (silencio documental).
- Documentos no recuperados y no relevantes.
Los resultados que este experimento arrojó fueron que los lenguajes formados por términos simples o unitérminos extraídos del lenguaje libre, obtenían mejor resultado que los términos utilizados procedentes de lenguajes documentales de diseño y creación compleja. También se obtuvieron mejores resultados cuando se indizaba sobre el título de los artículos que sobre los resúmenes. Este resultado parecía echar por tierra la necesidad de utilizar los lenguajes documentales, pero al estar hechas las evaluaciones en entornos artificiales, sus resultados difícilmente podrían aplicarse a entornos reales.
Hubo un último aspecto que se constató, y era la existencia de una relación inversa entre precisión y exhaustividad. Es decir, cuando se intenta maximizar uno de los parámetros, el otro se minimiza, y viceversa, resultando inútil intentar mejorar ambos parámetros a la vez. A esta relación inversa, a las que algunos califican como una ley de la Documentación, surgen voces discordantes como Foskett, que sostiene de la existencia (minoritaria) de búsquedas con un 100% de precisión y exhaustividad. Van Slype, de acuerdo también con esta opinión, sugiere que estos criterios mejorarían si los documentalistas adquieren un alto grado de cualificación, se mejore la calidad de los lenguajes documentales y una mayor sofisticación de los programas informáticos aplicados a búsquedas documentales.
Conclusiones
editarEstos experimentos produjeros tres conclusiones importantes:
- Utilización de unitérminos o términos simples (una sola palabra) frente a expresiones más largas.
- Mejora de rendimiento cuando hay un pequeño control de sinonimia, polisemia, homonímia y demás factores lingüísticos.
- La existencia de una relación inversa entre precisión y exhaustividad.
Esta metodología ha sido empleada en otras grandes proyectos de evaluación de sistemas de recuperación de información en entornos documentales como MEDLARS dirigido por Frederick Lancaster o el Proyecto SMART dirigido por Gerard Salton.
Referencias
editarGIL URDICIAIN, Blanca: Evaluación del rendimiento de tesauros españoles en sistemas de recuperación de información. Revista Española de Documentación Científica, 1998, vol 21, n º3, p. 286-302.