RECUPERACIÓN DE INFORMACIÓN: Teoría de recuperación de información: modelos fundamentales y aplicaciones a la gestión documental

"La teoría de recuperación de información es una especialidad académica con una (relativamente) larga tradición en Estados Unidos, donde se cultiva en las universidades y los laboratorios por lo menos desde los años 60.

Conceptualmente, la recuperación de información (RI en adelante) es una operación que consiste en la interpretación de una necesidad de información con el fin de seleccionar los documentos más relevantes capaces de solucionarla.

Sin embargo, esta aparente sencillez conceptual encierra diversos problemas cognitivos que distan mucho de ser sencillos, a saber:

•identificar y representar necesidades de información;

•identificar y representar el conocimiento contenido en documentos;

•seleccionar los documentos más relevantes de acuerdo con los dos problemas anteriores;

•mostrarlos al usuario.

La teoría de RI estudia el desarrollo de modelos conceptuales relacionados con las cuatro operaciones mencionadas, con el objeto de facilitar no sólo su adecuada comprensión, sino también para facilitar su automatización mediante el uso de ordenadores.

Desde que los ordenadores se utilizan en documentación las operaciones de RI forman el núcleo de la cadena documental, siendo además aquí donde adquieren sentido (en gestión de información cognitiva, es decir, de información cultural, científica o técnica), y no, en cambio, en la gestión de datos o de documentos administrativos. Por este motivo, aunque la RI es un campo interdisciplinar en el que intervienen matemáticos, informáticos, psicólogos, documentalistas, etc., su identificación con la Documentación y la Biblioteconomía es mayor que con otras ciencias o profesiones.

Ahora se recogen sus frutos

En cualquier caso, y después de muchos años de mantenerse casi como un entretenimiento académico o como una curiosidad de laboratorio, la teoría de recuperación de información ha saltado a la más candente actualidad tecnológica debido a estos dos hechos:

1º A partir del aumento incesante de potencia de los microordenadores y de su paralelo abaratamiento, cada vez más empresas de productos de gestión documental han decidido incorporar en sus programas alguno de los fundamentos teóricos de la recuperación de información. De esta manera están introduciéndose de una forma casi imperceptible en el mercado de consumo a través, por ejemplo, de programas como Acrobat (Adobe) y Notes (Lotus); pero también a través de programas más especializados en gestión documental como Personal Librarian (CSi), PC Search (Chemdata) y BasisPlus (Centrisa).

2º El aumento de la oferta informativa de Internet ha provocado la imperiosa necesidad de instrumentos que sean capaces de filtrar la información para separarla del simple ruido. Para ello, muchos sistemas de búsqueda en Internet ponderan la relevancia de los ítemes de información encontrados para poder ofrecerlos a los usuarios en un orden no aleatorio, e incluso para rechazar aquellos que no superen un determinado umbral de utilidad esperada que puede fijar el usuario. Esa filosofía es deudora de la teoría de RI y de su concepto de relevancia, así como de los algoritmos que utilizan esos programas para filtrar la información.

Investigación teórica en documentación

En lo que sigue, se examinarán los fundamentos de la RI y se discutirá su aplicación a la gestión documental, pero antes parece oportuno discutir la utilidad de la teoría en documentación y, en general, en cualquier ámbito científico o profesional.

Digamos, de paso, que resulta doloroso comprobar con cuánta frecuencia en nuestro país se utilizan los términos "académico" o "teórico" como descalificación, como sinónimos de algo superfluo, inútil o, simplemente, de pérdida de tiempo; asociación de ideas que dice más bien poco sobre nuestra cultura científica, nuestro respeto por la ciencia básica o sobre el concepto que se tenían ganado nuestras universidades.

Sin embargo, es sabido que sin trabajos teóricos y sin académicos que los cultiven, no existen modelos conceptuales, y sin modelos conceptuales no existen después desarrollos profesionales ni industriales. Crudamente: por muy importante que sea la ciencia aplicada, ningún país del mundo le aportará jamás nada si antes no es capaz de cultivar la ciencia básica.

Por ejemplo, sin modelos teóricos, y absolutamente académicos, como los que desarrollaron Alan Mathison Turing en los años 30 y John Von Neumann en los 40, no hubieran existido los primeros ordenadores de los años 50 y, por ende, los muy pragmáticos microordenadores actuales, que siguen todavía los modelos mencionados.

Fundamentos de recuperación de información

Según el modelo más aceptado actualmente, la recuperación de información consiste en un proceso en el que intervienen tres elementos:

•una colección de ítemes de información, tales como documentos, que están registrados en un depósito de información (por ejemplo en una base de datos),

•una serie de preguntas que traducen las necesidades de información de los usuarios y, finalmente,

•una función de comparación documentos/preguntas que genera como salida documentos relevantes (véase la fig. 1). Recuperar información, entonces consiste en buscar los documentos que exhiben un mayor parecido con la pregunta.

La hipótesis subyacente en el modelo anterior es que una forma de juzgar la relevancia de un documento es medir su grado de similitud con la pregunta, y que la forma de representar ambas entidades (preguntas y documentos) es mediante el uso de información textual, aunque las entidades en sí mismas no sean textuales.

En general, para comparar el grado de parecido entre dos entidades es necesario identificar algún grupo de propiedades medibles y después establecer un procedimiento que permita calcular cuántas de éstas propiedades comparten ambas entidades.

Aplicaciones actuales de la teoría de RI

Aparte de su posible elegancia intelectual, ¿qué aplicaciones tienen estas teorías y formalismos? Por lo pronto, cada vez más sistemas de gestión documental como los citados al principio han decidido incorporar, de una manera más o menos transparente, el cálculo de relevancia al preparar los documentos para presentarlos al usuario, en lugar de presentar los documentos aleatoriamente; otro tanto sucede con los principales distribuidores de bases de datos documentales (Dialog, por ejemplo, con su instrucción target).

Otra aplicación muy conocida de los principios enunciados podemos verla en los sistemas de búsqueda tipo Wais que actúan en Internet. La mayoría de estos servicios de localización de información, incluyendo los así llamados agentes inteligentes (herederos de los fantasmales knowbots, v. IWE-7, septiembre de 1992, p. 9), utilizan métodos de ponderación del grado de relevancia de las informaciones recuperadas antes de mostrarlas a los usuarios. En el caso de Internet, es costumbre que tales servicios o agentes asignen un número arbitrario al ítem de información más relevante, por ejemplo, 1000, y los demás ítemes adquieren entonces un número que expresa su importancia relativa respecto al primero.

En general, la idea que subyace tras estas ordenaciones es más sutil e importante de lo que parece si se examina con cuidado. Cuando un usuario formula una pregunta a una base de datos documental espera recuperar una cantidad n de documentos que satisfagan su necesidad de información. Pero el valor de n es desconocido, pueden ser dos o tres documentos, o pueden ser miles.

La situación habitual ante una gran cantidad de documentos recuperados consiste en utilizar nuevos términos de búsqueda combinados por operadores booleanos, para ir restringiendo el número total, y dejarlo así por debajo del punto de inutilidad (David C. Blair, 1990), es decir, por debajo de aquella cantidad de información que el usuario preferirá no leer, dado su volumen.

Sin embargo, para que la operación anterior tenga éxito, debe tenerse un buen conocimiento de la base de datos, un buen dominio de la lógica booleana y un buen conocimiento del tema de búsqueda, además de tiempo y paciencia y, al final, puede que las operaciones booleanas reduzcan el tamaño del conjunto recuperado a costa de perder documentos relevantes (Blair, 1990).

En cambio, con la ordenación por grado de relevancia, no importa lo grande que sea el número de documentos recuperados; el usuario sabe que justo los primeros son los más relevantes y, por tanto, le bastará con atender sólo a aquellos documentos que hayan superado un cierto umbral de relevancia, y como el primer documento es el más pertinente, el segundo lo es sólo un poco menos, etc. Él puede situar el umbral donde crea conveniente, según el tiempo de que disponga, el tamaño de los documentos, la complejidad del tema, etc.

Importancia del orden en que lee el usuario

Vista desde tres observaciones:

1. La ordenación por grado de relevancia será tan eficiente como lo sea el algoritmo o el modelo conceptual que se encuentre tras ella. Un algoritmo poco refinado que, por ejemplo, sólo tenga en cuenta el número absoluto de ocurrencias de cada documento, dará resultados muy pobres e incluso sorprendentemente erróneos.

2. La ordenación de relevancia no sustituye, necesariamente, la recuperación por medio de operadores booleanos, sino que es un medio para entregar los resultados ordenados por un criterio mucho más riguroso que el simple azar. En ocasiones, la búsqueda asociativa, que es como se denomina a la utilización del cálculo de relevancia como alternativa a los operadores booleanos, puede ser muy útil, pero en ocasiones puede no serlo tanto. En ese caso, la relevancia debe considerarse exclusivamente como un factor de clasificación más racional que el orden aleatorio. Es la estrategia que adoptan, por ejemplo, sistemas como Notes, Acrobat, PC Search y BasisPlus, los cuales no dejan de lado el álgebra de Boole para preparar ecuaciones de búsqueda, pero ordenan por defecto, y de manera transparente al usuario, los documentos recuperados según alguno de los algoritmos de relevancia mencionados.

3. Hay que recordar que los ordenadores actuales no son capaces de interpretar símbolos, sino que se limitan a leer y a comparar cadenas de caracteres.

Los modelos de la RI sólo pueden paliar un poco la total falta de inteligencia de los ordenadores actuales, intentando darles algo de la experiencia y del conocimiento de los profesionales de la documentación. Parte de esta experiencia es la que se encuentra encapsulada en los mencionados modelos de RI, pero nada sustituye, hoy por hoy, a un operador humano, que sí que puede interpretar símbolos y reconocer temas por debajo de la estructura superficial de un texto. Por el momento, ningún sistema automático es capaz de ofrecer un mecanismo fiable para detectar, por ejemplo, que un documento donde se explica "lo cara que está la vida", está hablando de inflación.

Por este motivo diversas investigaciones vienen confirmando que, hoy por hoy, las técnicas de indización automáticas y la ordenación por relevancia son métodos complementarios, antes que excluyentes, respecto a la indización intelectual (Carol Tenopir y J. S. Ro, 1990; David C. Blair, 1990; Susanne M. Humphrey, 1994), también denominada, por su poder para eludir la estructura superficial de los documentos, indización conceptual". 1

Bibliografía

Blair, D.C. 1990. Language and representation in information retrieval. Amsterdam: Elsevier, 1990, 335 p.

Codina, Lluís. 1995. "Recuperación de información e hipertextos: sus bases lógicas y su aplicación a la Documentació periodística". En: Fuentes, M. Eulàlia (editora). Manual de Documentación periodística. Madrid: Síntesis, 1995, p. 212‑230

Frakes, W. B.; Baeza‑Yates, R. (editors). 1992. Information retrieval: data structures & algorithms. Englewood Cliffs: Prentice Hall, 1992, 504 p.

Harman, D. 1992. "Ranking algorithms". En: Frakes, W. B.; Baeza‑Yates, R. (editors). Information retrieval: data structures & algorithms. Englewood Cliffs: Prentice Hall, 1992, p. 363‑392

Harman, D. 1994. "Automatic indexing". En: Fidel, Raya et al.(editors). Challenges in indexing electronic text and images. Medford, NJ: Learned Information, 1994, p. 247‑264.

Humphrey, S. M. "Knowledge-based systems for indexing". En: Fidel, Raya et al.(editors). Challenges in indexing electronic text and images. Medford, NJ: Learned Information, 1994, p. 161-175.

Salton, G. 1989. Automatic text processing: the transformation, analysis, and retrieval of information bycomputer. Reading (MA): Addison‑Wesley, 1989, 530 p.

Salton, G.; McGill, M. J. 1983. Introduction to modern information retrieval. Tokyo: McGraw‑Hill, 1983, 448 p.

Silvester, J. P.; Genuardi, M. T. 1994. "Machine aided indexing from the analysis of natural language text". En: Fidel, Raya et al.(editors). Challenges in indexing electronic text and images. Medford, NJ: Learned Information, 1994, p. 201-219.

Tenopir, C.; Ro, J. S. 1990. Full text databases. New York: Greenwood Press, 1990, 252 p.

Turing, A. M. Mechanical intelligence. Selección de trabajos de Alan Mathison Turing (1912-1954). D. C. Ince(editor). Amsterdam: North Holland/Elsevier, 1992, 227 p.

Van Rijsbergen, C. J. Information retrieval (2nd ed.). London: Butterworths, 1979, 208 p.

Von Neumann, J. Papers of John von Neumann (1903-1957) on computing and computer theory. Aspray, W. y Burks, A. W. (editors). Charles Babbage Institute reprint series for the history of computing, v. 12. Cambridge, Mass.: MIT Press. Los Angeles: Thomas Publishers, 1987, 624 p.

Artículo completo disponible: http://www.elprofesionaldelainformacion.com/contenidos/1995/octubre/teora_de_recuperacin_de_informacin_modelos_fundamentales_y_aplicaciones_a_la_gestin_documental.html

CODINA, Lluis. Teoría de recuperación de información: modelos fundamentales y aplicaciones a la gestión documental. Disponible en: http://www.elprofesionaldelainformacion.com/contenidos/1995/octubre/teora_de_recuperacin_de_informacin_modelos_fundamentales_y_aplicaciones_a_la_gestin_documental.html
Consultado el 18 de septimbre de 2010.

Buscar este blog

CONTADOR DE VISITAS

sábado, 18 de septiembre de 2010

Teoría de recuperación de información: modelos fundamentales y aplicaciones a la gestión documental

No hay comentarios:

Posicionamiento Web

Etiquetas