RECUPERACIÓN DE INFORMACIÓN: septiembre 2010

domingo, 19 de septiembre de 2010

Extensión de un documento

Estas son las extensiones de archivos necesarios para el funcionamiento interno del sistema operativo Microsoft Windows así como de los diferentes programas que trabajan en el.

Extensión	Corresponde a	Extensión	Corresponde a
.386	Controlador de dispositivo virtual	.aca	Microsoft Agent Character
.acg	Vista previa de Microsoft Agent	.acs	Microsoft Agent Character
.acw	Configuración del asistente de accesibilidad	.ani	Cursor animado
.bat	Archivo por lotes MS-DOS	.bfc	Maletín
.bkf	Copia de seguridad de Windows	.blg	Monitor del sistema
.cat	Catálogo de seguridad	.cer	Certificado de seguridad
.cfg	Configuraciones	.chk	Fragmentos de archivos recuperados
.chm	Ayuda HTML compilado	.clp	Clip de Portapapeles
.cmd	Secuencia de comandos de Windows NT	.cnf	Velocidad de marcado
.com	Aplicación MS-DOS	.cpl	Extensión del Panel de control
.crl	Lista de revocaciones de certificados	.crt	Certificado de seguridad
.cur	Cursor	.dat	Base de Datos
.db	Base de datos	.der	Certificado de seguridad
.dll	Librería, extensión de aplicación	.drv	Controlador de dispositivo
.ds	TWAIN Data Source file	.dsn	Nombre del origen de datos
.dun	Acceso telefónico de red	.exe	Aplicación
.fnd	Búsqueda guardada	.fng	Grupo de fuentes
.folder	Carpeta	.fon	Fuente
.grp	Grupo de programas de Microsoft	.hlp	Ayuda
.ht	HyperTerminal	.inf	Información de instalación
.ini	Opciones de configuración	.ins	Configuración de comunicaciones de Internet
.isp	Configuración de comunicaciones de Internet	.job	Objeto de tarea
.lnk	Acceso directo	.msc	Documento de la consola común de Microsoft
.msi	Paquete de Windows Installer	.msp	Revisión de Windows Installer
.msstyles	Estilo visual de Windows	.nfo	MSInfo
.ocx	Control ActiveX	.otf	Fuente OpenType
.p7c	Identificador digital	.pfm	Fuente Type 1
.pif	Acceso directo a programa MS-DOS	.pko	Objeto de seguridad de claves públicas
.pma	Archivo del Monitor de sistema	.pmc	Archivo del Monitor de sistema
.pml	Archivo del Monitor de sistema	.pmr	Archivo del Monitor de sistema
.pmw	Archivo del Monitor de sistema	.pnf	Información de instalación precompilada
.psw	Password Backup	.qds	Directorio de consulta
.rdp	Conexión a Escritorio remoto	.reg	Entradas de registro
.scf	Windows Explorer Command	.scr	Protector de pantalla
.sct	Windows Script Component	.shb	Acceso directo a documento
.shs	Recorte	.sys	Archivo de sistema
.theme	Tema de Windows	.tmp	Archivo temporal
.ttc	Fuente True Type	.ttf	Fuente TrueType
.udl	Vínculos a datos	.vxd	Controlador de dispositivo virtual
.wam	Libreta de direcciones	.wmdb	Biblioteca multimedia
.wme	Windows Media Encoder Session	.wsc	Windows Script Component
.wsf	Windows Script File	.wsh	Windows Script Host Settings File
.zap	Configuración de instalación de software	.bat	Aplicacion de MSDos archivo por lotes

Extensiones de audio

Los archivos de audio son aquellos que reproducen sonido al ser ejecutados. Los más comunes son:

Extensión	Corresponde a
.mp3	Formato de audio digital comprimido.
.mid o .midi	Interfaz Digital de Instrumentos Musicales.
.wav	Formato de audio digital, normalmente sin comprimir.
.wma	Formato de audio digital comprimido, propiedad de Microsoft.
.cda	Formato digital CD de audio.
.ogg	Formato contenedor multimedia.
.ogm	Formato contenedor multimedia.
.aac	Formato de sonido mejorado
.ac3	Formato de sonido HD

"XML es un Lenguaje de Etiquetado Extensible muy simple, pero estricto que juega un papel fundamental en el intercambio de una gran variedad de datos. Es un lenguaje muy similar a HTML pero su función principal es describir datos y no mostrarlos como es el caso de HTML. XML es un formato que permite la lectura de datos a través de diferentes aplicaciones.

Las tecnologías XML son un conjunto de módulos que ofrecen servicios útiles a las demandas más frecuentes por parte de los usuarios. XML sirve para estructurar, almacenar e intercambiar información

Entre las tecnologías XML disponibles se pueden destacar:

XSL : Lenguaje Extensible de Hojas de Estilo, cuyo objetivo principal es mostrar cómo debería estar estructurado el contenido, cómo debería ser diseñado el contenido de origen y cómo debería ser paginado en un medio de presentación como puede ser una ventana de un navegador Web o un dispositivo móvil, o un conjunto de páginas de un catálogo, informe o libro.

XPath : Lenguaje de Rutas XML, es un lenguaje para acceder a partes de un documento XML.

XLink : Lenguaje de Enlace XML, es un lenguaje que permite insertar elementos en documentos XML para crear enlaces entre recursos XML.

XPointer : Lenguaje de Direccionamiento XML, es un lenguaje que permite el acceso a la estructura interna de un documento XML, esto es, a sus elementos, atributos y contenido.

XQL : Lenguaje de Consulta XML, es un lenguaje que facilita la extracción de datos desde documentos XML. Ofrece la posibilidad de realizar consultas flexibles para extraer datos de documentos XML en la Web".1

1) W3C. Guía breve de tecnologías XML. Disponible en: http://www.w3c.es/divulgacion/guiasbreves/tecnologiasxml. Consultado el 19 de Septiembre de 2010.

sábado, 18 de septiembre de 2010

Herramientas de la recuperación y organización de la información en internet

En internet, disponemos de diversas herramientas de recuperación y organización de la información. Tales como:

Buscadores

Son aquellas herramientas de recuperación y organización de la información que nos permiten la localización y recuperación de la información contenida en internet. El funcionamiento es muy similar a una base de datos, ya que estas almacenan las páginas con metadatos,

Directorios:

Los directorios son herramientas de recuperación y organización de la información, ya que en ellos contienen listas organizadas que nos permite acceder a la información de forma estructurada y jerárquica. Están clasificadas en categorías y el usuario recupera de lo más general a lo más específico.

Metabuscadores:

Tienen como característica que no sólo buscan en una única base de datos, sino que al introducir un concepto analiza la información contenida en diferentes bases de datos, de esta manera recupera la mayor cantidad de datos encontrados.

Buscadores selectivos.

Es una herramienta de recuperación y acceso a la información que utilizan una base de datos especializada en una materia.

Agentes inteligentes.

Son herramientas que permiten la recuperación de la información de forma automática, para ello necesita que se le definan un perfil de búsqueda y donde debe lanzarla tales como bases de datos, sitios web, de tal manera que va presentado un informe sobre la nueva información que va surgiendo

Teoría de recuperación de información: modelos fundamentales y aplicaciones a la gestión documental

"La teoría de recuperación de información es una especialidad académica con una (relativamente) larga tradición en Estados Unidos, donde se cultiva en las universidades y los laboratorios por lo menos desde los años 60.

Conceptualmente, la recuperación de información (RI en adelante) es una operación que consiste en la interpretación de una necesidad de información con el fin de seleccionar los documentos más relevantes capaces de solucionarla.

Sin embargo, esta aparente sencillez conceptual encierra diversos problemas cognitivos que distan mucho de ser sencillos, a saber:

•identificar y representar necesidades de información;

•identificar y representar el conocimiento contenido en documentos;

•seleccionar los documentos más relevantes de acuerdo con los dos problemas anteriores;

•mostrarlos al usuario.

La teoría de RI estudia el desarrollo de modelos conceptuales relacionados con las cuatro operaciones mencionadas, con el objeto de facilitar no sólo su adecuada comprensión, sino también para facilitar su automatización mediante el uso de ordenadores.

Desde que los ordenadores se utilizan en documentación las operaciones de RI forman el núcleo de la cadena documental, siendo además aquí donde adquieren sentido (en gestión de información cognitiva, es decir, de información cultural, científica o técnica), y no, en cambio, en la gestión de datos o de documentos administrativos. Por este motivo, aunque la RI es un campo interdisciplinar en el que intervienen matemáticos, informáticos, psicólogos, documentalistas, etc., su identificación con la Documentación y la Biblioteconomía es mayor que con otras ciencias o profesiones.

Ahora se recogen sus frutos

En cualquier caso, y después de muchos años de mantenerse casi como un entretenimiento académico o como una curiosidad de laboratorio, la teoría de recuperación de información ha saltado a la más candente actualidad tecnológica debido a estos dos hechos:

1º A partir del aumento incesante de potencia de los microordenadores y de su paralelo abaratamiento, cada vez más empresas de productos de gestión documental han decidido incorporar en sus programas alguno de los fundamentos teóricos de la recuperación de información. De esta manera están introduciéndose de una forma casi imperceptible en el mercado de consumo a través, por ejemplo, de programas como Acrobat (Adobe) y Notes (Lotus); pero también a través de programas más especializados en gestión documental como Personal Librarian (CSi), PC Search (Chemdata) y BasisPlus (Centrisa).

2º El aumento de la oferta informativa de Internet ha provocado la imperiosa necesidad de instrumentos que sean capaces de filtrar la información para separarla del simple ruido. Para ello, muchos sistemas de búsqueda en Internet ponderan la relevancia de los ítemes de información encontrados para poder ofrecerlos a los usuarios en un orden no aleatorio, e incluso para rechazar aquellos que no superen un determinado umbral de utilidad esperada que puede fijar el usuario. Esa filosofía es deudora de la teoría de RI y de su concepto de relevancia, así como de los algoritmos que utilizan esos programas para filtrar la información.

Investigación teórica en documentación

En lo que sigue, se examinarán los fundamentos de la RI y se discutirá su aplicación a la gestión documental, pero antes parece oportuno discutir la utilidad de la teoría en documentación y, en general, en cualquier ámbito científico o profesional.

Digamos, de paso, que resulta doloroso comprobar con cuánta frecuencia en nuestro país se utilizan los términos "académico" o "teórico" como descalificación, como sinónimos de algo superfluo, inútil o, simplemente, de pérdida de tiempo; asociación de ideas que dice más bien poco sobre nuestra cultura científica, nuestro respeto por la ciencia básica o sobre el concepto que se tenían ganado nuestras universidades.

Sin embargo, es sabido que sin trabajos teóricos y sin académicos que los cultiven, no existen modelos conceptuales, y sin modelos conceptuales no existen después desarrollos profesionales ni industriales. Crudamente: por muy importante que sea la ciencia aplicada, ningún país del mundo le aportará jamás nada si antes no es capaz de cultivar la ciencia básica.

Por ejemplo, sin modelos teóricos, y absolutamente académicos, como los que desarrollaron Alan Mathison Turing en los años 30 y John Von Neumann en los 40, no hubieran existido los primeros ordenadores de los años 50 y, por ende, los muy pragmáticos microordenadores actuales, que siguen todavía los modelos mencionados.

Fundamentos de recuperación de información

Según el modelo más aceptado actualmente, la recuperación de información consiste en un proceso en el que intervienen tres elementos:

•una colección de ítemes de información, tales como documentos, que están registrados en un depósito de información (por ejemplo en una base de datos),

•una serie de preguntas que traducen las necesidades de información de los usuarios y, finalmente,

•una función de comparación documentos/preguntas que genera como salida documentos relevantes (véase la fig. 1). Recuperar información, entonces consiste en buscar los documentos que exhiben un mayor parecido con la pregunta.

La hipótesis subyacente en el modelo anterior es que una forma de juzgar la relevancia de un documento es medir su grado de similitud con la pregunta, y que la forma de representar ambas entidades (preguntas y documentos) es mediante el uso de información textual, aunque las entidades en sí mismas no sean textuales.

En general, para comparar el grado de parecido entre dos entidades es necesario identificar algún grupo de propiedades medibles y después establecer un procedimiento que permita calcular cuántas de éstas propiedades comparten ambas entidades.

Aplicaciones actuales de la teoría de RI

Aparte de su posible elegancia intelectual, ¿qué aplicaciones tienen estas teorías y formalismos? Por lo pronto, cada vez más sistemas de gestión documental como los citados al principio han decidido incorporar, de una manera más o menos transparente, el cálculo de relevancia al preparar los documentos para presentarlos al usuario, en lugar de presentar los documentos aleatoriamente; otro tanto sucede con los principales distribuidores de bases de datos documentales (Dialog, por ejemplo, con su instrucción target).

Otra aplicación muy conocida de los principios enunciados podemos verla en los sistemas de búsqueda tipo Wais que actúan en Internet. La mayoría de estos servicios de localización de información, incluyendo los así llamados agentes inteligentes (herederos de los fantasmales knowbots, v. IWE-7, septiembre de 1992, p. 9), utilizan métodos de ponderación del grado de relevancia de las informaciones recuperadas antes de mostrarlas a los usuarios. En el caso de Internet, es costumbre que tales servicios o agentes asignen un número arbitrario al ítem de información más relevante, por ejemplo, 1000, y los demás ítemes adquieren entonces un número que expresa su importancia relativa respecto al primero.

En general, la idea que subyace tras estas ordenaciones es más sutil e importante de lo que parece si se examina con cuidado. Cuando un usuario formula una pregunta a una base de datos documental espera recuperar una cantidad n de documentos que satisfagan su necesidad de información. Pero el valor de n es desconocido, pueden ser dos o tres documentos, o pueden ser miles.

La situación habitual ante una gran cantidad de documentos recuperados consiste en utilizar nuevos términos de búsqueda combinados por operadores booleanos, para ir restringiendo el número total, y dejarlo así por debajo del punto de inutilidad (David C. Blair, 1990), es decir, por debajo de aquella cantidad de información que el usuario preferirá no leer, dado su volumen.

Sin embargo, para que la operación anterior tenga éxito, debe tenerse un buen conocimiento de la base de datos, un buen dominio de la lógica booleana y un buen conocimiento del tema de búsqueda, además de tiempo y paciencia y, al final, puede que las operaciones booleanas reduzcan el tamaño del conjunto recuperado a costa de perder documentos relevantes (Blair, 1990).

En cambio, con la ordenación por grado de relevancia, no importa lo grande que sea el número de documentos recuperados; el usuario sabe que justo los primeros son los más relevantes y, por tanto, le bastará con atender sólo a aquellos documentos que hayan superado un cierto umbral de relevancia, y como el primer documento es el más pertinente, el segundo lo es sólo un poco menos, etc. Él puede situar el umbral donde crea conveniente, según el tiempo de que disponga, el tamaño de los documentos, la complejidad del tema, etc.

Importancia del orden en que lee el usuario

Vista desde tres observaciones:

1. La ordenación por grado de relevancia será tan eficiente como lo sea el algoritmo o el modelo conceptual que se encuentre tras ella. Un algoritmo poco refinado que, por ejemplo, sólo tenga en cuenta el número absoluto de ocurrencias de cada documento, dará resultados muy pobres e incluso sorprendentemente erróneos.

2. La ordenación de relevancia no sustituye, necesariamente, la recuperación por medio de operadores booleanos, sino que es un medio para entregar los resultados ordenados por un criterio mucho más riguroso que el simple azar. En ocasiones, la búsqueda asociativa, que es como se denomina a la utilización del cálculo de relevancia como alternativa a los operadores booleanos, puede ser muy útil, pero en ocasiones puede no serlo tanto. En ese caso, la relevancia debe considerarse exclusivamente como un factor de clasificación más racional que el orden aleatorio. Es la estrategia que adoptan, por ejemplo, sistemas como Notes, Acrobat, PC Search y BasisPlus, los cuales no dejan de lado el álgebra de Boole para preparar ecuaciones de búsqueda, pero ordenan por defecto, y de manera transparente al usuario, los documentos recuperados según alguno de los algoritmos de relevancia mencionados.

3. Hay que recordar que los ordenadores actuales no son capaces de interpretar símbolos, sino que se limitan a leer y a comparar cadenas de caracteres.

Los modelos de la RI sólo pueden paliar un poco la total falta de inteligencia de los ordenadores actuales, intentando darles algo de la experiencia y del conocimiento de los profesionales de la documentación. Parte de esta experiencia es la que se encuentra encapsulada en los mencionados modelos de RI, pero nada sustituye, hoy por hoy, a un operador humano, que sí que puede interpretar símbolos y reconocer temas por debajo de la estructura superficial de un texto. Por el momento, ningún sistema automático es capaz de ofrecer un mecanismo fiable para detectar, por ejemplo, que un documento donde se explica "lo cara que está la vida", está hablando de inflación.

Por este motivo diversas investigaciones vienen confirmando que, hoy por hoy, las técnicas de indización automáticas y la ordenación por relevancia son métodos complementarios, antes que excluyentes, respecto a la indización intelectual (Carol Tenopir y J. S. Ro, 1990; David C. Blair, 1990; Susanne M. Humphrey, 1994), también denominada, por su poder para eludir la estructura superficial de los documentos, indización conceptual". 1

Bibliografía

Blair, D.C. 1990. Language and representation in information retrieval. Amsterdam: Elsevier, 1990, 335 p.

Codina, Lluís. 1995. "Recuperación de información e hipertextos: sus bases lógicas y su aplicación a la Documentació periodística". En: Fuentes, M. Eulàlia (editora). Manual de Documentación periodística. Madrid: Síntesis, 1995, p. 212‑230

Frakes, W. B.; Baeza‑Yates, R. (editors). 1992. Information retrieval: data structures & algorithms. Englewood Cliffs: Prentice Hall, 1992, 504 p.

Harman, D. 1992. "Ranking algorithms". En: Frakes, W. B.; Baeza‑Yates, R. (editors). Information retrieval: data structures & algorithms. Englewood Cliffs: Prentice Hall, 1992, p. 363‑392

Harman, D. 1994. "Automatic indexing". En: Fidel, Raya et al.(editors). Challenges in indexing electronic text and images. Medford, NJ: Learned Information, 1994, p. 247‑264.

Humphrey, S. M. "Knowledge-based systems for indexing". En: Fidel, Raya et al.(editors). Challenges in indexing electronic text and images. Medford, NJ: Learned Information, 1994, p. 161-175.

Salton, G. 1989. Automatic text processing: the transformation, analysis, and retrieval of information bycomputer. Reading (MA): Addison‑Wesley, 1989, 530 p.

Salton, G.; McGill, M. J. 1983. Introduction to modern information retrieval. Tokyo: McGraw‑Hill, 1983, 448 p.

Silvester, J. P.; Genuardi, M. T. 1994. "Machine aided indexing from the analysis of natural language text". En: Fidel, Raya et al.(editors). Challenges in indexing electronic text and images. Medford, NJ: Learned Information, 1994, p. 201-219.

Tenopir, C.; Ro, J. S. 1990. Full text databases. New York: Greenwood Press, 1990, 252 p.

Turing, A. M. Mechanical intelligence. Selección de trabajos de Alan Mathison Turing (1912-1954). D. C. Ince(editor). Amsterdam: North Holland/Elsevier, 1992, 227 p.

Van Rijsbergen, C. J. Information retrieval (2nd ed.). London: Butterworths, 1979, 208 p.

Von Neumann, J. Papers of John von Neumann (1903-1957) on computing and computer theory. Aspray, W. y Burks, A. W. (editors). Charles Babbage Institute reprint series for the history of computing, v. 12. Cambridge, Mass.: MIT Press. Los Angeles: Thomas Publishers, 1987, 624 p.

Artículo completo disponible: http://www.elprofesionaldelainformacion.com/contenidos/1995/octubre/teora_de_recuperacin_de_informacin_modelos_fundamentales_y_aplicaciones_a_la_gestin_documental.html

CODINA, Lluis. Teoría de recuperación de información: modelos fundamentales y aplicaciones a la gestión documental. Disponible en: http://www.elprofesionaldelainformacion.com/contenidos/1995/octubre/teora_de_recuperacin_de_informacin_modelos_fundamentales_y_aplicaciones_a_la_gestin_documental.html
Consultado el 18 de septimbre de 2010.

viernes, 17 de septiembre de 2010

VISUALIZACIÓN EN SISTEMAS DE RECUPERACIÓN DE INFORMACIÓN

La visualización de la información puede tener dos finales: descubrir nuevos conocimientos y comunicar los ya existentes. El primero se refiere a la visualización científica; el segundo está en línea del diseño de la información y pretende alcanzar unos fines más didácticos, pues su objetivo es presentar la información de forma que sea más clara para las personas.

Para Dursteler define la visualización como “formación mental de un concepto abstracto” y “el proceso de interiorización del conocimiento mediante la percepción de información mediante la elaboración de datos”.

Así se puede decir que la visualización de la información se presenta por medio de gráficos, texto, escritos, sonidos, animaciones, beneficiando a las personas que reciben información de forma preferentemente visual ya que este sentido es que proporciona mayor cantidad de información. Donde se incluyen algunos subtemas como el diseño o arquitectura de información, visualización científica y representaciones graficas.

La visualización empezó a utilizarse en la bibliotecología para estudios bibliométricos y cienciométricos con el fin de observar una visión del estado de la ciencia en determinadas disciplinas, el ISI (Information Science Institute ), es una herramienta que recoge los índices de citación de revistas más prestigiosas.

En el ámbito de las interfaces visuales de recuperación de información se conoce como con el acrónimo VIRIS (Visual Information Retrieval Interfaces)a las presentaciones que recurren a dichas técnicas para mostrar la información de una base de dato.

MARCOS, Mari Carmen. Interacción en interfaces de recuperación de información. España: Ediciones Trea,, 2004.

La recuperación de datos, un arma de doble filo

"Existen numerosas herramientas de recuperación en el mercado. Estas herramientas tienen como principal finalidad recuperar el máximo de información posible ante un incidente determinado: el caso típico es el intento de recuperación de información de un disco duro con averías lógicas y/o físicas, con la intención de salvaguardar la mayor cantidad de datos posibles, en previsión de la posible inutilización del dispositivo sometido a recuperación.

No sólo es posible recuperar datos de discos duros. También es posible recuperar datos de otros medios, como por ejemplo, memorias flash de odo tipo. Otros medios de almacenamiento ópticos y magneto-ópticos también son susceptibles de que al menos, intentemos la recuperación en caso de incidencia: es tan factible recuperar datos de un disco duro, como de una Compact flash, Smart Media, tarjetas SD y xD o de

una memoria USB.

En términos de efectividad, es frecuente obtener mejores recuperaciones de las averías lógicas que en las averías físicas. Así pues, los errores de usuario, los borrados intencionados y el sabotaje y/o la acción del malware destructivo pueden ser considerados como averías lógicas. Un ejemplo de avería física puede ser la colisión de las cabezas del disco duro con los platos (head crash), las deformaciones por impacto o cambios térmicos bruscos, o los daños en la electrónica y mecánica (la ruptura de un motor en un disco duro).

Los problemas de seguridad y confidencialidad surgen cuando no se han contemplado medidas efectivas para prever las recuperaciones no deseadas. Escenarios posibles hay muchos, y muy frecuentes, no sólo en

el ámbito empresarial, sino en el doméstico. Cuando la recuperación es controlada y sobre todo, efectuada con el único propósito de salvaguardar nuestra información para ser reutilizada, no hay problema. Pero esto no siempre es así. Al igual que nosotros, otros sin nuestro beneplácito pueden ser los ejecutores de procedimientos de recuperación no deseados.

En entornos organizativos, la aplicación de los requisitos de la Ley Orgánica de Protección de Datos de Carácter Personal (LOPD) puede prevenir los supuestos de recuperación indeseada: el establecimiento de políticas de destrucción segura, así como contratos con proveedores e destrucción y en general, el imperativo legal de contemplar la gestión de soportes, pueden prevenir la revelación no deseada de información. Disponer de sistemas de gestión de seguridad de la información puede ser útil igualmente, ya que contemplan controles para la gestión segura de los soportes. Así pues, para ISO 17799:2005.

De todos modos sigue siendo frecuente que muchas empresas arrojen sus Terminales obsoletos, así como CDs, DVDs y otros medios a los contenedores de basura, muchas veces situados en la vía pública, lo que favorece técnicas poco ortodoxas de espionaje como el "dumpster diving" o buceo en la basura, consistente básicamente en escrutar los deshechos para recuperar no sólo papel, sino en el caso que nos ocupa, oportes de almacenamiento como discos duros, DVDs, CDs cintas streamer, etc., sobre los que es posible ejecutar acciones de recuperación en busca de material restringido y confidencial.

En entornos domésticos deben extremarse las precauciones, no sólo cuando queremos destruir soportes o deshacernos de un ordenador que ha quedado inservible, sino sobre todo cuando se compra y vende el material en sitios online".1

1) HISPASEC SERVICIOS. La recuperación de datos, un arma de doble filo. Diponible en: http://www.hispasec.com/unaaldia/2715/. Consultado 17 de Septiembre de 2010.

MÉTODOS DE RECUPERACIÓN DE INFORMACÓN

HISTORIA DE LA RECUPERACIÓN DE INFORMACIÓN

La idea de utilizar los ordenadores para buscar fragmentos relevantes de información se popularizó en el artículo "As we may think" de Vannebar Bush en 1945. Las primeras implementaciónes de mecanismos de recuperación de información fueron desarrolladas en las décadas de los 50 y 60.

En 1992, el Departamento de Defensa de EEUU, junto con el Instituto Nacional de Estándares y Tecnología (NIST), patrocinó la Conferencia de Recuperación de Texto (TREC). El objetivo de este programa fue proporcionar a la comunidad dedicada a la recuperación de información la infraestructura necesaria para la evaluación de metodologías de recuperación en una colección muy amplia de textos. Esto originó la investigación de métodos escalables a conjuntos enormes de información. La aparición de los motores de búsqueda vía web (como Google o Yahoo) ha hecho más necesaria todavía si cabe la necesidad de disponer de sistemas de recuperación y organización de información a gran escala.

Algunos de los hitos de la recuperación de información son:

* 1890: Máquinas automáticas se emplean para analizar el censo de EEUU.

* Finales de los 40: El ejército de EEUU. se enfrenta al problema de abordar la recuperación y organización de la información científica de los documentos capturados a los Alemanes en la Segunda Guerra Mundial.

* 1945: El artículo "As We May Think" de Vannevar Bush aparece en la publicación "Atlantic Monthly"

* Década de los 1950: La preocupación creciente acerca de la creación de una brecha científica respecto a la URSS provoca un aumento en la financiación y con ello una base para los sistemas mecánicos de búsqueda en literatura y la aparición de la indexación de citas en publicaciones (Eugene Garfield).

* 1950: Calvin Mooers acuña el termino "recuperación de información"

* 1955: Allen Kent junto con algunos colegas publican un documento describiendo un marco de trabajo para la evaluación de sistemas de recuperación de información, describiendo las métricas de precisión y recall e incluyendo métodos de muestreo estadístico para estimar el número de documentos relevantes no recuperados

* 1962:Cyril W. Cleverdon publica los primeros resultados de las investigaciones sobre el conjunto Cranfield, desarrollando un modelo para la evaluación de sistemas de recuperación de información. Por otro lado, Kent publica "Information Analysis and Retrieval"

* 1969: El artículo de J.W.Sammon "A nonlinear mapping for data structure analysis" incluye la primera propuesta para un posible interfaz visual de un sistema de recuperación de información.

* 1989: Primeras propuestas de la WWW por Tim Berners-Lee en el CERN.

* 1992: Primera conferencia TREC."

SJDC. Historia de la recuperación de Información. Disponible en: http://www.recuperacioninformacion.com/. Consultado el 17 de septiembre de 2010.

RECUPERACIÓN DE LA INFORMACIÓN

"Una de las operaciones fundamentales dentro de un sistema de información documental. Refiere al conjunto de procedimientos encaminados a obtener datos, documentos e informaciones especialmente definidos y calificados de una base, para satisfacer las necesidades específicas de un usuario"

Diccionario de organización y representación del conocimiento. Recuperación de la información. Diponible: http://www.eubca.edu.uy/diccionario/letra_t.htm. Consulta 17 de Septiembre de 2010

TÉRMINO DE BÚSQUEDA

"En Recuperación de Información, término que expresa una consulta en el lenguaje y formato adecuados para un sistema específico. Estos términos suelen combinarse para formar una ecuación de búsqueda"

Diccionario de organización y representación del conocimiento. Término de búsqueda, Diponible: http://www.eubca.edu.uy/diccionario/letra_t.htm. Consulta 17 de Septiembre de 2010

jueves, 16 de septiembre de 2010

Relación de la ciencia de la documentación y recuperación de información

Para ubicar la recuperación de información dentro de la ciencia de la documentación es necesario abordar el concepto presentado por José López Yepes, como: "Como conjunto de las disciplinas documentarias que estudian y ejecutan los diversos aspectos del proceso documental (Archivística, Biblioteconomía, Documentación, Museología, Bibliografía, etcétera). En este sentido, la denominación equivaldría a la de Ciencias de la Documentación".

En este sentido Ciencias de la Documentación se define como: " el conjunto de disciplinas que tienen por objeto el estudio de un proceso informativo en el que se da una actividad de recuperación de mensajes emitidos en procesos anteriores y que, mediante análisis y tratamiento técnico, se comunican transformados con la finalidad de que sirvan de fuente de información para la obtención de nuevo conocimiento o para la toma de decisiones".

Documentación es : "una de las Ciencias de la Documentación que tiene como objeto de estudio aquella parte del proceso documental consistente en la recuperación y difusión de mensajes documentales y su aprovechamiento por parte del sujeto receptor o usuario a fin de que sirvan de base para la obtención de nuevo conocimiento o para la toma de decisiones".

En ambas definiciones aparece el término “recuperación”. En la primera, como actividad común que se realiza en todas las disciplinas de las ciencias de la documentación, pero aún podemos ir más allá siguiendo a Lancaster, quien sostiene que es la principal actividad en los centros o servicios de información, incluidas las bibliotecas o cualquier otro tipo de servicio que proporcione los recursos de información a una población de usuarios. La segunda definición coincide casi plenamente con los conceptos y el objetivo de la recuperación de información que se han expuesto anteriormente.

FUENTE:

SALVADOR OLIVÁN, José Antonio. Una aproximación al concepto de recuperación de información en el marco de la ciencia de la documentación. En: Investigación bibliotecológica. Vol, 20; N° 41, 2006

MOTORES DE BÚSQUEDA PARA RECUPERAR INFORMACIÓN

Los motores de búsqueda almacenan en sus bases de datos gran cantidad de páginas web, que se encuentran localizadas en su mayor parte por elementos informáticos llamados robots, cuya misión es saltar de página web en página web utilizando hiperenlances. Las páginas almacenadas son sometidas a procesos informáticos, a los cuales a cada una de ellas se le asigna una serie de términos representativos de sus contenido. Estos términos son utilizados posteriormente para la búsqueda de información.

De la automatización del proceso de análisis de contenido de las páginas web se deriva una serie de características que sirven para diferenciar a los motores de búsqueda de los índices temáticos. En los motores de búsqueda las paginas almacenadas no están clasificados temáticamente, por ello no se pueden realizar búsquedas jerarquizadas utilizando la clasificación temática como punto de apoyo.

El punto débil de los motores de búsqueda es el orden de la presentación de los resultados. Los motores contienen en sus bases de datos tal cantidad de URL, que en la mayoría de los casos la respuesta a una búsqueda suele contener millones de páginas. La introducción por parte de Google es de un nuevo criterio denominado Pagerank, según el cual una página es más valorada cuanto mayor sea el número de páginas que enlazan con ella, lo cual permite que Pagerank determine el orden en que deben aparecer aquellas páginas que contienen los criterios expresados en una búsqueda y un mayor número de enlaces es lo que hace más relevante la búsqueda y recuperación de información.

Fuente:
CONSEJO SUPERIOR DE INVESTIGACIONES CIENTÍFICAS. La información especialiada en Internet. Madrid: Consejo superior de investigaciones científicas, 2006.

El proceso creativo de la interfaz del sistema de gestión de la información

"Muchas veces el sistema de gestión de la información (SGI) es conocido por los usuarios cuando está en funcionamiento, lo que puede ocasionar dificultades en la recuperación de la información, principalmente si existe una discrepancia entre las necesidades y expectativas de los usuarios y la representación de la tarea en la interfaz. Este trabajo ilustra la concepción de la interfaz del SGI teniendo en cuenta al usuario, la tarea (modelo mental) y la realización de la tarea (actividad), con el soporte de la ergonomía cognitiva, el diseño emocional, la usabilidad y la evaluación del proyecto de la interfaz desde el inicio. Para esto se aplicaron técnicas tales como el análisis de la tarea y la actividad, la observación sistemática, el prototipaje en papel, el grupo objetivo, el cuestionario, la entrevista y la ordenación de tarjetas. La aplicación de estas técnicas tuvo como fundamento la lógica de los usuarios, de los analistas y de los profesionales de la información, lo que puede propiciar la creación y la aplicación de recomendaciones, para agregar valor a la comprensión y al análisis de los aspectos involucrados en la concepción de la interfaz del SGI y favorecer el aumento de la satisfacción de los usuario".

FUENTE:

Kafure, Ivette. El proceso creativo de la interfaz del sistema de gestión de la información. En: Revista Interamericana de Bibliotecología, Vol 33, No. 1 (2010).

Disponible articulo completo en:

http://aprendeenlinea.udea.edu.co/revistas/index.php/RIB/article/view/6286/5806

"Gestión" de información personal, no sólo "recuperación" de información personal

Realiza una comparación de las características y los comportamientos de la gente al clasificar, recuperar y archivar objetos materiales y objetos digitales. Donde existe poca oferta de herramientas –y también poco interés– para clasificar los objetos digitales de forma que posteriormente permitan una fácil interacción con ellos, así como reflexionar al revisarlos. Gracias al abaratamiento de las memorias informáticas se tiende a guardar todo sin ordenar, y se confía –erróneamente– sólo en un buen sistema de recuperación. Hay que investigar mucho más en los sistemas de gestión de información personal (PIM).

FUENTE:

BARREAU, Deborah. "Gestión" de información personal, no sólo "recuperación" de información personal. En: El profesional de la información. Julio-agosto 2009, vol. 18, núm. 4

miércoles, 15 de septiembre de 2010

HERRAMIENTAS DE LOCALIZACIÓN DE RECURSOS DE INFORMACIÓN EN INTERNET

El gran crecimiento de la información disponible en internet ha permitido la utilización de herramientas que permitan realizar búsquedas y recuperación de información sobre temas concretos que están almacenados en diferentes páginas web. Todas estas herramientas recogen información de las páginas y las almacenan en bases de datos-

Algunos de estos recursos de información en internet son:

Directorios o índices temáticos

Ordena los recursos de internet de acuerdo a la clasificación temática, lo cual permite al sistema la recuperación de la información de forma jerarquizada apoyada en una clasificación general. La búsqueda del directorio empieza con una lista hipertextual de categorías.

La mayoría de estos índices presentan formularios para realizar consultas directas de tal manera que le permitan al usuario preguntar por lo que está buscando. Las posibilidades de búsqueda están dadas por operadores o campos disponibles para las búsquedas.

Los recursos existentes en índices o directorios son analizados de forma manual o por especialistas que tratan nuevas URLs, para este caso las URLs de ben ir acompañadas de una serie de datos para completar la información solicitada.

Este tipo de herramientas, recupera son recursos de información o primeras páginas que dan entrada a la información de un determinada tema, cada información recuperada va acompañada de un titulo representativo, contenido de la pagina un breve resumen.

fuente:

CONSEJO SUPERIOR DE INVESTIGACIONES CIENTÍFICAS. La información especialiada en Internet. Madrid: Consejo superior de investigaciones científicas, 2006.

Hacia la arquitectura de la información 3.0: pasado, presente y futuro

"La arquitectura de la información (IA), aunque presente en cierta manera desde hace más de 50 años, ha tomado especial relevancia con la llegada de la Web y el aumento de la cantidad de información a nuestro alcance. La disciplina cuenta ya con unos pilares claros, que se fundamentan en los contenidos gestionados pero sobre todo en los usuarios, sin olvidar su contexto. También se identifica una serie de componentes a combinar a la hora de elaborar una IA y una metodología básica. Pero la cantidad de información a nuestro alcance no para de crecer, así que se continúa innovando en nuevas formas de organización, buscadores más eficaces o tecnologías de web semántica que permiten a los ordenadores encargarse de la parte menos creativa de enfrentarse a esa avalancha de información".1

FUENTE:

1) Roberto García, Federico Botella, Mari-Carmen Marcos. Hacia la arquitectura de la información 3.0: pasado, presente y futuro. En: El profesional de la información. Julio-agosto 2010, vol. 19, núm. 4

Arquitectura de la información en entornos web

"La arquitectura de la información,partiendo de los sólidos principios clásicos de la ciencia de la información tradicional, nace hacia finales de los años 90. Es una disciplina encargada de estructurar, organizar y etiquetarlos elementos que conforman los entornos informacionales para facilitar la búsqueda y recuperación de la información que contienen y mejorar, así, la utilidad y el aprovechamiento de la misma por parte de sus usuarios. Entre los principales sistemas o estructuras que conforman la anatomía arquitectónica de un sitio web destacan los sistemas de organización,de etiquetado, de navegación, de búsqueda y los vocabularios controlados. Respecto a su praxis, la elaboración de la anatomía arquitectónica de un sitio web se centra en los aspectos relacionados con las necesidades de sus usuarios tipo". 1

FUENTE:

1)PÉREZ MONTORO, MARIO. Arquitectura de la información en entornos web. En: El profesional de la información. Julio-agosto 2010, vol. 19, núm. 4

Disponible en: http://www.elprofesionaldelainformacion.com/contenidos/2010/julio/01.html

Los buscadores al alcance de nuestros ojos. Una investigación con tecnología eyetracking

El artículo ofrece los resultados de una investigación realizada mediante la tecnología de eyetracking; esto es, una cámara que se sitúa en el monitor provista de infrarrojos que apuntan a la pupila, y que permite seguir el movimiento ocular. La grabación de las sesiones de los usuarios es analizada posteriormente por un software que calcula el número de veces que las personas miran cada zona de la pantalla y el tiempo que duró cada mirada. El experimento se llevó a cabo con 58 personas de entre 18 y 61 años a las que se pidió que hicieran 7 búsquedas cada una.

Las investigadoras dividen las consultas que hacemos en los buscadores en cuatro tipos:

• El usuario está buscando información sobre algo (intención informacional)

• El usuario quiere ir a una página en concreto (intención navegacional)

• El usuario quiere comprar (intención transaccional)

• El usuario quiere ver un vídeo o una imagen (intención multimedia)

Y se plantean si prestamos la misma atención a los distintos elementos de cada resultado (el título, el resumen o snippet, y la dirección o url), en cada tipo de consulta. Algunos descubrimientos de la investigación que se pueden destacar son:

Del tiempo que una persona mira los resultados en el buscador, casi la mitad está leyendo el resumen (snippet) (44%), en menor medida pero también importante, el título (39%), y a bastante distancia, el url (17%). Por lo tanto será fundamental que los webmasters cuiden sus páginas para que el título y los textos sean muy claros y atrayentes (hay que tener en cuenta que muchas veces los buscadores toman de los textos el resumen que presentan), y prestar especial atención a los metadatos de título y descripción, que sirven a los buscadores para preparar estos dos elementos en sus SERPs

Por otro lado, se constata que los anuncios (enlaces patrocinados) sólo suscitan interés en los usuarios cuya intención de búsqueda es transaccional; en especial en las búsquedas con una finalidad comercial. Los anunciantes deberán optimizar sus anuncios para aparecer principalmente asociados a consultas con intención transaccional. Además, cuando miramos los enlaces patrocinados, a diferencia de lo que se decía con respecto a los resultados orgánicos, los usuarios mostramos mucho más interés por el título (43%), seguido bastante de lejos por el url (29%) y por el snippet (28%). Aquí, por tanto, es mucho más importante el título, y nada desdeñable el url.

Los datos obtenidos tienen utilidad para los webmasters, que deben organizar los contenidos de sus páginas y optimizarlos para que los buscadores presenten un título y un snippet claro; para los anunciantes en buscadores, que deben poner especial atención al título, y que la dirección web sea fácil de recordar; y para los buscadores, que podrán mejorar las páginas de resultados sabiendo qué zonas son las que se miran más en función del tipo de consulta.

El artículo está teniendo un rápido seguimiento en publicaciones profesionales de SEO, SEM, marketing digital y arquitectura de la información, tanto nacionales como internacionales. Por ejemplo:

- All Eyes on the SERPs. Website magazine.

- ¿Cómo se comporta un usuario en un buscador? Jose Llinares

- Eye tracking en buscadores: el triangulo se rompe. Taller SEO

- Eye tracking y buscadores… ¿todavía no sabes lo que es?. Julián Marquina

- Eye-Tracking study shows importance of search snippets. SearchEngineLand

- User behavior in SERPs. Eye tracking study July 2010. Dynamical.biz

REFERENCIA

MARCOS, Mari Carmen. Comportamiento de los usuarios en la página de resultados de los buscadores. Un estudio basado en eye tracking. Disponible en:

http://www.elprofesionaldelainformacion.com/contenidos/2010/julio/eye_traking.pdf. Consultado el 15 de Septiembre de 2010.

El artículo está disponible en acceso abierto, en:

http://www.elprofesionaldelainformacion.com/contenidos/2010/julio/eye_traking.pdf

martes, 14 de septiembre de 2010

SQL (Structured Query Languajes)

"SQL es un lenguaje de consulta y programación de bases de datos utilizado para acceder a los datos y para consultar, actualizar y gestionar sistemas de bases de datos relacionales. Tanto ANSI (American National Standards Institute, Instituto nacional de normalización americano) como ISO (Internacional Organization for Standardization, Organización internacional para la estandarización) han definido estándares para SQL. ANSI es una organización de grupos industriales y de negocios que desarrollan estándares de comunicación y negocio para los Estados Unidos. ANSI también es un miembro de ISO y de IEC (Intemational Electrotechnical Commission, Comisión electrotécnica internacional). ANSI publica estándares para EEUU que se corresponden con los estándares internacionales. En 1992, ISO e IEC publicaron un estándar para SQL denominado SQL‑92. ANSI publicó un estándar correspondiente, ANSI SQL‑92, en EEUU. ANSI SQL‑92 se conoce algunas veces como ANSI SQL. Aunque bases de datos relacionales diferentes utilicen versiones ligeramente diferentes de SQL, la mayoría cumple con el estándar ANSI SQL. SQL Server utiliza el superconjunto de ANSI SQL‑92 conocido como T-SQL, el cual se ajusta al estándar, SQL 92 definido por ANSI.

El lenguaje SQL contiene instrucciones que se ajustan las dos principales categorías de programación: DDL y DML. Se verán estas categorías de lenguaje en las siguientes secciones". 1

1) SQL. Structures Query Languajes. Disponible en: http://usuarios.multimania.es/cursosgbd/UD6.htm.
Consultado: el 14 de Septiembre de 2010.

CQL (Contextual Query Language O Lenguaje de Consulta contextual)

“Es un lenguaje formal para representar consultas a sistemas de recuperación de información, tales como Web índices, catálogos bibliográficos y de información de la colección en un museo.

El objetivo es diseñar las preguntas que el ser humano lectura y escritura, y que el lenguaje sea intuitiva, manteniendo la expresividad de los idiomas más complejos.

Tradicionalmente, los lenguajes de consulta se han reducido en dos campos: Potente, expresiva idiomas, no de fácil lectura ni de escritura para los no expertos (por ejemplo, SQL, PQF, y XQuery), o simple e intuitiva las lenguas no es lo suficientemente poderosa como para expresar conceptos complejos (por ejemplo, la CCL y google). CQL intenta combinar la sencillez y la intuitiveness de expresión de los simples, todos los días de consultas, con la riqueza de los idiomas más expresivos para dar cabida a conceptos complejos, cuando sea necesario.”

QF, y XQuery), o simple e intuitiva las lenguas no es lo suficientemente poderosa como para expresar conceptos complejos (por ejemplo, la CCL y google). CQL intenta combinar la sencillez y la intuitiveness de expresión de los simples, todos los días de consultas, con la riqueza de los idiomas más expresivos para dar cabida a conceptos complejos, cuando sea necesario.”

The library Of Congrees. CQL:Contextual Query Language. Disponible en: http://recuperainformacion.blogspot.com/2009/05/cql-contextual-query-language.html. 14 de Septiembre de 2010.

CCL (Common commad Language o Lenguaje común de comandos)

Este lenguaje de búsqueda es utilizado especialmente en las bases de datos, permite restringir las búsquedas mediante comandos, en campos específicos tales como: autor, titulo, fecha.

Adficonal a ello permite combinar las búsquedas con los operadores lógicos. Ha sido diseñado como respuesta a la variedad de lenguajes de búsqueda que existen, pues su objetivo es el de normalizar los comandos de búsqueda.

Este proyecto fue liderado por la ISO y se encuentra representado en la norma ISO 8777.

IMPLICACIONES DE LA RELEVANCIA EN LA RECUPERACIÓN DE LA INFORMACIÓN

IMPLICACIONES DE LA RELEVANCIA EN LA RECUPERACIÓN DE LA INFORMACIÓN

Dos son las relaciones en las que el concepto de relevancia ha influido e influye de formas decisivas en el desarrollo y evolución del campo de la recuperación de la información:

1- Evaluación de los sistemas de recuperación de los sistemas de recuperación de información.

2- Diseño de servicios de recuperación de información

FUENTE:

SALVADOR OLIVÁN, José. Recuperación de la información. Buenos Aires : Alfragrama Ediciones, 2008

Extracción de información

La extracción de información es una disciplina dentro del procesamiento del lenguaje natural (PLN) que supone una revolución tecnológica en el ámbito de la recuperación de información y que pretende agilizar la obtención de la información útil por parte de los usuarios.

Tradicionalmente, los usuarios recuperan una gran cantidad de información y después, manualmente, deben extraer la información de estos documentos tras el análisis de los resultados recuperados. Aplicando la tecnología existente (y en desarrollo) de extracción de información automática se pretende filtrar automáticamente los resultados haciendo la labor descrita anteriormente mucho menos laboriosa para los usuarios.

Los sistemas de extracción de información realizan la tarea de buscar información muy concreta en colecciones de documentos, detectar la información relevante, extraerla y presentarla en un formato susceptible a ser tratado automáticamente más tarde.

Disponible en: http://extraccioninformacion.iespana.es/

lunes, 13 de septiembre de 2010

MODELO GLOBAL DE RECUPERACIÓN DE INFORMACIÓN

La recuperación de la información es un proceso complejo en que intervienen una serie de elementos y se realizan un conjunto de actividades orientadas a buscar y encontrar información relevante que ayude a satisfacer la necesidad de información del usuario.

El proceso siempre comienza cuando un usuario tiene una necesidad de información y querer resolverla por sí mismo o acude aun especialista en información. La necesidad de información en un leguaje natural es lo que se conoce como consulta o petición de búsqueda, que traducida a un leguaje de Sistema de Recuperación son aquellos términos que se van a utilizar para realizar la búsqueda.

Esta estrategia de búsqueda, se introduce en un Sistema de Recuperación, que mediante un mecanismo de verificación, localiza aquellos documentos o registro de la base de datos que coinciden parcial o totalmente con la estrategia de búsqueda y le presenta al usuario la información por criterios de relevancia. El proceso de búsqueda acaba cuando el usuario, está satisfecho con los resultados de la búsqueda o cuando el sistema no le proporciona mas resultados pertinentes a la búsqueda que realiza.

Hoy en día existen organismos e instituciones que se encargan de organizar y almacenar la información que está contenida en bases de datos, los cuales se encargan de organizar la información en temas, tipos de documentos, elementos y estructuras como van a ser recuperados los documentos, trasformado los documentos originales en una visión lógica.

FUENTE:

SALVADOR OLIVÁN, José. Recuperación de la información. Buenos Aires : Alfragrama Ediciones, 2008.

Recuperación de información y tecnologías de la información

La recuperación de información se realiza sobre todo en bases de datos y en la World Wide Web. Lo cual implica el uso de ordenadores, redes de telecomunicaciones y dispositivos electrónicos herramientas que forman parte de las “tecnologías de la información”. Por tanto, la tecnología de información está íntimamente relacionada con las tecnologías de información y la alfabetización informacional.

Un informe realizado por National Research Council afirma “ que la competencia de ordenadores tiene que ver con el aprendizaje rutinario de aplicaciones informáticas especificas, mientras que el dominio de las tecnologías se centra en la compresión de los conceptos básicos de la tecnología y en la aplicación de técnicas de solución de problemas y pensamiento critico para el uso de la misma. En el informe también se discute sobre las diferencias entre la fluidez en el uso de las tecnologías de la información (FITnees) y la competencia en el acceso y uso de la información como tal y como se entiende esta última para los niveles educativos anteriores a la universidad y en la educación superior. En estas diferencias se destaca la aptitud para el acceso y uso de información de contenidos, análisis, búsqueda y evaluación de la información encontrada; mientras que el dominio de las tecnologías se centra en el conocimiento profundo de las tecnologías y en la utilización gradual y creciente de la misma.

FUENTE:

SALVADOR OLIVÁN, José. Recuperación de la información. Buenos Aires : Alfragrama Ediciones, 2008.

El paradigma cognitivo aplicado a la recuperación de información

Desde finales de la década de los años 70 y principios de los 80´, es posible identificar dos tipos de estudios en la recuperación de la información:

•Aquellos, centrados en los sistemas automatizados propiamente dichos (paradigma físico).

•Aquellos, centrados en los usuarios que acceden a los sistemas interactivos (paradigma cognitivo).

“Ambos enfoques estudian la recuperación de información, pero con perspectivas diferentes”.(1) La falta de adecuación del modelo tradicional a las nuevas necesidades impuestas por un proceso de recuperación de información de carácter interactivo y en constante retroalimentación entre el usuario y la computadora, motivó el surgimiento de una comunidad científica orientada al estudio e investigación de un “Paradigma cognitivo de la recuperación de la información”, en el que el usuario se ubica en el centro de todo el proceso.

En los primeros precedentes explicativos de la recuperación de la información se notaba más preocupación por recuperar documentos físicos que por recuperar la información que contenían”.(2) El modelo cognitivo integra lo que constituye la base del modelo tradicional y origina lo que Peter Ingwersen, denomina “Teoría cognitiva de la recuperación de la información”: “un intento de globalizar la recuperación de la información por medio de la representación de todos sus componentes como representaciones estructurales con distintos niveles de complejidad que cooperan en un proceso de comunicación interactivo”.(3)

En este modelo, se consideran factores vinculados con la recuperación interactiva de la información de carácter subjetivo y contextual de cada individuo (usuario) como pueden ser: su estado de ánimo, áreas de interés, grado de motivación, entre otros, en el que resulta de interés conocer cómo estos interactúan para generar una necesidad de información o lo que Belkin, Oddy y Brooks denominaron un “Estado anómalo del conocimiento ( Anomalous State of Knowledge o ASK)”.(4) Asimismo, el problema de la recuperación interactiva de la información-que es como se define en el modelo cognitivo- se ha tratado desde diferentes perspectivas a pesar de su corta historia, entre las propuestas más destacadas, se encuentran”:(5)

•El modelo global de poli-representación.

•El modelo episódico.

•El modelo estratificado.

•El modelo de retroalimentación interactivo.

Modelo global de poli-representación

Se nutre de las representaciones de las consultas y los documentos, así como de la aplicación de diferentes técnicas en el proceso de recuperación de información. Ello se debe a dos elementos que se manifiestan durante el proceso de recuperación interactiva de la información: uno, la recuperación interactiva de la información es tan compleja y abstracta que cualquier representación o técnica que se emplee no logra abarcar toda la complejidad de la interacción sistema-usuario, entonces se requiere del uso de disímiles técnicas de representación y recuperación.

Dos, se basa en el modelo probabilístico de Robertson, que plantea que “cuantas más pruebas o evidencias existan sobre la consulta, los documentos y las relaciones entre ellos, mayores serán las probabilidades de que los resultados se adecuen a la necesidad de información del usuario”.(6) De aquí, que Peter Ingwersen, se base en la idea de la redundancia intencional y las redes de inferencia de Turtte y Croft, para proponer un sistema de poli-representación de la recuperación de la información como complemento del modelo práctico.

Modelo episódico

Denominado así por Nicolas Belkin , define el conjunto de interacciones que se producen entre el usuario y el sistema durante la consulta, de forma similar al intercambio que se producía entre él y el intermediario de una base de datos, en un principio, para “conceptuar, etiquetar y transcribir la necesidad de información, así como emitir juicios de relevancia sobre uno o varios documentos”. Los componentes que integran dicho modelo son los mismos que se utilizan en el modelo tradicional:(7)

•Técnicas de navegación (browsing).

•Técnicas consulta (querying).

•Técnicas de visualización.

•Técnicas de indización.

•Técnicas de representación y equiparación.

Sólo que se presta muy poca atención a la estructura de los documentos y su recuperación, y se centra en el estado anómalo del conocimiento del individuo, cómo representarlo y cómo recuperarlo, es decir, este sistema se basa en el almacenamiento, la recuperación y la interacción de las estrategias de búsqueda.

Modelo estratificado

Tefko Saracevic , "toma como referencia la estructura de la teoría estratificada de la lingüística y la comunicación, adopta y adapta modelos y técnicas de los sistemas e investigaciones existentes sobre la recuperación interactiva de la información. Uno de sus objetivos fundamentales es localizar e identificar los procesos de búsqueda de información de los usuarios para incorporarlos al diseño de interfaz como garantía para el éxito de la interacción entre sistema y el usuario".(8)

Para Saracevic, "la recuperación de la información es uno más de los procesos que integran la interacción hombre-máquina (IHM); considera que esta y la recuperación interactiva de la información son lo mismo y adopta la definición de GA Storrs para la IHM: “(...) el intercambio de información entre participantes, con el objetivo de cambiar el estado de conocimiento propio o del resto de los participantes”.19 Pero intenta ir más allá y modifica la definición anterior de IHM para entenderla como: “(...) un diálogo con el fin de cambiar el estado de conocimientos de uno o más participantes”.(8)

Modelo de retroalimentación interactiva

Uno de los principales problemas de los sistemas interactivos durante años fue entender la interacción como un proceso inherente al sistema de recuperación de la información. Una vez establecida la interacción entre el hombre y la máquina, no se especifica de forma clara qué elementos y procesos permiten la interacción entre los dos extremos del sistema de recuperación de información.

Amanda Spink, "propone que el principal responsable de la interacción, tanto en el modelo tradicional como en el interactivo, es la retroalimentación como aspecto no siempre ligado al concepto de relevancia, sino a la generalidad de elementos que permiten la interacción entre el sistema y el usuario. Sobre esta base, Spink identificó, en un estudio aplicado a una muestra de 40 usuarios reales, con necesidades informativas reales y 4 intermediarios para responder a sus consultas, los siguientes tipos de retroalimentación: (8)

•Retroalimentación por relevancia de contenido.

•Retroalimentación por relevancia de términos.

•Retroalimentación por magnitud de respuestas.

•Retroalimentación por revisión de consultas anteriores.

•Retroalimentación por revisión de términos.

Una vez identificados y descritos los elementos sobre los que recae el peso de la retroalimentación, la autora de la investigación se basó en el modelo de recuperación interactiva de la información propuesto por Saracevic, y contempló sus distintos niveles de interacción. En síntesis, “un proceso de búsqueda interactivo puede estar formado por una serie de estrategias de búsqueda, construidas por una o más iteraciones y uno o más ciclos de retroalimentación interactiva”, (8)de los tipos descritos anteriormente.

Los inconvenientes de estos modelos no son pocos, debido a que:

•Se limitan a realizar una aproximación prácticamente teórica a las necesidades de información de los usuarios desde diferentes ángulos, carentes de todo tipo de desarrollo práctico en los entornos del usuario.

•Se centran excesivamente en el usuario sin considerar que las conclusiones a las que llega corresponden a cada individuo concreto objeto de estudio, difícilmente extrapolables a un grupo más amplio de individuos.

1) .Saracevic T. Information Science. JASIS 1999;50(12):1051–63.

2).Vargas Quesada B, Moya Anegón F de, Olvera Lobo MD. Enfoques en torno al modelo cognitivo para la recuperación de información: análisis crítico. Ciencia da Informaçao 2002;31(2):107-40. Disponible en: http://scimago.ugr.es/file.php?file=/1/Documents/CInfo-02.pdf [Consultado: 2 de febrero del 2005].

3).Ingwersen P. Information Retrieval Interaction London : Taylor & Francis, 1992.

4) Belkin NJ , Oddy RN, Brooks HM. ASK for Information Retrieval: Part I. Background and Theory. Journal of Documentation1982;38(2):61-71.

5) .Ingwersen P. Cognitive perspectives of information retrieval interaction: elements of a cognitive IR theory. J Doc 1996;52(1):3-50.

6).Roberton SE. The probability ranking principle: The probability ranking principle in Information Retrieval. J Doc1977;33(4):294-304.

7) .Belkin NJ , Oddy RN, Brooks HM. ASK for Information Retrieval: Part II . Results of a Design Study. Journal of Documentation 1982;38(3):145-64.

8).Spink A, Saracevic T. Human-Computer Interaction in Information Retrieval: nature and manifestations of feedback. Interacting with Computers 1998;10(3):241-67.

Disponible en: http://bvs.sld.cu/revistas/aci/vol14_1_06/aci04106.htm

Buscar este blog

CONTADOR DE VISITAS

domingo, 19 de septiembre de 2010

Extensiones de audio

sábado, 18 de septiembre de 2010

viernes, 17 de septiembre de 2010

jueves, 16 de septiembre de 2010

miércoles, 15 de septiembre de 2010

martes, 14 de septiembre de 2010

lunes, 13 de septiembre de 2010

Posicionamiento Web

Etiquetas