RECUPERACIÓN DE INFORMACIÓN: MODELOS DE RECUPERACIÓN DE INFORMACIÓN

jueves, 9 de septiembre de 2010

MODELOS DE RECUPERACIÓN DE INFORMACIÓN

Modelo Booleano

"El modelo booleano es el más usado históricamente. Está basado en la teoría de conjuntos y el álgebra booleana. Formalmente el modelo booleano se divide en:

•D: Conjunto de palabras del documento (Términos de indexación).

•Q: Expresion booleana (Operadores: AND, OR y NOT)

•F: Álgebra booleana sobre conjuntos de términos y documentos.

•R: Un documento es relevante para la query dada si satisface la expresión booleana de acuerdo al álgebra

En resumen, el modelo booleano es un modelo simple que basa su efectividad en dividir los términos de la búsqueda en conjuntos, por ello es muy fácil de implementar y entender. Donde reside algo más de dificultad es en las expresiones booleanas anidadas, pero cualquier ordenador maneja las expresiones booleanas muy fácilmente. Para el modelo booleano todos los términos de una búsqueda tienen la misma importancia y relevancia, ya que no realiza ningún tipo de ranking de los términos de indexación.

Modelo de Espacio Vectorial

En el modelo de espacio vectorial, los documentos y las búsquedas se interpretan como vectores de términos. Representando cada término en el vector con un peso w dentro de ese documento. La función de similaridad entre el documento y una búsqueda será el coseno del ángulo entre los vectores que los representan.

Basándonos en esta representación la función de similaridad dará valores entre 1 (d = q) y 0 (cuando d y q no compartan términos.

La funcionalidad de este modelo estriba en la elección correcta de los pesos de cada termino. Para que la recuperación de información sea efectiva, tendremos que elegir unos pesos mayores para las palabras que tengan más relevancia en el documento (Palabras que aparecieran en búsquedas anteriores, por ejemplo).

Para modelizar este comportamiento, los documentos se pueden utilizar modelizando los documentos en Clusters. Los Clusters entroncan con la web semántica y permiten realizar búsquedas de términos parecidos a partir de una búsqueda (Google utiliza Clusters para realizar búsquedas de términos relacionados). En esta modelización el documento es una colección de C objetos. Las búsquedas se toman como descripciones vagas de un subconjunto A de la colección C. El objetivo es dividir C en dos subconjuntos (A y ~A) para lo que tendremos que determinar las características de los objetos que describen A de una forma más eficiente, así como las que diferencian A de ~A. En los documentos se utilizan las frecuencias de los términos en el documento así como la frecuencia en la colección.

•Frecuencia del término (tf): Se calcula cuantas veces aparece una palabra en proporción con la longitud del término, normalmente las palabras frecuentes que no son stop-words(preposiciones, conjunciones...) son palabras del mismo tema, ya que en un documento se suele hablar mucho del mismo tema (En este documento, por ejemplo, modelo, recuperación de información, búsqueda, query...).

•Frecuencia inversa de documento(tf-idf): También es importante la escasez de un término dentro de un documento. Basandose en esta medición la importancia de un término es inversa a la frecuencia de la ocurrencia. Por ejemplo si buscamos un término que sólo aparece en un documento, aunque sólo aparezca esa vez, ese documento será muy importante para la búsqueda.

Un modelo para el reparto de pesos típico sería tf-idf, donde el peso w sería wd,t = tfd,t x idft. Este modelo es el más típico para el reparto de pesos en el modelo vectorial. Es importante que aparte de este reparto de pesos se realice una normalización del tamaño de los documentos, si no los documentos más largos se verían beneficiados, gracias a que tienen más frecuencia de términos y más términos.

En resumen, como ventajas del modelo de Espacio Vectorial:

•Obtiene documentos ordenados por un ranking

•Los términos de búsqueda se usan con importancia baremada.

•Se obtienen resultados de coincidencia parcial con la búsqueda.

Modelo Probabilístico

A raíz de la existencia del modelo booleano, encontramos una serie de problemas. La Recuperación de la Información no es un proceso exacto. El modelo booleano, nos da resultados de todo o nada (O pertenece al subonjunto de documentos con los términos de la expresión booleana, o no pertenece. Pero esto excluye documentos que sean relevantes pero estén fuera de los subconjuntos ya que los términos de búsqueda y los términos de indexación pueden divergir.

El problema radica en que en el subconjunto R de documentos relevantes a una query q la pertenencia de los documentos a R es incierta. Por ello se puede tomar una aproximación probabilística en la que los documentos se ordenen en orden decreciente de probabilidad de relevancia a la información requerida.

Este modelo plantea dos dificultades principales:

•Las evidencias para la ordenación se basan en una representación difusa: El proceso consiste en evaluar la probabilidad de relevancia basándose en las ocurrencias de los términos de la búsqueda en los documentos (Parecido al modelo booleano). Normalmente se empieza con una estimación y más adelante se refinará a través del feedback de los usuarios.

•No se puede computar la probabilidad exacta: Es un proceso demasiado complejo así que el modelo se basa en simplificaciones y aproximaciones.

El modelo se basa en:

•D: Términos de la búsqueda, los términos se toman como ocurrencias booleanas (Presente - 1 / No presente - 0) en el documento.

•R: Conjunto de documentos relevantes.

•P(R | dj) Probabilidad de que el documento dado sea relevante

•P(~R | dj) Probabilidad de que el documento dado sea relevante

En general el modelo se basa en el cálculo de una función rsv (Retrieval Status Value) que será el ratio entre la probabilidad de que sea relevante y la probabilidad de que no lo sea. A partir de esos ratios, podremos calcular un vector de probabilidades para todos los términos de D. Pero esto tiene un problema, R tiene un valor desconocido y dificil de calcular. Tomando valores estadísticos podemos tomar R = 0.5 y ~R como la Frecuencia Inversa del Documento (Calculable utilizando la fórmula log(d/dfj), donde d es el número total de documentos y dfj es el número de documentos que contienen el término. En esta primera aproximación se puede utilizar este valor IDF como pesos para hacer el ranking. A medida que el usuario utiliza el sistema, estos pesos se irán ajustando en función del feedback del usuario.

En resumen:

•El modelo probabilístico utiliza la teoria de probabilidades para modelar la incertidumbre del proceso de recuperación de información.

•En el modelo se hacen presunciones explícitas.

•El peso de la relevancia de los términos es la frecuencia inversa de documento (IDF)

•El feedback de relevancia puede mejorar el ranking dando mejores estimaciones de probabilidad de términos.

•No se usan frecuencias de términos dentro del documento ni longitud de documentos" 1

Disponible en:

1) MODELOS DE RECUPERACIÓN DE INFORMACIÓN. Introducción: Recuperación de información. Disponible en: http://modelosrecuperacion.freeservers.com/

No hay comentarios:

Publicar un comentario

Buscar este blog

CONTADOR DE VISITAS

jueves, 9 de septiembre de 2010

MODELOS DE RECUPERACIÓN DE INFORMACIÓN

No hay comentarios:

Posicionamiento Web

Etiquetas