En
la siguiente entrada voy a hablar sobre la recuperación de la
información.
Así pues, la
recuperación de información es el conjunto de tareas mediante las
cuales el usuario localiza y accede a los recursos de información
adecuados para la resolución del problema planteado. Tiene
por objetivo identificar, localizar, seleccionar y acceder a los
recursos de información útiles al usuario.
Antes
de llevar a cabo la recuperación de la información es necesario
definir nuestra necesidad de búsqueda, para ello estableceremos la
finalidad de la misma (si se trata de publicar un artículo, una
texis doctoral...) seleccionaremos el idioma, el período de
búsqueda, la cobertura geográfica, la precisión de la misma etc.
Una vez recuperada la información evaluamos los resultados para
que si no nos proporcionan la información deseada, volvamos a
definir una nueva estrategia de búsqueda.
Uno de los problemas con los que nos podemos encontrar en nuestra búsqueda es que se pueden recuperar muchos documentos que no son relevantes, ya que la búsqueda ha sido demasiado genérica, lo que conocemos como ruido documental, o bien no podemos recuperar la información almacenada en la base de datos, ya que la estrategia de búsqueda ha sido demasiado específica o las palabras clave utilizadas no eran las adecuadas, esto es conocido como silencio documental.
| Proceso de recuperación de información |
Para poder recuperar la información tenemos que utilizar estrategias de búsqueda de información. Esto consiste en identificar la mejor forma para recuperar la información con el fin de que el resultado de la búsqueda sea exitoso, rápido y lo más eficaz posible.
Para recuperar la información contamos con una serie de herramientas que pasaremos a definir a continuación.
- Bases de datos que, son un conjunto de información homogénea que mantiene una estructura ordenada y relacionada entre si.
- Internet, donde podemos obtener información de manera automática, según los criterios de nuestra búsqueda, a través del manejo de buscadores, directorios y otras herramientas.
- Lenguajes de indización y control terminológico:
- Índices que, son un listado
de términos normalizados que representan el contenido de un recurso.
Algunos tipos son:
- Índice de materias.
- Índice alfabético.
- Índice KWIC: en el que el contenido temático de una obra se representa mediante palabras clave de su título
- Índice KWOC: en que las palabras clave aparecen como un encabezamiento en línea separada.
- Palabras clave (Keywords): esta opción nos permite acotar y precisar información,para definir la palabra exacta es conveniente utilizar especificadores.
- Lenguajes de interrogación y ecuaciones de búsqueda: cada sistema de recuperación tiene su propio lenguaje de interrogación con una sintaxis propia, que es el que nos permite "hablar" en el mismo lenguaje que la base de datos . Las reglas gramaticales en el lenguaje de interrogación son los operadores lógicos
- Operadores: son los encargados de expresar la relacion que mantienen entre sí los términos que pueden definir las necesidades informativas del usuario. Los más utilizados son:
- Operadores lógicos (o booleanos) que, nos proporcionan un resultado a partir de que se cumpla o no una cierta condición. Los tres operadores básicos son.
- Operadores posicionales, que permiten especificar la posición de las palabras dentro del documento. Hay tres tipos, que son:
- Cerca (NEAR).
- Junto (ADJ) .
- Frases.
Para
facilitar estas búsquedas de información, en los buscadores se
dispone de varias técnicas que proporcionarán una mayor precisión
en la búsqueda, a continuación vamos a ver las distintas formas
de recuperación de la información:
- Sistema de recuperación de lógica difusa, que permite refinar nuestra búsqueda porque elimina los signos de puntuación, artículos, conjunciones, plurales, tiempos verbales, palabras comunes. De esta forma, el sistema dejará solo las palabras clave aumentando la precisión de la búsqueda.
- Técnicas de ponderación de términos: en este método se valoran los términos más relevantes para la búsqueda, de forma que los que más aparezcan tienen mayor valor. De esta forma el documento más importante será el que más coincidencias tenga con la consulta realizada.
- Técnicas de retroalimentación por relevancia: el sistema realizara dos consultas, en la primera búsqueda se establecerán unos criterios de búsqueda con los que se obtendrá unos documentos, y la segunda se hará sobre los documentos recuperados en la primera, haciendo así una búsqueda más exhaustiva.
- Técnica de clustering: aquí a los documentos recuperados se les atribuye un valor y mediante estos valores se ordenarán los documentos por algoritmos de ranking.
- Técnicas de stemming: morfológicamente las palabras están estructuradas en prefijos, sufijos y la raíz. Esta técnica, lo que pretende es eliminar las posibles confusiones semánticas que se puedan dar en la búsqueda de un concepto, para ello trunca la palabra y busca solo por la raíz.
Dicho esto, la técnica a utilizar dependerá de la necesidad de nuestra búsqueda.
Y tú, ¿cuál utilizarías?

No hay comentarios:
Publicar un comentario