martes, 15 de abril de 2014

TEMA 5: RECUPERACIÓN DE INFORMACIÓN

En la siguiente entrada voy a hablar sobre la recuperación de la información.
Así pues, la recuperación de información es el conjunto de tareas mediante las cuales el usuario localiza y accede a los recursos de información adecuados para la resolución del problema planteado. Tiene por objetivo identificar, localizar, seleccionar y acceder a los recursos de información útiles al usuario.
Antes de llevar a cabo la recuperación de la información es necesario definir nuestra necesidad de búsqueda, para ello estableceremos la finalidad de la misma (si se trata de publicar un artículo, una texis doctoral...) seleccionaremos el idioma, el período de búsqueda, la cobertura geográfica, la precisión de la misma etc. Una vez recuperada la información evaluamos los resultados para que si no nos proporcionan la información deseada, volvamos a definir una nueva estrategia de búsqueda.

Uno de los problemas con los que nos podemos encontrar en nuestra búsqueda es que se pueden recuperar muchos documentos que no son relevantes, ya que la búsqueda ha sido demasiado genérica, lo que conocemos como ruido documental, o bien no podemos recuperar la información almacenada en la base de datos, ya que la estrategia de búsqueda ha sido demasiado específica o las palabras clave utilizadas no eran las adecuadas, esto es conocido como silencio documental.
Proceso de recuperación de información

 

Para poder recuperar la información tenemos que utilizar estrategias de búsqueda de información. Esto consiste en identificar la mejor forma para recuperar la información con el fin de que el resultado de la búsqueda sea exitoso, rápido y lo más eficaz posible.



Para recuperar la información contamos con una serie de herramientas que pasaremos a definir a continuación.
  • Bases de datos que, son un conjunto de información homogénea que mantiene una estructura ordenada y relacionada entre si.
  • Internet, donde podemos obtener información de manera automática, según los criterios de nuestra búsqueda, a través del manejo de buscadores, directorios y otras herramientas.
  • Lenguajes de indización y  control terminológico: 
    • Índices que, son un listado de términos normalizados que representan el contenido de un recurso. Algunos tipos son:
      • Índice de materias.
      • Índice alfabético. 
      • Índice KWIC: en el que el contenido temático de una obra se representa mediante palabras clave de su título 
      • Índice KWOC: en que las palabras clave aparecen como un encabezamiento en línea separada. 
    •  Palabras clave (Keywords): esta opción nos permite acotar y precisar información,para definir la palabra exacta es conveniente utilizar especificadores.
    • Tesauros: es un listado terminológico controlado sobre un área de conocimiento que mantiene entre sí relaciones semánticas y genéricas. Su principal característica es que los términos están ordenados jerárquicamente, permitiendo la precisión terminológica en la búsqueda de información. 
  • Lenguajes de interrogación y ecuaciones de búsqueda: cada sistema de recuperación tiene su propio lenguaje de interrogación con una sintaxis propia, que es el que nos permite "hablar" en el mismo lenguaje que la base de datos . Las reglas gramaticales en el lenguaje de interrogación son los operadores lógicos 
  • Operadores: son los encargados de expresar la relacion que mantienen entre sí los términos que pueden definir las necesidades informativas del usuario. Los más utilizados son: 
    • Operadores lógicos (o booleanos) que, nos proporcionan un resultado a partir de que se cumpla o no una cierta condición. Los tres operadores básicos son. 
      • El operador suma/unión (generalmente identificado como O/OR), 
      • El operador producto/intersección (identificado como Y/AND), y 
      • El operador resta/negación (identificado como NO/NOT).
    • Operadores posicionales, que permiten especificar la posición de las palabras dentro del documento. Hay tres tipos, que son: 
      • Cerca (NEAR).
      • Junto (ADJ) .
      • Frases.
Para facilitar estas búsquedas de información, en los buscadores se dispone de varias técnicas que proporcionarán una mayor precisión en la búsqueda, a continuación vamos a ver las distintas formas de recuperación de la información:
  • Sistema de recuperación de lógica difusa, que permite refinar nuestra búsqueda porque elimina los signos de puntuación, artículos, conjunciones, plurales, tiempos verbales, palabras comunes. De esta forma, el sistema dejará solo las palabras clave aumentando la precisión de la búsqueda.
  • Técnicas de ponderación de términos: en este método se valoran los términos más relevantes para la búsqueda, de forma que los que más aparezcan tienen mayor valor. De esta forma el documento más importante será el que más coincidencias tenga con la consulta realizada.
  • Técnicas de retroalimentación por relevancia: el sistema realizara dos consultas, en la primera búsqueda se establecerán unos criterios de búsqueda con los que se obtendrá unos documentos, y la segunda se hará sobre los documentos recuperados en la primera, haciendo así una búsqueda más exhaustiva.
  • Técnica de clustering: aquí a los documentos recuperados se les atribuye un valor y mediante estos valores se ordenarán los documentos por algoritmos de ranking.
  • Técnicas de stemming: morfológicamente las palabras están estructuradas en prefijos, sufijos y la raíz. Esta técnica, lo que pretende es eliminar las posibles confusiones semánticas que se puedan dar en la búsqueda de un concepto, para ello trunca la palabra y busca solo por la raíz.

Dicho esto, la técnica a utilizar dependerá de la necesidad de nuestra búsqueda.

Y tú, ¿cuál utilizarías?
 

sábado, 5 de abril de 2014

TEMA 4: BUSCADORES

En la siguiente entrada voy a hablar sobre la principal herramienta de Internet, los buscadores. Muchos os preguntaréis, ¿un buscador es un programa que reside en mi ordenador?, pues esto no es así. Un buscador es una página web, con la particularidad de que, el servidor que la contiene dispone en su disco de una base de datos con direcciones de páginas web, que pone a nuestra disposición.
Su forma de utilización es muy sencilla, basta con introducir una o más palabras clave en una casilla y el buscador generará una lista de páginas web que se supone guardan relación con el tema solicitado. Aunque el modo de utilización es muy fácil a nivel
básico, los buscadores permiten opciones avanzadas para refinar la búsqueda, cuyo resultado puede ser en muchas ocasiones de miles de páginas. Mediante estas opciones avanzadas se puede acotar la búsqueda y obtener un número de páginas más manejable.
Debido al gran tamaño de Internet y a su naturaleza cambiante, ningún buscador posee registro de todas las páginas que se encuentran en la red. Por ello es aconsejable visitar más de un buscador para contrastar los resultados y en ningún caso pensar que si una página no aparece en un buscador, es que no existe.
Los buscadores poseen enormes bases de datos que contienen información referente a páginas web. 

Para localizar la información existen los llamados algoritmos de búsqueda que, están diseñados para localizar un elemento concreto dentro de una estructura de datos. Existen varios tipos de algoritmos de búsqueda que vamos a explicar a continuación:
Búsqueda binaria que, se utiliza cuando el vector en el que queremos determinar la existencia de un elemento está previamente ordenado. Este algoritmo reduce el tiempo de búsqueda considerablemente, ya que disminuye exponencialmente el número de iteraciones necesarias. Está altamente recomendado para buscar en arrays de gran tamaño.
Búsqueda secuencial que, se utiliza cuando el vector no está ordenado o no puede ser ordenado previamente. Consiste en buscar el elemento comparándolo secuencialmente (de ahí su nombre) con cada elemento del arreglo hasta encontrarlo, o hasta que se llegue al final. La existencia se puede asegurar cuando el elemento es localizado, pero no podemos asegurar que no exista hasta no haber analizado todos los elementos del arreglo.

Veamos ahora los tipos de clasificación de los buscadores, según la forma de obtener las direcciones que almacenan en su base de datos. Cada tipo de buscador tiene sus propias características. Conocerlas puede ayudarnos a decidir cuál utilizar en función de las necesidades de nuestra búsqueda.  

Los primeros buscadores que surgieron fueron los índices de búsqueda. En ellos, la base de datos con direcciones la construye un equipo humano, es decir, un grupo de personas va rastreando la red en busca de páginas. Vistas éstas son clasificadas por categorías o temas y subcategorías en función de su contenido. De este modo, la base de datos de un índice de búsqueda contiene una lista de categorías y subcategorías relacionadas,con un conjunto de direcciones de páginas web que tratan esos temas.
La consulta de un índice se realiza, pues, a través de categorías. Por ejemplo, si buscamos información sobre el Museo del Prado deberemos pinchar sobre una secuencia de categorías y subcategorías como la siguiente: Arte / museos / pinacotecas y seguro que dentro de ésa última subcategoría hay algún enlace que hace referencia al museo del Prado.
El primer índice de búsqueda que apareció fue Yahoo! que sigue ofreciendo sus servicios. A pesar de tratarse de un índice de búsqueda, ofrece también un espacio para introducir palabras clave. Esto se debe a que todos los buscadores que ofrecen servicios en la red tienden a satisfacer al máximo las necesidades de los navegantes, de forma que intentan abarcar toda la gama de posibilidades.

Pasado un tiempo surgieron los motores de búsqueda, en éstos el rastreo de la web lo hace un programa, conocido como araña o motor . Este programa va visitando las páginas y, a la vez, creando una base de datos en la que relaciona la dirección de la página con las 100 primeras palabras que aparecen en ella. Como era de esperar, el acceso a esta base de datos se hace por palabras clave: la página del buscador me ofrece un espacio para que yo escriba las palabras relacionadas con el tema que me interesa, y como resultado me devuelve directamente un listado de páginas que contienen esas palabras clave. 
Por ejemplo, si utilizo un motor de búsqueda para localizar información sobre el Museo del Prado, simplemente tendré que escribir "Museo del Prado" en el espacio de búsqueda y pinchar en el botón Buscar. A continuación se me devolverá otra página con los resultados de la búsqueda: un listado con enlaces a las páginas solicitadas. Un buen ejemplo de motor de búsqueda es Google.
Como en el caso anterior, los motores también tienden a ofrecer todos los servicios posibles al usuario, y le dan la posibilidad de realizar una búsqueda por categorías.
Para terminar vamos a ver los metabuscadores que, son páginas web en las que se nos ofrece una búsqueda sin que haya una base de datos propia detrás. Utilizan las bases de varios buscadores ajenos para ofrecernos los resultados. Un ejemplo de metabuscador es Metacrawler.

Y bien, ahora os preguntaréis, si se realiza la misma búsqueda con un índice y con un motor, ¿cuál de los dos me devolvería más resultados? La base de datos de un motor siempre es más amplia que la de un índice, ya que su método de rastreo (automatizado por una araña) le permite más incorporaciones a la base que un método manual.

Además con este tipo de buscdores ¿puedo estar seguro de que todas las páginas que se me indiquen tratarán el tema buscado? En un índice sí. En un motor no, ya que al realizar la búsqueda por palabras clave podemos encontrar páginas que, aunque contengan las palabras indicadas, traten de temas muy diferentes al trabajado. No obstante, los motores ofrecen técnicas para afinar las búsquedas y eliminar, en lo posible, este tipo de resultados. Es lo que se conoce como búsquedas avanzadas.
Hemos visto varios tipos de buscadores, por lo que nos podríamos preguntar ¿cuál me conviene más utilizar al realizar una búsqueda? Esto dependerá del tipo de datos que se le pide. Si estamos buscando información sobre un tema genérico, por ejemplo, sobre antropología en Aragón, sería mejor usar un índice de búsqueda, ya que el contenido de las páginas que me ofrezca va a estar muy relacionado con la categoría, es decir, con el tema de la búsqueda. Si el motivo de la búsqueda es más concreto, por ejemplo, un autor o un título de una obra, el motor de búsqueda va a resultar más eficaz, ya que su base de datos es más amplia.

Y a vosotros, ¿qué buscador os gusta más?