Nubes de etiquetas e índización automática (publicado en la INtranet 2006/10/19)

0

La indización automática aplicando técnicas de extracción de palabras claves a partir de textos completos es una técnica con muchos años de desarrollo. Con el desarrollo de Internet, y más particularmente con el desarrollo de los motores de búsqueda estas técnicas adquirieron una relevancia muy particular y se han desarrollado mucho.

Cada vez más aparecen soluciones técnicas y servicios que si habláramos en lenguaje cinematográfico se parecerían a “remakes”. Este puede ser el caso de las denominadas “tag clouds” o nubes de etiquetas o palabras claves que comienzan a ser comunes en los Blogs y en el Web en general. Claro está que no son exactamente la misma cosa.

Los especialistas en información y bibliotecarios pueden recordar un KWIC (Key Word in context) creado por Hans Peter Luhn 1 de IBM en 1958 y sus variantes como el KWOC (Key Word out of Context) y KWAC (Keyword alongside context) que fueron tan utilizados en los primeros tiempos de uso de la computación para la indización automática. También recordarán las denominadas listas de parada o “stop words lists” que indicaban las palabras “negativas” o excluíbles de los mencionados índices. Pues siguiendo esa tradición de índices se han popularizado las mencionadas nubes que son esencialmente índices de palabras o términos clave que se presentan en el contexto de una página Web y se hiperenlazan con los titulares o textos de noticias y otros contenidos disponibles en la red ya sea por RSS u otras modalidades.

A continuación se muestra un caso en el que se genera de manera automática una nube de términos clave extraídos de la información diaria de salud que es accesible por RSS y que adiciona elementos de valor como la ponderación del peso de las palabras clave en las noticias citadas y los hiperenlaces a las noticias en sí. Esto se logra incrustando un fragmento de código que visualiza el índice que se produce dinámicamente por un servidor que funciona como respaldo o “back end” a este servicio. Los autores del sitio generan de esta forma visitas a su sitio y enlaces que le sirven para valorizarlo en el mercado de Internet y obtener ganancias por esta vía. Lo interesante es el concepto y la versatilidad de las soluciones que se pueden generar en la red, sobre todo con el desarrollo vertiginoso que están teniendo las soluciones tecnológicas que se agrupan en el denominado Web 2.0 ya mencionado anteriormente.

1. Luhn fue uno de los primeros en trabajar muchas de las técnicas básicas que hoy son comunes en las ciencias de la información.

A quienes quieran profundizar sobre el tema, especialmente sobre el tratamiento del tema en el Web ver:

Shirky: Ontology is Overrated — Categories, Links, and Tags Excelente trabajo sobre los sistemas de clasificación, las ontologías y los sistemas de organización de la información con especial referencia al mundo digital disponible en http://shirky.com/writings/ontology_overrated.html
He recuperado esta entrada que había publicado en la Intranet de Infomed  porque hay un interesante servicio de creación dinámica de índices KWIC en Internet que muestra el potencial de esta herramienta en el contexto del Web. Ver http://www.webcorp.org.uk/

Filed under Generales by on #

Leave a Comment

Fields marked by an asterisk (*) are required.

*