Page 1 of 3
¿Cómo funciona la web semántica? Para que la web semántica funcione es vital que el contenido de una web esté correctamente descrito y etiquetado, sin embargo, para esta tarea el lenguaje HTML se queda corto, pues está orientado a la representación de datos, la información que ofrece es muy limitada, no permite describir datos y no es extensible. El sistema evolucionó y se realizaron algunas mejoras para hacer este lenguaje algo más dinámico con la introducción de otros elementos como DHTML, Javascript, hojas de estilo e, incluso, se añadieron a la Web otros lenguajes que permitieran ofrecer una información más estructurada, como el lenguaje XML, pero hacen falta otros lenguajes que permitan una descripción más detallada del documento y de su contenido. Además, también hace falta una nueva generación de buscadores más inteligentes capaces de leer y evaluar rápidamente toda esta nueva información. Así pues, el desarrollo de la Web semántica requiere la utilización de otros lenguajes que puedan dotar a cada página, a cada archivo y a cada recurso o contenido de la red, de una lógica y un significado, de manera que permitan a los ordenadores conocer el significado de la información que manejan con el fin de que esta información pueda, no sólo ser presentada en pantalla, sino también que pueda ser integrada y reutilizada. Uno de estos lenguajes que aportan información extra es XML, que ha logrado convertirse hoy en un lenguaje estándar; se trata de un subconjunto del complejo y sofisticado lenguaje SGML que aporta datos estructurados a la Web y que se ha convertido en la infraestructura preferida para el intercambio de datos. Además, las páginas XML pueden ubicar metadatos, esquemas XML y esquemas RDF, que aportan un mecanismo para que los programas puedan interpretar y comprender documentos con un vocabulario descriptivo. Sin embargo para poder explotar la Web semántica, se necesitan lenguajes semánticos más potentes, esto es, lenguajes de marcado capaces de representar el conocimiento basándose en el uso de metadatos y ontologías. Aquí aparece el lenguaje RDF (Resource Description Framework), mientras que XML es un lenguaje para modelar datos, RDF es un lenguaje para especificar metadatos. XML falla en la escalabilidad de los datos puesto que el orden de los elementos es antinatural y su mantenimiento es muy difícil y costoso, por el contrario, RDF provee un marco común de trabajo para expresar esta información y para intercambiarla entre aplicaciones distintas mediante una serie de parsers o analizadores RDF y otras herramientas de procesamiento automatizado. Utilizando anotaciones RDF y RDF Schema se pueden presentar algunas facetas sobre conceptos de un dominio del conocimiento y se puede, mediante relaciones taxonómicas, crear una jerarquía de conceptos. Pero se precisan lenguajes de marcado con una mayor expresividad y capacidad de razonamiento para representar los conocimientos que contienen las ontologías. Además, estos lenguajes deben ser estandarizados y formalizados para que su uso sea universal, reutilizable y compartido a lo largo y ancho de la Web.
Page 2 of 3
Es necesario, pues, crear una ontología o biblioteca de vocabularios descriptivos/semánticos, definidos en formato RDF y ubicados en la Web para determinar el significado contextual de una palabra por medio de la consulta a la ontología apropiada. De esta forma, agentes inteligentes y programas autónomos podrían rastrear la Web de forma automática y localizar, exclusivamente, las páginas que se refieran a la palabra buscada con el significado y concepto precisos con el que interpretemos ese término. Por lo tanto, para potenciar el uso de ontologías en la Web, se necesitan aplicaciones específicas de búsqueda de ontologías, que indiquen a los s las ontologías existentes y sus características para utilizarlas en su sistema, punto donde entran en juego los buscadores semánticos. Supongamos que la Web tiene la capacidad de construir una base de conocimiento sobre las preferencias de los s y que, a través de una combinación entre su capacidad de conocimiento y la información disponible en Internet, sea capaz de atender de forma exacta las demandas de información por parte de los s. Aprovechando estas características sería posible realizar consultas en lenguaje natural obteniendo como resultado justamente aquello que estamos demandando al contrario de muchos de los buscadores actuales que se basan en palabras clave. Es decir, el introduce las palabras relevantes de su búsqueda (Procesadores y Lenguaje, por ejemplo), y la aplicación devuelve todos los documentos que contienen esas palabras. Este tipo de funcionamiento penaliza la búsqueda con grandes desventajas, las más importantes:
• Escasa precisión o relevancia en los resultados: se devuelven muchos documentos poco relevantes para la búsqueda: la presencia de una palabra clave en un documento no implica necesariamente que éste sea relevante. • Excesiva sensibilidad al vocabulario empleado en las búsquedas: por tanto, imposibilidad de obtener a la primera todos los resultados relevantes disponibles: muchos documentos de interés pueden no incluir las palabras clave, pero sí sinónimos, hipónimos o hiperónimos de ellas.
Una búsqueda semántica es una consulta en la que se tiene en cuenta el contexto, y por tanto el significado, de aquello por lo que se pregunta (y no solamente las palabras de la consulta), con el objetivo de evitar la ambigüedades tanto de las consultas como del texto de los documentos donde se busca. Por ejemplo, una búsqueda semántica con las palabras escritor y El Quijote devolvería documentos sobre Miguel de Cervantes, aunque en ellos no aparecieran esos dos términos, porque identificaría los conceptos que estructuran la búsqueda. El fin último de las búsquedas semánticas radica en que los s puedan formular búsquedas más precisas y expresivas, que originen resultados
Page 3 of 3
relevantes para el con la mínima intervención de éste. Normalmente, se ite que las búsquedas semánticas se basan en técnicas para extraer información mediante la utilización de ontologías o metadatos. El uso de ontologías permite definir formalmente los dominios de interés (teorías científicas, por ejemplo) con la suficiente riqueza expresiva para que los s pueden especificar sus búsquedas con bastante detalle, ya sea antes de ejecutar la consulta o durante su ejecución. Uno de los problemas de los buscadores semánticos es que no siempre pueden acertar a la primera el significado de una palabra polisémica. Por tanto, deben disponer de medios de desambiguación para conocer el sentido exacto que tiene la palabra en la búsqueda. Para ello, puede escoger el significado más probable, preguntar al para que elija entre varias opciones o usar las demás palabras de la búsqueda para inferir el significado exacto de la palabra en ese contexto. Como se puede extraer de esta introducción, el campo de los procesadores de lenguaje cobra una gran importancia en esta tecnología; siendo la teoría de análisis sintáctico y semántico uno de los pilares fundamentales, tanto para el reconocimiento del lenguaje natural (utilizado en el campo de búsqueda), como para la extracción del código RTF y OWL (utilizado para la de las páginas) más adelante veremos como estos analizadores se utilizan para reconocer RTF.