Suscríbete GRATIS al boletín y recibe:
10 ebooks con las lecciones empresariales más representativas de Jack Welch, Kenichi Ohmae, Michael Newman y otros exitosos líderes de primer nivel en el mundo de los negocios...
Al pulsar aceptas los términos de uso y la política de privacidad
O mediante uno de los siguientes servicios:
Contiene la información más rica, la que puede proporcionar mayor valor para la Inteligencia Competitiva.
Mediante tecnologías de estructuración automática es posible
consultar esta información como si de una base de datos convencional se
tratase. Ello facilita la confección de indicadores para el proceso de
Inteligencia competitiva, a la vez que la creación de portales con
información personalizada y otras aplicaciones.
1. La Vigilancia como estrategia
La capacidad de innovación en un mercado cada vez más competitivo
determina quienes pueden diferenciarse del resto de sus competidores y
así incrementar los ingresos por la comercialización de sus productos o
servicios.
En consecuencia, para toda empresa es hoy día una exigencia máxima el
mantenerse puntualmente informada de lo que acontece a su alrededor:
Patentes relacionadas con los productos de la empresa.
Nuevas regulaciones y legislación.
Productos y precios de la competencia.
Avances científicos en medios especializados.
Alianzas y fusiones de competidores, clientes y suministradores.
Noticias de relevancia del sector.
Ferias y eventos.
Ayudas y subvenciones publicadas en boletines oficiales locales,
nacionales e internacionales.
Gran parte de esta información está disponible en tiempo real en
Internet, pero su recogida y explotación se ven dificultadas por la
dispersión y heterogeneidad de las fuentes.
El proceso, realizado de forma manual o con herramientas genéricas,
mal adaptadas o incompletas, se convierte habitualmente en un proceso
parcial, aleatorio, lento y poco estructurado.
Además, es también frecuente que los responsables de las tareas de
vigilancia dediquen su tiempo a la labor de recolección de datos, en
lugar de analizar dichos datos y transformarlos en Inteligencia
Competitiva.
La organización compromete así gran parte de sus recursos en la
obtención de la información, lo que genera resultados muy pobres.
Claramente, son necesarias soluciones que ayuden a la sistematización y
automatización de estas actividades. Estas soluciones de Vigilancia
Tecnológica se enfrentan a tres retos principales:
Cómo acceder a información de Internet, automatizando tareas como el
rellenado de formularios, el seguimiento de enlaces, los mecanismos de
autenticación o el mantenimiento de sesión.
Cómo extraer ítems de información (estructuración) de páginas HTML u
otros tipos de información semiestructurada.
Como mantener con agilidad estos sistemas ante cambios en los sitios web
sujetos a vigilancia.
2. Inteligencia Competitiva
La Inteligencia Competitiva (o Vigilancia Tecnológica; la mayor parte de
los expertos utiliza estos términos de forma intercambiable a pesar de
orígenes divergentes) podría definirse como el esfuerzo sistemático de
observación, captación, análisis, difusión y recuperación de información en
los entornos tecnológico y de negocio.

Según un estudio de la revista Puzzle, líder en el campo de Inteligencia Competitiva, ésta toca en mayor o menor medida todos los departamentos de la empresa, como se puede ver en el cuadro a continuación:

Dicho estudio también concluyó que las actividades más
frecuentes y que consumían la mayor cantidad de recursos de las unidades
de Inteligencia Competitiva eran las siguientes:
- Búsqueda
- Clasificación
- Análisis
- Distribución
3. Web Oculta
La paradoja radica en que la mayoría de la información disponible en
Internet no es visible para las herramientas tradicionalmente utilizadas
en la búsqueda y explotación de dicha información: nos estamos
refiriendo a la llamada “Web Oculta”,
y cómo los buscadores, por regla general, no son capaces de
mostrárnosla.
Pero ¿qué es la Web Oculta (también referida como Web Dinámica o
Invisible)? Raghavan y García Molina (2001) distinguen tres tipos de
dinamismo en páginas web:
- Dinamismo temporal (Temporal dynamism): es el dinamismo resultante de
contenido temporal, por ejemplo las cotizaciones de la bolsa o de tipos
de cambio o de noticias.
- Dinamismo de cliente (Client dynamism): el contenido que se sirva a un
cliente es diferente de otro, como en el caso de Amazon, con sus
recomendaciones personalizadas.
- Dinamismo de inserción (Input dynamism): los resultados de insertar
palabras clave en formularios.
La Web Oculta está ligada al tercer tipo de dinamismo en páginas Web
descrito por Raghavan y García Molina, el dinamismo de inserción, es decir aquellas páginas web que son generadas de forma dinámica a
partir de consultas generalmente realizadas a bases de datos, con las
que se interactúa a través de formularios.
La dificultad en acceder a dicha información por parte de los
crawlers actuales radica en que:
- En muchos casos los formularios de consulta no aparecen expuestos en
el código de las páginas directamente, sino que son fruto de la
ejecución de programas embebidos en las mismas (e.g. código Javascript),
por lo que los crawlers no tienen acceso a los mismos[1].
- por otro lado, en aquellos casos en los que puedan acceder al
formulario, no sabrían cómo realizar búsquedas sobre el mismo y cuales
serían las palabras clave de búsqueda a insertar en los diferentes
campos ya que desconocen el contenido y la semántica de la información
existente detrás del formulario de consulta.
- Muchas de las fuentes de información son bajo registro y exige que el
robot pueda suministrar un login y password del que no dispone.
El tamaño de la Web Oculta es sensiblemente superior a la de la Web
convencional o estática: contiene según diferentes estimaciones hasta
500 veces la información indexada por buscadores (7500 terabytes vs. 19
terabytes en un estudio realizado por BrightPlanet en el año 2000
(Michael K. Berg 2000)), de ahí el interés en el desarrollo de tecnologías que permitan
explotar adecuadamente esta información.
En el resto de este artículo presentamos las tecnologías que permiten el
acceso a la Web Oculta, y cómo las mismas pueden proporcionar una visión
estructurada de sus contenidos que facilite su tratamiento mediante
motores de consulta similares a los de las bases de datos relacionales, lo que permite construir aplicaciones de inteligencia
competitiva de alto valor añadido.
4. Las fuentes de información semiestructuradas
La importancia de la Web Oculta no deriva no obstante de la cantidad de
información que contiene, sino principalmente de la calidad de la misma:
todo lo que está detrás de un formulario tendrá una calidad mucho mayor
de lo que podamos encontrar antes (por ejemplo, el formulario de búsqueda de proyectos de investigación no guarda
ninguna relación con la cantidad y calidad de información accesible a
través de él en bases de datos como Cordis).
La información más valiosa se encuentra almacenada en bases de datos
y es accesible en Internet mediante formularios de consulta, tal y como
manifiesta Francois Libmann en una reciente entrevista a la revista
Regards sur I’IE (Francois Libmann 2005).
La propiedad más importante que caracteriza a la Web Oculta es que su
información está semiestructurada (o, lo que es lo mismo, débilmente
estructurada). ¿Qué quiere decir esto?: pues que a diferencia de la
información que típicamente reside en la Web estática, fundamentalmente
no estructurada, esta información ha sido generada de forma dinámica por
un programa, por lo que intrínsecamente existe una estructura subyacente a la
información, que puede ser inferida por medios automáticos para su mejor
aprovechamiento.
Y ahí está la principal ventaja de la información residente en la Web
Oculta: puede ser procesada de forma automática una vez que ha sido
estructurada, por lo que puede consultarse con lenguajes de consulta muy
potentes similares a los que nos ofrecen las bases de datos modernas.
5. Técnicas de Estructuración de Información
Para ello, como paso previo, es preciso la estructuración de la
información. En la actualidad existen tecnologías que permiten inferir
la estructura de las páginas de la fuente detectando automáticamente
delimitadores que nos marquen la separación de un registro o de un campo
al siguiente.
De esta forma es posible construir de forma automática un extractor
(también llamado envoltorio) que consiga traducir la fuente a una tabla
de datos con atributos de igual forma que podemos encontrarnos en una
base de datos convencional.

El proceso que sigue el usuario para extraer datos de la web oculta
es muy sencillo:
- El usuario graba su navegación por las páginas de llegada al
formulario, autenticación, inserción de datos y recogida de resultados.
- El usuario identifica los resultados de interés utilizando para ello
tres o cuatro ejemplos de resultados.
- La herramienta genera patrones de navegación y extracción, así como de
definición de la estructura de la fuente en base a esos ejemplos.
- Si el formato de la fuente cambia, el sistema intentará realizar el
proceso inverso, en el que trata de localizar en las nuevas páginas los
ejemplos de resultados obtenidos previamente e infiere a partir de ellos
el nuevo patrón de la fuente regenerándose de forma automática.
De modo que el paradigma de Web Semántica puede estar próximo, ya que
gracias a técnicas de estructuración automática como las mencionadas
podemos ofrecer una etiquetación automática del contenido del site, que
nos permita poder interpretar por parte de un computador tanto su
contenido como los servicios y posibles consultas que el mismo ofrece.
6. El potencial de las fuentes de información semiestructuradas para
la Inteligencia Competitiva
Volviendo al punto original, la información ya estructurada puede ser
explotada de forma muy potente mediante técnicas de bases de datos, que
combinen información de distintas fuentes, por lo que podemos responder
consultas del tipo:
- Obtener el montante medio de financiación en proyectos de I+D en
tecnologías UMTS financiado por la Programa de I+D de la Unión Europea
en el periodo 2002 – 2004.
- Construir una base de datos con todas las empresas del sector químico
que hayan invertido en Sudamérica más de 5 MEUR entre los años 2000 y
2005.
- Obtener la evolución de patentes por país en nanotecnología durante
los últimos cinco años.
Información de este tipo es claramente de mucho valor añadido para los
órganos de decisión de cualquier empresa. Entre las ventajas de estos sistemas figuran el que podamos
construir cuadros de mando con indicadores para visualización en el
proceso de inteligencia competitiva, como por ejemplo, extrayendo datos
de patentes, noticias, revistas especializadas, etc.,
y agregándolas todas en una sola página, un portal para la
inteligencia competitiva donde veamos la evolución de una tecnología por
número de patentes registradas, las últimas noticias extraídas de webs de competidores, así como las
noticias del sector por productos y tecnologías, todo extraído de diferentes fuentes, en tiempo real, y con la
información de la competencia.
Un sistema de Vigilancia Tecnológica/Inteligencia Competitiva que
ignorase la información escondida en bases de datos de artículos,
tecnologías, patentes, etc. sería completamente inadecuado. La exploración de esta web oculta necesita del descubrimiento
de las bases de datos relevantes y su incorporación a un sistema de
exploración sistemática y automatizada.
Es necesario el realizar una relación completa de las palabras clave
que nos interesan (productos, tecnologías, competidores, eventos,
suministradores, etc.), para disponer de la última información
actualizada. Entonces podemos lanzar regularmente nuestro sistema
automatizado contra bases de datos relevantes, y disponer de una
indexación de la web personalizada.
El sistema permitiría también la elaboración de estadísticas que pueden
avisar sobre sectores y tecnologías emergentes descubriendo en qué
campos se está trabajando más (con la generación de indicadores por
tecnologías, patentes, artículos, productos, competidores, etc.).
7. Últimas tendencias tecnológicas para la exploración de la Web
Oculta
Una lista parcial de bases de datos buscables en internet (Francois
Libmann 2005) revela que existen más de 150.000 bases de datos que no
están indexadas en Internet.
Algunas herramientas permiten la búsqueda simultánea y centralizada en cada una de ellas de un cierto número de palabras clave, y luego la posterior agregación del contenido.
Este tipo de herramientas permite la labor de descubrimiento de
fuentes que complementa a lo que se puede hacer vía otros buscadores, y
que es la labor previa a la puesta en marcha de un sistema de vigilancia
tecnológica automatizado.
En la actualidad se está investigando activamente en técnicas de
crawling especializadas en la Web Oculta (Raghavan y García Molina
2001).
El usuario proporciona al robot una descripción del dominio en el que está interesado (e.g. bases de datos de patentes), consistente en una relación de etiquetas típicas de campos de búsqueda en dicho dominio así como ejemplos de ítems de información válidos para el mismo.
El robot analiza los formularios de las páginas y utilizando técnicas
de similitud textual y proximidad visual genera un ranking en función de
la relevancia de los formularios encontrados con respecto al dominio de
interés; a continuación realiza búsquedas utilizando los ejemplos
suministrados con objeto de validar la página, y recuperar la
información contenida en la misma.
Otra variante tecnológica relacionada es lo que se conoce como Focussed
Crawling (Chakrabarti et al., 1999), en este caso el robot recorre enlaces al modo tradicional (sin cruzar
formularios) y analiza los documentos de la página comparándolos con los
que son referencia en el dominio de interés utilizando técnicas de
catalogación automática.
Estas técnicas se basan en la generación de vectores de claves obtenidos a partir de documentos representativos del dominio que han sido proporcionados previamente por el usuario.
Cuando el crawler obtiene un documento realiza el mismo proceso calculando el vector de claves para el mismo, a continuación calcula la proximidad con el documento que sirve de patrón para dicho dominio, descartando aquéllos que no pertenezcan al dominio de interés.
De este modo podríamos construir un buscador especializado por
ejemplo en nanotecnología, y que nos construyese un índice con toda la
información disponible en Internet relativa a esta temática.
8. Conclusión
Las técnicas de estructuración automática permiten obtener una visión
estructurada de la información que reside en la Web Oculta. Ello
facilita la creación de indicadores para el proceso de la Inteligencia
Competitiva basados en potentes consultas en las que se recoge
información de forma combinada de diversas fuentes.
En definitiva las tecnologías que permiten una explotación adecuada de
la información residente en la Web Oculta pueden proporcionar un alto
valor añadido para la construcción de aplicaciones de Inteligencia
Competitiva, ya que abren un universo de posibilidades hasta ahora
desconocido.
Referencias
Raghavan y García Molina. “Crawling the Hidden Web”. En: Proceedings of
the 27th International Conference on Very Large Data Bases (VLDB 2001),
2001, Morgan Kaufmann, pp. 129 -138.
Michael K. Berg, "The Deep Web: Surfacing Hidden Value", BrightPlanet
White Paper, 24 de Septiembre de 2001
Francois Libmann. "Web Invisible: Le Rideau Tombe!", 2005. En Regards
sur l'IE, Mayo-Junio 2005.
Juan Raposo, Alberto Pan, Manuel Álvarez, Ángel Viña. “Automatic Wrapper
Maintenance for Semi-Structured Web Sources Using Results from Previous
Queries”. En: Proceedings of the 2005 ACM Symposium on Applied Computing.
(SAC 2005), 2005, The Association for Computing Machinery, Inc., pp.
654-659.
Alberto Pan, Juan Raposo, Manuel Álvarez, Paula Montoto, Vicente Orjales,
Justo Hidalgo, Lucia Ardao, Anastasio Molano y Ángel Viña. “The DENODO
Data Integration Platform”. En: Proceedings of the 28th International
Conference on Very Large Data Bases (VLDB 2002), 2002. Morgan Kaufmann,
pp. 986-989.
S. Chakrabarti, M. Van der Berg and B. Dom. “Focussed Crawling: A New
Approach to Topic-specific Web Resource Discovery”. En: Proceedings of
the 8th Internacional World Wide Web Conference, 1999.
Anastasio Molano y Alberto Arnedillo - aarnedilloarrobadenodo.com amolanoarrobadenodo.com
Licenciado en Economía por la Universidad de York, y Master por la London School of Economics. Después de trabajar como responsable de las previsiones para España en la Dirección General de Asuntos Económicos y Financieros en la Comisión Europea, obtuvo un MBA por la Universidad de Stanford. Ha trabajado como consultor estratégico aplicando la teoría de la Ventaja Competitiva de las Naciones al lado de Michael Porter en Monitor Company, así como en empresas pioneras de alta tecnología en realidad virtual e internet.
Doctor Ingeniero de Telecomunicación por la Universidad Politécnica de Madrid. Ha sido investigador en el Real-Time and Multimedia Systems Laboratory de la Universidad Carnegie Mellon (USA). Ha publicado numerosos artículos relacionados con las tecnologías de integración de información en foros de prestigio tales como el VLDB y el IEEE.
Buscar recursos sobre
Master internacional desde España (Online)- Becas parciales
Una frase memorable
Acerca de GestioPolis: Qué es GestioPolis — Términos de uso y Política de privacidad — Mapa del sitio — Contácto — Aliados — Contratar publicidad
Derechos de Autor: Los contenidos están bajo la licencia Reconocimiento - No comercial - Compartir bajo la misma licencia 3.0 Unported de Creative Commons a menos que se indiquen derechos de autor específicos. Si desea citar o utilizar públicamente alguno de los contenidos le solicitamos ponerse en contacto con el respectivo autor.
Derechos Reservados sobre el concepto del sitio web GestioPolis.com © 2008 Carlos López