Minerías: Datos, Textos, Sentimientos

Desde que los primeros seres humanos empezaron a comunicarse entre sí, empezó a surgir esa necesidad de estar siempre informado de todo lo que se suscitaba a su alrededor, también, se buscaba la manera de tener a la mano esa información para poder llevar a cabo ciertas actividades, pudiendo ser estas para una acción personal, grupal, en una sociedad, una organización o inclusive un país.

En el pasado, para poder acceder a datos, información, estadísticas de algún tipo, entre otros, solo se podía a través de libros, textos, hablando con otras personas, por medio de nuestras propias vivencias, o ya los más afortunados contaban con las primeras computadoras, que prácticamente no les dejaban guardar mucha información o siquiera transmitir gran parte de ella, entre otras herramientas. Todo esto entorpecía en gran forma el proceso de acceder y compartir la información, ya que se requería de mucho tiempo y esfuerzo para poder hallar ese dato o información que necesitaba la persona.

Hoy en día, la manera en que se crean, generan y distribuyen datos e información ha cambiado para bien, ya que es muy fácil para cualquier persona, sin importar en que parte del mundo se encuentre. Podemos hallar información sobre la economía de algún país en particular, la mercadotecnia de algún producto, sobre nuevas tecnologías que están surgiendo y nos facilitan nuestra manera de vivir la vida, entre muchas otras cosas; esta información se almacena en grandes bases de datos.

Y si, aunque pareciera que todo es perfecto debido a que es muy fácil hallar cualquier información prácticamente a la distancia de un clic, esto entorpece un poco poder elegir cual es la mejor información o la más confiable, debido a que se generan millones de datos al día.

Es muy común que escuchemos en diversas situaciones a la minería de datos, la cual es una herramienta muy eficaz para poder elegir de una mejor manera los datos y la información que la persona o la organización necesita en el momento que la requiera. Así mismo de esta herramienta se desprenden otras, las cuales son minería de textos y de sentimientos, que comparten los mismos cimientos que la minería de datos, solo que están  se encaminan hacia otros semblantes.

Conceptos clave. 

Para facilitar el proceso de lectura sobre el tema “Minerías (Datos, Textos, Sentimientos)”, se citaran algunas definiciones que se consideran importantes que el lector conozca:

Minería de datos

“Es el conjunto de técnicas y tecnologías que permiten explorar grandes bases de datos, de manera automática o semiautomática, con el objetivo de encontrar patrones repetitivos, tendencias o reglas que expliquen el comportamiento de los datos en un determinado contexto.” (Sinnexus , 2016)

Minería de textos 

“Es el proceso encargado del descubrimiento de información que no existía explícitamente en ningún texto de la colección, pero que surge de relacionar el contenido de varios de ellos.” (Rochina, 2017)

Minería de sentimientos

“Se refiere al uso de procesamiento de lenguaje natural, análisis de texto y lingüística computacional para identificar y extraer información subjetiva de los recursos.” (Wikipedia , 2018)

Origen de la minería de datos

La minería de datos es un tema que podría considerarse relativamente reciente, ya que no tiene muchos años que empezó a utilizarse. Las partes clave de la minería de datos, dicho de otra forma, los elementos que permiten su correcto funcionamiento ya tienen más tiempo de ser utilizados en la indagación de diferentes áreas, como son la estadística, el aprendizaje autónomo, la inteligencia artificial, entre otras. Hoy en día la herramienta de la minería de datos ha avanzado considerablemente, gracias al perfeccionamiento de poderosos buscadores de información y bases de datos mucho más extensas de las que se tenían en épocas pasadas.

Las primeras ideas que se tenían sobre el concepto de minería de datos, llegaron durante la década de los 50´s gracias al estudio de la ingeniería de datos. Los que se dedicaban a la informática en aquella época, generaban listados de información de diferente tipo, como podían ser sobre ciertos productos, procesos, entre otras cosas, toda esta información se guardaba en una especie de computadora que fungía como la principal en la organización y ayudaba a los directivos a poder tomar la mejor decisión sobre determinado tema.

Con todo esto, se concibieron los primeros sistemas dedicados al tratamiento de la información para los directivos o jefes de la empresa, por desgracia, estos sistemas eran demasiado pesados y no se podía guardar mucha información, además para los que no estaban familiarizados con la informática, no eran sencillos de comprender.

En la década de los 60´s se generaron los primeros sistemas gestores de bases de datos, pero aun no eran totalmente “digeribles” para alguien que no estuviera familiarizado con esos conceptos.

Ya durante la década de los 80´s se creó el sistema llamado Data Warehouse, que arreglaba los inconvenientes que tenían los sistemas de base de datos previos. La presencia de los Data Warehouse, hizo que los expertos en el tema desarrollaran nuevas perspectivas sobre todo esto, en donde estos análisis se volvieran autónomos y dan la oportunidad de  extirpar determinada información.

Historia de las bases y minerías de datos, tomada de (Martínez, 2010)
Historia de las bases y minerías de datos, tomada de (Martínez, 2010)

Historia de las bases y minerías de datos, tomada de (Martínez, 2010)

Minería de datos

Hoy en día la revolución que trajo consigo la cultura digital ha dado la habilidad de que la captura, almacenamiento y procesamiento de datos y de información sea un trabajo relativamente fácil, también, el precio por hacer todo este procedimiento es relativamente muy bajo a lo que costaba hace algunos años.

El aumento en el volumen y diversidad de datos que se tiene almacenados en sistemas informáticos o bases de datos digitales ha aumentado de una manera inimaginable en los últimos años.

“La mayoría de datos información y datos almacenados en las bases datos, corresponde a datos históricos, en otras palabras, son datos de situaciones, cambios, suceso, transacciones que se han realizado o producido en el pasado.” (Orallo, Quintana, & Ramírez, 2014)

Todos los datos que se vienen acumulando desde que se fundó o creo alguna organización, tienen que tener la función de servir como la memoria de la propia empresa, y así mismo, ser de utilidad para presagiar ciertos datos o información en un futuro cercano.

Para poder realizar el proceso de analizar los grandes volúmenes de datos que generan cualquier empresa, los procedimientos tradicionales para administrar los datos y la información, así como también, las diferentes metodologías de estadística, ya no son suficiente, o dicho de otra forma las que se necesitan.

A la hora de que una organización requiera tomar alguna decisión, siempre se basara en la información o datos que se tengan sobre sucesos del pasado que han sido recopilados en alguna fuente de datos. La extracción de esa información de su correspondiente base de datos, pudiendo ser de forma automática o semiautomática, ha empezado a tener mucha relevancia en el presente, por lo que se desarrollaron diferentes procedimientos para poder realizarlo de una manera eficiente, una de estas herramientas es la minería de datos.

El principal objetivo de la minería de datos es el de detectar el conocimiento que ha adquirido la organización a partir de alguna base de datos, las cuales darán diversas facilidades a los colaboradores a la hora de la toma de decisiones.

“De forma más concreta, la minería de datos es la búsqueda y análisis de grandes volúmenes de datos con el objetivo de encontrar patrones o similitudes y reglas significativas con respecto a conocimiento.” (Orallo, Quintana, & Ramírez, 2014) 

La minería de datos combina diferentes técnicas semiautomáticas de inteligencia artificial, visualización gráfica, bases de datos y análisis estadístico, para que la organización pueda obtener algún conocimiento en base a todos los datos y la información recopilada, ya que la minería por sí sola no podría representar algún valor para la empresa. La minería de datos puede estar en los primeros lugares del top de la evolución de las herramientas tecnológicas del análisis de datos.

El concepto de minería de datos (o DataMining por su nombre en inglés) proviene de la analogía de una colina y la gigantesca cantidad de datos almacenados en una organización. Estos datos se localizan dentro de la colina, ocultos entre rocas y maleza; si se cava profundamente se podrían hallar diferentes rocas que podrían catalogarse como “joyas” de un importante valor, dicho de otra manera, si se buscan datos de una manera profunda, se podrá localizar información que podría ser de mucho valor para poder construir conocimiento.

Proceso que lleva la minería de datos

El primer paso para poder efectuar una correcta minería de datos, es identificar qué clase de datos son los que se están buscando. Para esto, se tiene que pensar en cuales son los datos que se requieren, donde se pueden localizar y la manera de conseguirlos.

Una vez que ya estén en nuestro poder, se deben de preparar, almacenándolos en las bases de datos con el formato que requieran o permitan o también está la opción de generar un warehouse (que es una de las partes más complicadas dentro de la minería de datos). Cuando ya se han almacenado los datos en el formato que acepta la base de datos, se prosigue a efectuar la selección de los datos meramente necesarios y a borrar los que no sean de gran importancia para la organización.

Debemos de tener en claro que es lo que es lo que queremos conseguir o encontrar (esto se tendrá que hacer antes de continuar con el análisis de datos haciendo uso de la minería de datos), también, se debe de tener presente que herramientas o procesos son vitales para continuar con el proceso. Después de hacer uso de la herramienta que decidimos utilizar, se debe de tener una idea sobre como descifrar los resultados que se obtuvieron, para poder concluir si de verdad son útiles para la organización y poder clasificarlos para un posible uso posterior.

Ya que se tienen los datos y la información que si son útiles para el momento actual de la organización, se procederá a discutirlos y analizarlos, para poder tomar la mejor decisión posible sobre la situación que se esté discutiendo.

Una vez que ya se tomó la decisión con base a los datos obtenidos con la minería de datos, se procede a evaluar qué fue lo que ocurrió, para poder lograr esto se tienen que observar y estudiar los resultados, si hubo beneficios y cuáles fueron los costos totales para poder hacer una evaluación total del proceso a modo de retroalimentación. En todo este lapso de tiempo de retroalimentación, los datos tenderán a modificarse, cabe la posibilidad que se encuentren nuevas herramientas o metodologías y que obviamente tendrá que volverse a planear el próximo ciclo de minería de datos.

A modo de síntesis, el proceso de minería de datos debe de llegar los siguientes pasos:

  • Procesar los datos.
  • Elegir las características que más se adapten a la situación.
  • Escoger un algoritmo para extirpar los datos e información requerida.
  • Análisis, interpretación y evaluación.
Proceso de la minería de datos, tomada de (Egonzales, 2008)
Proceso de la minería de datos, tomada de (Egonzales, 2008)

Técnicas de la minería de datos

De acuerdo a (Ahumada, 2016) las técnicas de minería de datos por lo regular se catalogan en: predictivas, descriptivas y auxiliares, y quedan de la siguiente forma:

Predictivas

  • Regresión.
  • Análisis de la varianza y covarianza.
  • Series temporales.
  • Método boyesiano.
  • Algoritmos genéticos.

Clasificación ad hoc:

  • Discriminante, arboles de decisión y redes neuronales.

Descriptivas

Clasificación post hoc:

  • Clusterin
  • Segmentación
  • Dependencia
  • Asociación.
  • Escalamiento multidimensional.
  • Reducción de la dimensión.
  • Análisis exploratorio.

Auxiliares

  • SQL y herramienta de consulta.

¿De qué se encarga la minería de datos?

La minería de datos por naturaleza es un proceso, por lo cual se debe de incluir un ajuste de modelo o que se precisen cuáles serán los estándares a partir de ciertos datos. Por lo regular, estos ajustes son de clase estadística, ya que se dará la holgura para que el modelo pueda tener cierto error.

La minería de datos requiere de algoritmos, los cuales tendrán la función de hacer la labor de predecir (con base a datos que ya se conocen) y describir (teniendo como cimiento los patrones que se establecieron). Algunas de estas tareas son las siguientes:

Definir las clases. 

  • Esta tarea tiene como su objetivo el de identificar grupos de categorías para describir los datos. Estas categorías pueden ser de tipo exclusivas o exhaustivas, así mismo, basarse de una representación jerárquica, pudiendo llegar a permitir traslapes.

Clasificación. 

  • La minería de datos tiene la habilidad de mapear, dicho de otra forma, catalogar algún dato en alguna de las clases prestablecidas, y esto servirá, para poder hallar determinado dato en un tiempo mucho más corto.

Definición de conceptos. 

  • Este componente de la minería de datos se basa en localizar un método que nos ayude a encontrar descripciones algo comprimidas de un subconjunto de datos. Los procesos más sofisticados incluyen reglas de comprensión, visualización multivariada y el poder interpretar relaciones funcionales entre diversas variables. Es muy común que los procesos antes mencionados sean usados en el análisis y estudio de datos de manera interactiva y en la generación de reportes automáticos.

Modelado de dependencias.

  • El principal objetivo de esta tarea es de localizar un modelo a través del cual se definan las dependencias entre las variables. Podemos encontrar dos niveles dentro de estos modelos, los cuales son:
    • Nivel estructural: Es muy común que encontremos este nivel como una gráfica, en donde las variables dependen unas de las otras de manera local.
    • Nivel cuantitativo: Detalla cual será el “tamaño” de esas dependencias, con la ayuda de escalas numéricas.

Las redes de dependencia probabilística deben de hacer uso de la independencia condicional para poder especificar cuál será el diseño estructural del modelo y sus probabilidades.

Regresión. 

  • El principal objetivo de esta tarea es el de lograr el puesto de mapeo para un dato y volverlo una variable de predicción con un valor real. Algunos ejemplos que se le pueden dar a esta tarea son: Predecir cuanta biomasa hay en alguna sección de un bosque en particular, el cual está siendo analizado por una microonda; así mismo, se tiene la capacidad de calcular la probabilidad que tiene algún paciente de no perecer, teniendo como base los resultados de un diagnóstico previo.

Minería de textos

La minería de datos es un área técnicamente joven de investigación y estudio para el procesamiento de textos. Es interpretada de la misma forma que la minería de datos, dicho con otras palabras, es una metodología por la cual se pueden estipular nuevos patrones o estándares atrayentes y producir nuevo conocimiento, pero en vez de ocupar datos, se usaran grandes cantidades de textos.

Por lo que podemos decir que la minería de textos tiene como principal objetivo el de hallar nuevo conocimiento que no se claramente estipulado en algún texto.

Etapas de la minería de textos, tomada de (Gómez, 2001)
Etapas de la minería de textos, tomada de (Gómez, 2001)

Así mismo, la minería de datos tiende a realizar las siguientes tareas:

  • Recuperar datos e información, es decir, seleccionar textos que sean los más adecuados a lo que busque la organización.
  • Extirpar información valiosa que esta incrustada en algunos textos y que se haya pasado por alto, pudiendo ser: hechos, palabras clave, sucesos importantes, relaciones entre textos, entre otros.
  • Al poseer una metodología similar a la de la minería de datos, la minería de textos también quiere hallar datos primordiales con los cuales crear nuevo conocimiento para la empresa.

De acuerdo a (Nuño & Machado) algunas técnicas que utiliza la minería de textos son las siguientes:

  • Clasificación de textos.
  • Recuperar información y extraer textos claves.
  • Aprendizaje automático.
  • Procesamiento de lenguaje natural.

Proceso de la minería de textos

Como se mencionó anteriormente, la minería de textos es una técnica relativamente joven, que puede variar su proceso y que puede moldearse a diversas situaciones, no hay todavía alguna metodología ya establecida que nos sirva de guía.

Pero, se puede hacer uso de los siguientes pasos:

Pasos de la minería de textos, elaboración propia con información de (Gómez, 2001)
Pasos de la minería de textos, elaboración propia con información de (Gómez, 2001)

Minería de sentimientos

La minería de datos es una serie de ejecuciones técnicas del procesamiento del lenguaje natural, lingüística computacional y de la minería de textos, cuyo principal objetivo es la extirpación de información intrínseca a partir de contenido desarrollado por colaboradores o cualquier otro individuo, por ejemplo: Comentarios que se realizan día a día en las diferentes redes sociales que existen, blogs o grupos de comentarios para evaluar productos.

La minería de sentimientos se extiende por diversos campos de estudio que guardan cierta relación con el análisis de elementos subjetivos que estén implícitos en los elementos que han sido generados por los diferentes usuarios. Entonces, por ende, la minería de sentimientos se puede hallar dos clases de tareas que se pueden llevar a cabo.

Caracterización de la polaridad

Trata sobre poder establecer si una opinión se puede clasificar como positiva o negativa, si será de utilidad para el usuario o no. También, se cuenta con la posibilidad de poder generar un valor numérico dentro de un rango establecido.

Estudio del sentimiento en base a las características.

Hace énfasis a la habilidad de hallar las diferentes características del producto o servicio que fueron estipuladas en la opinión que redacto algún usuario.

Propuesta de tesis. 

Implementar la minería de datos dentro de las Pymes de la zona Córdoba – Orizaba para una mejor gestión de la organización.

Objetivo. 

Optimizar el flujo de información dentro de la organización, separando la que si sirve de la que no, y con ello agilizando la toma de decisiones.

Agradecimientos. 

Agradezco a mi familia, por darme todo el apoyo y el impulso para seguir día con día, al Instituto Tecnológico de Orizaba y al CONACYT por abrirme sus puertas y permitirme continuar mis estudios con la Maestría en Ingeniería Administrativa y al Doctor Fernando Aguirre y Hernández por motivarme con su conocimiento en el seminario de Fundamentos de Ingeniería Administrativa para realizar cada uno de los artículos asignados.

Conclusión. 

Las organizaciones y cualquier colaborador que labore en ellas, al estar envueltos en grandes volúmenes de información, las minerías, pudiendo ser de cualquier tipo (datos, textos o sentimientos), dotaran de ciertas herramientas y habilidades muy necesarias para la identificación, elección, procesamiento, estudio y evaluación de los datos que se han recabado con la finalidad de poder producir información y posteriormente volverla conocimiento que pueda ser de suma utilidad para las organizaciones y los colaboradores que laboran en ellas.

Las minerías pueden ser de mucha ayuda a la hora de tomar diferentes decisiones sobre el futuro de la empresa, ya que toda la información que se produce con la ayuda de estas, tiene como finalidad el estructurar de una mejor forma las ideas y asegurarse de la veracidad de estas, para que no haya ninguna duda a la hora de tomar la mejor decisión.

Así mismo, funciona como una estrategia tecnológica, la minería de cualquier tipo potencia la ventaja competitiva, ya que optimiza diversos procesos en las organizaciones, en especial la toma de decisiones que se describió anteriormente.

Bibliografía. 

Ahumada, A. M. (7 de Abril de 2016). Gestiopolis . Obtenido de https://www.gestiopolis.com/mineria-datos-textos-sentimientos-2/#autores

Egonzales. (4 de Abril de 2008). Monografías . Obtenido de http://www.monografias.com/usuario/perfiles/egonzalez/monografias

Gómez, M. M. (2001). Minería de texto: Un nuevo reto computacional. Instituto Politécnico Nacional, 2-13.

Martínez, B. B. (2010). BUAP. Obtenido de http://bbeltran.cs.buap.mx/Ceneval.html

Nuño, R. R., & Machado, E. F. (s.f.). Galeon.com. Obtenido de http://textmining.galeon.com/

Orallo, J. H., Quintana, M. J., & Ramírez, C. F. (2014). Extracción Automática de Conocimiento en Bases de Datos e Ingeniería del Software. Universitat Politècnica de València.

Rochina, P. (25 de Abril de 2017). Revista digital INESEM. Obtenido de https://revistadigital.inesem.es/informatica-y-tics/text-mining/

Sinnexus . (2016). Sinnexus . Obtenido de https://www.sinnexus.com/business_intelligence/datamining.aspx

Wikipedia . (18 de Abril de 2018). Wikipedia, la enciclopedia libre . Obtenido de https://es.wikipedia.org/wiki/An%C3%A1lisis_de_sentimiento

Hazle saber al autor que aprecias su trabajo

Tu opinión vale, comenta aquíOculta los comentarios

Comentarios

comentarios

Compártelo con tu mundo

Cita esta página
Baranda Pacheco Martín. (2018, junio 5). Minerías: Datos, Textos, Sentimientos. Recuperado de https://www.gestiopolis.com/minerias-datos-textos-sentimientos/
Baranda Pacheco, Martín. "Minerías: Datos, Textos, Sentimientos". GestioPolis. 5 junio 2018. Web. <https://www.gestiopolis.com/minerias-datos-textos-sentimientos/>.
Baranda Pacheco, Martín. "Minerías: Datos, Textos, Sentimientos". GestioPolis. junio 5, 2018. Consultado el 12 de Diciembre de 2018. https://www.gestiopolis.com/minerias-datos-textos-sentimientos/.
Baranda Pacheco, Martín. Minerías: Datos, Textos, Sentimientos [en línea]. <https://www.gestiopolis.com/minerias-datos-textos-sentimientos/> [Citado el 12 de Diciembre de 2018].
Copiar
Imagen del encabezado cortesía de inl en Flickr
DACJ