Diferencia entre Data Mining y Text Mining

Dentro del Data Science tenemos dos elementos que ya hemos tratado con anterioridad: Data Mining y Text Mining. Para todos aquellos que no lo sepan, vamos a hacer un análisis para entender sus diferencias. Esto es imprescindible para los futuros estudiantes de Data Science. ¿Estás listo? ¡Comenzamos!

¿Qué es el Data Mining?

La minería de datos o exploración de datos (es la etapa de análisis de «Knowledge Discovery in Databases» o KDD) es un campo de la estadística y las ciencias de la computación. Este hace referencia al proceso que intenta descubrir patrones en grandes volúmenes de datos. Utiliza los métodos de la inteligencia artificial, aprendizaje automático, estadística y sistemas de bases de datos.

El objetivo general del proceso de minería de datos consiste en extraer información de un conjunto de datos y transformarla en una estructura comprensible para su uso posterior. Además de la etapa de análisis en bruto, supone aspectos de gestión de datos y de bases de datos, de procesamiento de datos, del modelo y de las consideraciones de inferencia, de métricas de Intereses, de consideraciones de la Teoría de la complejidad computacional, de post-procesamiento de las estructuras descubiertas, de la visualización y de la actualización en línea.

El término es un concepto de moda, y se utiliza de forma errónea para referirse a cualquier forma de datos a gran escala o procesamiento de la información. Se suele generalizar para hablar de: recolección, extracción, almacenamiento, análisis y estadísticas. No obstante, también se ha generalizado a cualquier tipo de sistema de apoyo informático. Incluyendo así la inteligencia artificial, el aprendizaje automático y la inteligencia empresarial.

Objetivos del Data Mining

La tarea de la minería de datos es el análisis automático o semi-automático de grandes cantidades de datos. Esto sirve para extraer patrones interesantes hasta ahora desconocidos. Hablamos así de los grupos de registros de datos (análisis clúster), registros poco usuales (la detección de anomalías) y dependencias (minería por reglas de asociación). Esto generalmente implica el uso de técnicas de bases de datos como los índices espaciales. Así, estos patrones pueden ser vistos como una especie de resumen de los datos de entrada. Además de poder ser utilizados en el análisis adicional o, por ejemplo, en el aprendizaje automático y análisis predictivo.

Uno de los ejemplos que podemos poner es la minería de datos. Esta podría identificar varios grupos en los datos, que luego pueden ser utilizados para obtener resultados más precisos. Pudiendo predecir los problemas a través de un sistema de soporte de decisiones. Ni la recolección de datos, preparación de datos, ni la interpretación de los resultados y la información son parte de la etapa de minería de datos. No obstante, pertenecen a todo el proceso KDD como pasos adicionales.

La aplicación de los modelos de minería de datos

Los patrones y tendencias de la minería de datos se pueden considerar también modelos de Data Mining. Cabe destacar que hay cinco escenarios específicos donde dichos modelos pueden ser aplicados:

Previsiones. Cálculo de ventas y predicción de cargas en los servidores, o incluso cálculo del tiempo que el servidor permanece inactivo.
Riesgos y probabilidades. Se trata de un escenario donde se busca distinguir a los mejores clientes para distribuir el correo. Pudiendo así determinar un equilibro en cuanto al riesgo y a las probabilidades de resultados.
Búsqueda de secuencias. Se efectúa el análisis de los artículos que los propios clientes introducen en su carro de la compra. A través de las secuencias y datos extraídos se pueden llegar a predecir posibles eventos futuros.
Agrupamiento. En este escenario se busca dividir a los clientes o los eventos en grupos de elementos que están relacionados entre sí. De este modo se puede realizar un análisis y predecir las afinidades.

¿Qué es el Text-Mining?

data-mining-text-mining-review1

La minería de textos la podemos entender como el análisis de textos con el fin de extraer información a partir de los mismos. Es decir, una tecnología cuyo objetivo es la búsqueda de conocimiento en grandes colecciones de documentos. A simple vista, el proceso Text Mining no se diferencia de la definición previa que hemos establecido para el Data Mining. No obstante, la Minería de Textos es una variante de la Minería de Datos, adoptando sus técnicas de aprendizaje automático para reconocer patrones y comprender nueva información.

En la minería de texto obtenemos información nueva a partir de grandes cantidades de texto. Pero, en estos datos, la información no suele estar estructurada. Por su parte, en la minería de datos, el conocimiento se obtiene a partir de las bases de datos, donde la información está estructurada. Por lo tanto, en la minería de textos los datos a tratar serán los documentos y textos de las organizaciones, en lugar de los datos de las bases de datos. Llevando a cabo así un análisis de los datos compartidos por todos los textos de la colección.

Las actividades principales de la minería de textos

Como hemos podido ver, la minería de textos es un proceso que se encarga de distribuir la información inexistente de los textos de una determinada colección. Esta información surge al comparar varios textos, relacionando su contenido. Para conseguir esto, el Text Mining realiza tres actividades clave:

Recuperar la información: Esta actividad selecciona textos específicos para relacionarlos entre sí.
Extraer la información: la información que podemos encontrar en los textos previamente seleccionados se analiza mediante el procesamiento de lenguaje natural. Se busca extraer la información específica como sería el caso de: datos clave, hechos, acontecimientos, etcétera.
Data Mining: se utiliza para poder llegar a establecer relaciones y encontrar las asociaciones que puede haber entre los textos. Así pues, se relacionan los datos clave que se habían extraído con la segunda actividad.

Las aplicaciones del Text Mining

La minería de textos puede ser encontrada en campos diferentes, de hecho podemos encontrar multitud de trabajos de ámbitos diversos como sería el caso de la medicina, el análisis de opiniones, la filología, la biología, etcétera. No obstante, para que estos textos estén publicados han tenido que pasar por un análisis de la minería de datos. Las cinco principales aplicaciones del Text Mining que podemos encontrar son las siguientes:

La Búsqueda de Información. Son las búsquedas que se hacen a partir de una pregunta, palabra concreta o contenido interesante. Por ejemplo, podemos encontrar esta aplicación en Google y su motor de búsqueda del contenido que podemos encontrar en Internet.
El reconocimiento de entidades mencionadas y referencias. Se utilizan estadísticas, nombres de lugares, personas, entidades, etcétera. Con este análisis se pretende agrupar una cantidad de textos que tengan la misma palabra o información, como sería el caso de los Trending Topic (Tema de Tendencia) de Twitter.
Clustering. Se agrupan los textos que reúnen criterios similares que no pueden ser vistos directamente. Sería el caso de reunir los libros por estilo de redacción o vocabulario utilizado.
Clasificación. Se trata de la etiquetar los textos para dividirlo en categorías de forma más eficaz. Por poner un ejemplo podemos ver los documentos de texto de Facebook o los vídeos de YouTube que están agrupados por ofensivos o no ofensivos, contenido violento, etcétera.
Análisis de sentimientos. En base a los resultados estadísticos podremos saber si un determinado texto es positivo, negativo o incluso neutral. En este caso podríamos hablar de Tripadvisor, una app donde podemos acceder a los comentarios sobre restaurantes, hoteles etcétera. A través del análisis de texto podemos ver cuántos comentarios son positivos y cuántos negativos.

¿Quieres ser un especialista en este ámbito? ¡Cursa nuestro Máster en Data Science!

data-mining-text-mining-review

Una vez vistas estas dos diferencias, a simple vista muy sencillas, es importante destacar que no es tan fácil comprenderlas. Para ser experto en ellas es preciso estudiar o hacer cursos de Data Mining y Text Mining. O incluso especializar tus estudios en un Máster en Data Science. Si te gustaría probar esta opción, echa un vistazo a nuestra oferta formativa.

La Universidad de Alcalá de Henares, una de las más antiguas de España, te ofrece la oportunidad de mejorar tu futuro. A través del Máster en Data Science podrás convertirte en todo un profesional en el ámbito, en un experto data scientist que las empresas estarán deseando contratar. Además, con la posibilidad de cursarlo online podrás compaginar tu vida laboral y familiar con los estudios. ¿A qué esperas? Impulsa tu carrera profesional y laboral con nosotros, no te arrepentirás. ¡No dudes más y apúntate a nuestro máster!

POST SIGUIENTE POST ANTERIOR

Solicita Información

Rellene este formulario para enviarnos cualquier consulta. En breve nos pondremos en contacto contigo.

Dirección

Madrid (España)

EMAIL DE CONTACTO

master.datascience@uah.es