Loading...

Glosario del Data Science, parte 2

Posted 10 mayo By Master Data ScienceIn 0 comments

Data Science o ciencia de datos está incrementando su importancia últimamente. Para poder saber perfectamente qué es y lo que involucra hemos decidido redactar un amplio glosario para poder comprender las áreas en las que trabajar. En concreto, esta es nuestra segunda entrega. ¿Listo para seguir aprendiendo?

¿Qué es el Data Science?

Data Science es un campo interdisciplinario que involucra métodos científicos, procesos y sistemas para extraer conocimiento o un mejor entendimiento de datos, es decir, es el proceso de descubrir información oculta en grandes cantidades de datos y estructurados y no estructurados, utilizando métodos como la estadística, Machine Learning, Data Mining y la analítica predictiva.

Las empresas que capturan más valor de los nuevos orígenes de datos (meteorología, asistencia sanitaria, tráfico, comercio minorista, opinión social, etc.) y la utilizan para diferenciarse, son las que definirán el negocio cognitivo, por lo que los graduados en el máster en Data Science serán altamente demandados en empresas tecnológicas que querrán mejorar su negocio.

Glosario del Data Science

Deep Learning

Es un algoritmo multinivel que identifica gradualmente objetos con niveles más altos de abstracción. Por ejemplo, el primer nivel puede identificar ciertas líneas, el siguiente nivel identifica combinaciones de líneas como sombras, y el siguiente nivel identifica combinaciones de sombras como objetos específicos. Como puede deducirse en este ejemplo, el Deep Learning es popular para la clasificación de imágenes, entre otras aplicaciones.

Inteligencia artificial

La inteligencia artificial es la capacidad de hacer que las máquinas actúen con la inteligencia aparente, aunque las diversas definiciones de “inteligencia” llevan un rango de significados para la variedad artificial. A medida que el coste de los recursos informáticos disminuyó, el enfoque se dirigió más al análisis estadístico de grandes cantidades de datos para impulsar la toma de decisiones que da la apariencia de inteligencia.

Lingüística computacional

También llamado procesamiento de lenguaje natural, PNL. Es una rama de la informática que se encarga de analizar el texto de los idiomas hablados (por ejemplo, inglés o mandarín) para convertirlo en datos estructurados que puede utilizar para conducir la lógica del programa.

Los primeros esfuerzos se centraron en traducir un idioma a otro o aceptar oraciones completas como consultas a bases de datos. Los esfuerzos modernos a menudo analizan documentos y otros datos (por ejemplo, tweets) para extraer información potencialmente valiosa.

Machine Learning

El uso de algoritmos basados en datos funcionan mejor ya que tienen más datos para trabajar, “aprendiendo” (es decir, refinando sus modelos) a partir de estos datos adicionales. Esto a menudo implica la validación cruzada con los conjuntos de datos de entrenamiento y prueba.

El objetivo fundamental del aprendizaje automático es generalizar más allá de los ejemplos en el conjunto de entrenamiento. Estudiar la aplicación práctica del aprendizaje automático generalmente significa investigar qué algoritmos de aprendizaje automático son los mejores para cada situación.

Matriz

Se puede definir como un conjunto de números o términos dispuestos en filas y columnas entre paréntesis o líneas dobles.

Perceptrón

Es una red neuronal formada por una sola neurona con entradas binarias. Calcula una suma ponderada de sus entradas.

Pandas

Librería de Python orientado a la manipulación de datos popular para los científicos de datos

Python

Lenguaje de programación disponible desde 1994 que es popular entre las personas que se deciden a estudiar data science. Python destaca por su facilidad de uso entre principiantes y gran potencia cuando es utilizado por usuarios avanzados, especialmente cuando se aprovecha de bibliotecas especializadas como las diseñadas para el aprendizaje automático y la generación de gráficos.

R

Es un lenguaje de programación de fuente abierta y un entorno para computación estadística y generación de gráficos. Se encuentra disponible para Linux, Windows y Mac.

Red neuronal

También llamado red neuronal artificial para distinguirla del cerebro, sobre la cual se modela este algoritmo, se puede definir como una función robusta que toma un conjunto arbitrario de entradas y lo ajusta a un conjunto arbitrario de resultados que son binarios. En la práctica, las redes neuronales se utilizan en la investigación de Deep Learning para unir imágenes con características y mucho más.

Lo que hace que las redes neuronales sean tan especiales es el uso de una capa oculta de funciones ponderadas llamadas neuronas, con la que se puede construir efectivamente una red que mapee muchas otras funciones. Sin una capa oculta de funciones, las redes neuronales serían solo un conjunto de funciones simples ponderadas.

Vector

Es un conjunto ordenado de números reales, cada en uno una distancia en un eje de coordenadas. Estos números pueden representar una serie de detalles sobre una sola persona, película, producto o cualquier entidad que se modele. Esta representación matemática del conjunto de valores hace que sea más fácil aprovechar las bibliotecas de software que aplican operaciones matemáticas avanzadas a los datos.

 

Aquí finaliza nuestro glosario sobre Data Science. Si estás interesado en saber más, te aconsejamos iniciar tus estudios en la materia. En la Universidad de Alcalá contamos con un master en Data Science que te resultará muy interesante. ¿Necesitas más información? ¡Echa un vistazo a nuestra página o contacta con nosotros!

Sin Comentarios (0)

    Dejar un Comentario

     Anterior  Todos Siguiente