DEV Community

Cover image for Comprensión de Big data, Data mining y Aprendizaje Automático en 5 Minutos
Octoparse Español
Octoparse Español

Posted on

Comprensión de Big data, Data mining y Aprendizaje Automático en 5 Minutos

¿Qué pueden hacer la minería de datos y big data?
En resumen, nos dan poder predictivo.

1. Nuestras vidas han sido digitalizadas
Hoy, muchas cosas que hacemos todos los días se pueden grabar de verdad. Cada transacción con tarjeta de crédito es digitalizada y rastreable; Nuestra presencia pública es constantemente monitoreada por los muchos CCTV que se encuentran en cada esquina de la ciudad; Para las empresas, la mayoría de los datos financieros y operativos se guardan en algunos tipos de ERP; Y con el aumento de los dispositivos portátiles, cada latido del corazón y respiración se está digitalizando y guardando en datos utilizables. Justo cuando gran parte de nuestras vidas se están digitalizando, una computadora ahora puede "entender" nuestro mundo mejor que nunca.

2. Si el patrón permanece sin cambios, el pasado = futuro
Muchas de las diferentes cosas en nuestras vidas muestran patrones. Por ejemplo, es probable que una persona camiando entre el trabajo y el hogar en cualquier día hábil y se vaya de vacaciones o vea una película en cualquier día no laborable, y es poco probable que este patrón cambie. Una tienda tendrá sus horas pico y tiempos de inactividad de cualquier día y es poco probable que este patrón cambie. Una empresa exigirá un mayor aporte laborales de obra en ciertos meses del año y es poco probable que este patrón cambie.

Resumiendo el punto 1 y el punto 2, podemos concluir que es muy posible que una computadora prediga el futuro dado si se proporciona el modelo pasado, ya que estos patrones probablemente sean consistentes durante un período prolongado de tiempo.

Si una computadora puede predecir el estilo de vida de las personas, sabrá exactamente cuándo es el mejor momento para participar en una promoción, como una promoción de lavado de autos si esta persona tiende a lavarse todos los viernes de la semana, o un cupón de una estadía en un hotel si esta persona tiende a irse de vacaciones en marzo de cada año. Desde el punto de vista comercial, una computadora también puede predecir el pronóstico de ventas de una tienda a lo largo del día y luego desarrollar la estrategia comercial para maximizar los ingresos totales. Para las empresas, una computadora también puede diseñar el mejor plan operativo que consiste en la disposición de la fuerza laboral más razonable.

Tan pronto como el futuro se vuelva predecible, siempre podemos planificar con anticipación y prepararnos para el mejor movimiento posible. Al igual que Neo en "The Matrix", es capaz de esquivar todas las balas porque puede ver claramente de dónde provienen las balas. Según Sherlock Holmes, "Una comprensión avanzada de las matemáticas de la probabilidad, mapeada en una comprensión profunda de la psicología humana, y las disposiciones conocidas de cualquier individuo pueden reducir considerablemente el número de variables", en otras palabras, "Los grandes datos nos dan el poder de predecir el futuro ". Este es el poder de la minería de datos. La minería de datos está constantemente vinculada a Big Data simplemente porque Big Data permite conjuntos de datos masivos, proporcionando así la base para todas las predicciones.

Entonces, ¿qué son exactamente Big Data, Data Mining y Machine Learning?

alt

Big Data

Cuando la cantidad de datos es tremenda, es obvio que estos datos no pueden procesarse en ninguna máquina. Un archivo extremadamente grande, digamos 10GB, es probable que no pueda abrirlo en ningún sistema Windows antes de que se bloquee por completo. Big Data ha sido desarrollado para este propósito exacto. Puede considerarlo como un software especial, que divide un archivo grande en archivos mucho más pequeños, que luego pueden procesarse en numerosas máquinas. El proceso de división y peinado de las piezas de datos se conoce como MapReduce. Y el marco de software más utilizado para este proceso, se llama Hadoop. Hadoop resuelve el problema básico, y hay un montón de herramientas para usar junto con Hadoop, como Pig, Zookeeper y Hive, para facilitar aún más el proceso. Hadoop junto con sus muchas herramientas asociadas se conoce generalmente como la "Tecnología de Big Data".

Machine Learning

Justo ahora teníamos contacto basado en cómo se puede procesar una pieza de datos. Suponiendo que este dato contenga un grupo de comportamientos de compra de los compradores, incluido el número total de artículos comprados, el número de artículos comprados por cada comprador. Este es hasta ahora un simple análisis estadístico. Sin embargo, si nuestro objetivo era analizar la correlación entre los diferentes tipos de compradores, o si queremos extrapolar la preferencia específica de un tipo específico de compradores, o incluso predecir el sexo o la edad de cualquier comprador, necesitaremos mucho más modelo complicado, que llamamos Algoritmo. El aprendizaje automático se puede entender más fácilmente como todos los diferentes tipos de algoritmos desarrollados para fines de minería de datos, como la regresión logística, el árbol de decisiones, el filtrado colaborativo y mucho más.

Data Mining

Mediante la aplicación de algoritmos de aprendizaje automático, los datos existentes pueden utilizarse para predecir las incógnitas, y esta es exactamente la razón por la cual las maravillas de la minería de datos están estrechamente relacionadas con el aprendizaje automático. Sin embargo, la fortaleza de cualquier algoritmo de aprendizaje automático depende en gran medida del suministro de conjuntos de datos masivos. Tenga en cuenta que, independientemente de lo sofisticado que sea un algoritmo, no se puede hacer una predicción inspiradora a partir de unas pocas líneas de datos. La tecnología de Big Data es la premisa del aprendizaje automático, y con el uso del aprendizaje automático, podemos obtener información valiosa de los conjuntos de datos existentes, y esto es la data mining.

Más Artículos Relacionados:
Comience con Octoparse en 2 minutos
Las 30 mejores herramientas de Big Data para el análisis de datos
Los 30 mejores programas gratuitos de web scraping
Big Data:70 fuentes de datos gratuitas increíbles que debes conocer para 2017

Top comments (0)