Python o Spark

Estaba recordando como fue mi inicio en el mundo de los datos y creo que como muchos, empezamos con MS Excel.

Recuerdo una herramienta que permitia hacer depuracion de datos, un poco de programacion (VBA) y luego crear tableros de indicadores geniales, todo esto es un mismo archivo. (Buenos recuerdos).

Pero ahora vemos multiples herramienas y lo mejor lenguajes de programacion enfocados a datos, los cuales nos permiten ver esos datos como codigo, para un ingeniero de software esto fue en su momento un Buummmmm!, me exploto la cabeza 🤯. Me encanto!!.

Principalmente en mi trabajo y en mis proyectos personales, utilizo dos lenguajes de programacion, Python por excelencia y Spark.

Me gustaria hacer una comparativa entre ambos y revisar para que casos se deben utilizar.

Python: Es un lenguaje de programación conocido por su simplicidad y legibilidad.
Apache Spark: Es un motor de procesamiento de datos en clúster, diseñado para realizar análisis de datos a gran escala.

2. Arquitectura

Python: Funciona en un solo nodo y es adecuado para el procesamiento de datos en memoria en un entorno local.
Apache Spark: Utiliza una arquitectura distribuida que permite el procesamiento paralelo de datos en múltiples nodos de un clúster.

3. Ecosistema y Bibliotecas

Python: Cuenta con un gran ecosistema de bibliotecas, como Pandas, NumPy, Scikit-learn, TensorFlow, entre otros, estas a mi forma de ver las principales, pero claro que hay muchas mas.

Apache Spark: Ofrece un conjunto de componentes integrados, como Spark SQL, Spark Streaming.

4. Rendimiento

Python: procesamiento de datos en memoria y puede es eficiente para conjuntos de datos pequeños a medianos.
Apache Spark: Es el indicado para grandes volúmenes de datos por el tipo de arquitectura que veíamos anteriormente.

Si estas empezando el mundo de los datos, lo que te recomiendo inicialmente es que entrenes tu lógica, suena muy obvio, pero esto te va a ayudar enormemente, antes de empezar a programar, luego inicia con Python, con las bases de este lenguaje, tipo de datos, cálculos matemáticos, duplas, diccionarios, listas, arreglos, bucles.

Una vez tengas las bases, empieza a crear tus propias ejecuciones, muy sencillas, toma Dataset, que están disponibles en la web, te recomiendo una página, muy buena para ello, Kaggle:

https://www.kaggle.com/