DEV Community

Cover image for De Data-Chaos a Data-Driven Decisions: Pipeline ETL Automatizado en Microsoft Fabric y PowerBI
María Monedero for Evolve

Posted on

De Data-Chaos a Data-Driven Decisions: Pipeline ETL Automatizado en Microsoft Fabric y PowerBI

Dicen que lo más difícil de detectar es aquello que tenemos delante constantemente.

Las grandes organizaciones generan millones de datos cada día, pero disponer de información, no siempre significa comprenderla. Muchos datos permanecen aislados, dispersos o infrautilizados, dificultando la identificación de patrones, riesgos y oportunidades estratégicas.

Porque un dato informa, pero millones, transforman. Bajo esta idea nace ORIONTECH, un proyecto académico basado en un pipeline analítico end-to-end desarrollado con Microsoft Fabric y Power BI, orientado al reporting ejecutivo, control financiero y monitorización operacional.

El proyecto implementa una arquitectura Medallion (Bronze, Silver y Gold) capaz de transformar datos raw en información estratégica mediante procesos automatizados de ingestión, limpieza, modelado y visualización. A través de PySpark Notebooks, Lakehouse y modelos analíticos en Power BI, ORIONTECH permite centralizar KPIs financieros, riesgos operacionales, desviaciones presupuestarias y métricas de productividad dentro de una misma plataforma diseñada con enfoque enterprise.

Actualmente, la solución trabaja sobre un dataset sintético inspirado en estructuras financieras y operacionales reales de mi entorno profesional, ya que la utilización de información corporativa real no es posible por motivos de confidencialidad y protección de datos.

El dataset incluye aproximadamente 30.000 registros con variables relacionadas con ingresos, costes operativos, presupuestos, forecast financiero, productividad, departamentos y regiones internacionales.

Uno de los principales retos fue garantizar la consistencia y calidad del dato, ya que existían categorías duplicadas, nomenclaturas inconsistentes, valores nulos y diferencias de formato entre variables numéricas y textuales. Para resolverlo, fue necesario construir procesos de limpieza y estandarización dentro de la capa Silver antes de modelar la información para su consumo analítico en Power BI.

Sobre este modelo se desarrollaron distintos dashboards orientados a diferentes perspectivas del negocio:

1. Executive Overview

2. Operational Risk

3. Financial Performance

4. Controlling Report

Uno de los aspectos más interesantes del proyecto fue comprobar cómo determinados departamentos concentraban gran parte de los costes ocultos y de la exposición al riesgo operacional, impactando directamente sobre la rentabilidad global de la organización.

Como evolución futura, ORIONTECH podrá incorporar comparaciones en los KPIS vs budget y vs forecast; implementar el análisis predictivo y la monitorización en tiempo real mediante inteligencia artificial.

Este proyecto ha sido diseñado con un enfoque escalable y orientado a su posible implantación en entornos corporativos reales, permitiendo automatizar procesos repetitivos, optimizar el reporting ejecutivo y fomentar una cultura data-driven dentro de las distintas áreas de negocio.

Github Repository: https://github.com/evolve-space/Proyecto-Master-DataScience-Evolve-MariaMonedero.git

Proyecto desarrollado durante el Máster en Data Science & Artificial Intelligence de Evolve: https://evolve.es/

Top comments (0)