De investigador postdoctoral a Data Scientist: dos proyectos reales, una transición

#python #machinelearning #jupyter #datascience

Predecir quién gana un partido de tenis. Demostrar que el aceite de oliva de alta montaña es químicamente distinto. Dos problemas sin nada en común — excepto que los dos necesitaban el mismo enfoque: datos reales, decisiones metodológicas justificadas y métricas que signifiquen algo.

Soy un PhD en Ciencias de la Salud reconvertido a Data Scientist, y estos son los dos proyectos con los que arranco mi portfolio en el Talent Day de Evolve.
🔗 Repositorio en GitHub: https://github.com/pelu100/Proyecto-Master-DataScience-Evolve-DiegoHerreraOchoa

El primer proyecto: predecir partidos de tenis con XGBoost

Este surgió por curiosidad. Me pregunté si era posible predecir el resultado de un partido de tenis profesional usando únicamente información disponible antes de que empiece.

El reto principal no era el modelo — era los datos. Las métricas estáticas como el ranking actual son insuficientes para capturar la realidad competitiva. Un jugador puede estar en el puesto 15 del mundo pero llevar tres meses lesionado. Otro puede ser el 80 pero venir de ganar sus últimos ocho partidos en tierra batida.

La solución fue construir variables dinámicas: un sistema ELO específico por superficie con K-factor variable según el peso del torneo, una ventana de forma de los últimos 10 partidos, el historial Head-to-Head calculado de forma estrictamente cronológica (para no filtrar información del futuro), y métricas de fatiga dentro de cada torneo.

Desarrollé dos modelos independientes — uno para el circuito ATP y otro para el Challenger — porque sus naturalezas son distintas. El ATP tiene más estabilidad y especialización; el Challenger tiene más varianza y más talento joven e irregular.

El resultado sobre partidos de 2025 (datos que el modelo nunca vio durante el entrenamiento):

Circuito	Accuracy	Brier Score
ATP	64.2%	0.219
Challenger	63.5%	0.228

El análisis SHAP confirmó algo interesante: los modelos aprendieron lógicas distintas. En el ATP, el ELO histórico por superficie es el predictor dominante. En el Challenger, lo que más importa es la brecha de ranking y la diferencia de edad — la energía física pesa más cuando el historial es irregular.

Grafico SHAP del modelo generado para el circuito ATP

Grafico SHAP del modelo generado para el circuito Challenger

🔗 [Repositorio en GitHub] https://github.com/pelu100/Proyecto-Master-DataScience-Evolve-DiegoHerreraOchoa/tree/main/prediccion_tenis

El segundo proyecto: la composición química del aceite de oliva de alta montaña

Este no lo hice por curiosidad. Forma parte de mi trabajo real como investigador postdoctoral en la Universidad de Jaén, dentro del proyecto MOUNTOLIVE.

La pregunta era: ¿cambia el perfil químico del aceite de oliva virgen extra cuando el olivar está a más de 800 metros de altitud? Y si cambia, ¿en qué medida influye el tipo de cultivo — secano o regadío?

Teníamos más de 100 compuestos químicos organizados en 7 familias (ácidos grasos, tocoferoles, compuestos fenólicos, terpenos, esteroles, triglicéridos y pigmentos). El pipeline que construí en R automatiza el análisis estadístico completo: test de normalidad, selección automática entre ANOVA paramétrico y Kruskal-Wallis, y para el análisis de dos factores simultáneos, ART-ANOVA — una extensión no paramétrica del ANOVA factorial que preserva la capacidad de detectar interacciones entre factores.

En Python construí un índice compuesto que resume la señal química global como función continua de la altitud, usando correlación de Spearman para seleccionar variables y Z-scores para hacerlas comparables.

Los tocoferoles y los compuestos fenólicos aumentan significativamente por encima de los 800 metros. Eso tiene implicaciones directas para el etiquetado premium y el soporte científico a futuras Denominaciones de Origen Protegidas.

Los datos no están públicos por confidencialidad, pero el código completo sí.

🔗 [Repositorio en GitHub] https://github.com/pelu100/Proyecto-Master-DataScience-Evolve-DiegoHerreraOchoa/tree/main/analisis_AOVE

Lo que aprendí por el camino

Cinco años de investigación científica me enseñaron algo que muchos data scientists aprenden tarde: la calidad de los datos y la integridad del análisis importan más que el algoritmo. Es fácil conseguir un 70% de accuracy filtrando información del futuro sin darte cuenta. Es más difícil — y más valioso — construir un pipeline donde cada decisión está justificada.

También aprendí que el conocimiento de dominio es una ventaja enorme. Saber por qué el ELO en tierra batida es más predictivo que el ELO general, o por qué los tocoferoles deberían aumentar con la altitud por estrés oxidativo, hace que las features que construyes tengan sentido antes de que el modelo las valide.

Lo que haría diferente: añadir un análisis exploratorio formal antes del modelado, documentar mejor los notebooks para que sean reproducibles desde cero, y añadir un modelo baseline explícito para contextualizar las métricas.

Estos proyectos forman parte de mi portfolio presentado para el Talent Day de Evolve Academy, dentro del Máster en Data Science e IA. Si te interesa el enfoque o tienes feedback, me encantaría leerlo.

👉 evolve.es