<?xml version="1.0" encoding="UTF-8"?>
<rss version="2.0" xmlns:atom="http://www.w3.org/2005/Atom" xmlns:dc="http://purl.org/dc/elements/1.1/">
  <channel>
    <title>DEV Community: Carlos Barrientos</title>
    <description>The latest articles on DEV Community by Carlos Barrientos (@carlos_barrientos_6d15639).</description>
    <link>https://dev.to/carlos_barrientos_6d15639</link>
    <image>
      <url>https://media2.dev.to/dynamic/image/width=90,height=90,fit=cover,gravity=auto,format=auto/https:%2F%2Fdev-to-uploads.s3.amazonaws.com%2Fuploads%2Fuser%2Fprofile_image%2F3936175%2F8dff3272-39dd-47d9-b871-0aef0e858959.png</url>
      <title>DEV Community: Carlos Barrientos</title>
      <link>https://dev.to/carlos_barrientos_6d15639</link>
    </image>
    <atom:link rel="self" type="application/rss+xml" href="https://dev.to/feed/carlos_barrientos_6d15639"/>
    <language>en</language>
    <item>
      <title>Análisis del Mercado de Alquiler en España: Scraping, ML e IA con LLMs Locales</title>
      <dc:creator>Carlos Barrientos</dc:creator>
      <pubDate>Sun, 17 May 2026 16:55:38 +0000</pubDate>
      <link>https://dev.to/carlos_barrientos_6d15639/analisis-del-mercado-de-alquiler-en-espana-scraping-ml-e-ia-con-llms-locales-49hc</link>
      <guid>https://dev.to/carlos_barrientos_6d15639/analisis-del-mercado-de-alquiler-en-espana-scraping-ml-e-ia-con-llms-locales-49hc</guid>
      <description>&lt;h2&gt;
  
  
  Introducción
&lt;/h2&gt;

&lt;p&gt;El mercado de alquiler residencial en España es fragmentado, con información dispersa en múltiples portales inmobiliarios. Las búsquedas tradicionales se limitan a filtros rígidos (precio mínimo/máximo, m² mínimo/máximo), ignorando consultas más naturales como &lt;em&gt;"¿Qué hay barato en Malasaña?"&lt;/em&gt; o &lt;em&gt;"Zona tranquila bien comunicada"&lt;/em&gt;.&lt;/p&gt;

&lt;p&gt;En este proyecto, desarrollé un sistema end-to-end que combina &lt;strong&gt;scraping automatizado, análisis exploratorio, machine learning e inteligencia artificial&lt;/strong&gt; para entender el mercado de alquiler español y responder preguntas en lenguaje natural mediante un agente RAG potenciado con LLMs locales.&lt;/p&gt;

&lt;p&gt;El repositorio completo del proyecto está disponible en:&lt;br&gt;
&lt;strong&gt;GitHub:&lt;/strong&gt; &lt;a href="https://github.com/TuUsuario/Proyecto-Final-DataScience-Evolve-CarlosBarrientos" rel="noopener noreferrer"&gt;https://github.com/TuUsuario/Proyecto-Final-DataScience-Evolve-CarlosBarrientos&lt;/a&gt;&lt;/p&gt;




&lt;h2&gt;
  
  
  Objetivos del Proyecto
&lt;/h2&gt;

&lt;p&gt;Los principales objetivos fueron:&lt;/p&gt;

&lt;ul&gt;
&lt;li&gt;Extraer &lt;strong&gt;21,000+ anuncios de alquiler&lt;/strong&gt; de portales inmobiliarios (Fotocasa, Idealista, Pisos.com)&lt;/li&gt;
&lt;li&gt;Realizar un &lt;strong&gt;análisis exploratorio completo&lt;/strong&gt; del mercado: distribuciones, correlaciones, patrones geográficos&lt;/li&gt;
&lt;li&gt;Construir &lt;strong&gt;modelos de machine learning&lt;/strong&gt; para predecir precios de alquiler con alta precisión&lt;/li&gt;
&lt;li&gt;Crear un &lt;strong&gt;agente inteligente con RAG&lt;/strong&gt; que entienda consultas en lenguaje natural sobre el mercado&lt;/li&gt;
&lt;li&gt;Comparar diferentes enfoques: SQL exacto vs. RAG semántico vs. búsqueda híbrida&lt;/li&gt;
&lt;/ul&gt;




&lt;h2&gt;
  
  
  Arquitectura del Sistema
&lt;/h2&gt;

&lt;p&gt;El proyecto se divide en &lt;strong&gt;4 fases principales&lt;/strong&gt;:&lt;/p&gt;




&lt;h2&gt;
  
  
  &lt;strong&gt;Fase 1: Scraping de Datos&lt;/strong&gt;
&lt;/h2&gt;

&lt;h3&gt;
  
  
  &lt;strong&gt;Herramientas y Tecnologías&lt;/strong&gt;
&lt;/h3&gt;

&lt;ul&gt;
&lt;li&gt;
&lt;strong&gt;Fotocasa.js&lt;/strong&gt; (Node.js + Puppeteer) - Scraping dinamico con protecciones anti-bot&lt;/li&gt;
&lt;li&gt;
&lt;strong&gt;Python + Playwright&lt;/strong&gt; - Navegacion JavaScript en Idealista&lt;/li&gt;
&lt;li&gt;
&lt;strong&gt;BeautifulSoup&lt;/strong&gt; - Parsing HTML estatico en Pisos.com&lt;/li&gt;
&lt;/ul&gt;

&lt;h3&gt;
  
  
  &lt;strong&gt;Resultado&lt;/strong&gt;
&lt;/h3&gt;

&lt;p&gt;Se extrajeron &lt;strong&gt;21,000+ registros&lt;/strong&gt; con informacion:&lt;/p&gt;

&lt;ul&gt;
&lt;li&gt;Precio mensual (€/mes)&lt;/li&gt;
&lt;li&gt;Tamaño (m2)&lt;/li&gt;
&lt;li&gt;Habitaciones, banos&lt;/li&gt;
&lt;li&gt;Ubicacion (ciudad, distrito, coordenadas geograficas)&lt;/li&gt;
&lt;li&gt;Descripcion textual&lt;/li&gt;
&lt;li&gt;Amenities (ascensor, terraza, parking, etc.)&lt;/li&gt;
&lt;/ul&gt;

&lt;p&gt;Los datos crudos se almacenaron en &lt;strong&gt;PostgreSQL&lt;/strong&gt; (&lt;code&gt;inmuebles_raw&lt;/code&gt;) para posterior limpieza y analisis.&lt;/p&gt;




&lt;h2&gt;
  
  
  &lt;strong&gt;Fase 2: Analisis Exploratorio (EDA)&lt;/strong&gt;
&lt;/h2&gt;

&lt;h3&gt;
  
  
  &lt;strong&gt;Limpieza y Preparacion&lt;/strong&gt;
&lt;/h3&gt;

&lt;p&gt;Se aplico un proceso riguroso de preprocesamiento:&lt;/p&gt;

&lt;ul&gt;
&lt;li&gt;Deteccion y remocion de duplicados (por URL)&lt;/li&gt;
&lt;li&gt;Normalizacion de formatos (precios, m2, categorias)&lt;/li&gt;
&lt;li&gt;Identificacion de outliers (IQR method)

&lt;ul&gt;
&lt;li&gt;Precios extremos: 250€ - 7,500€/mes&lt;/li&gt;
&lt;li&gt;m2 extremos: 1m2 - 806m2&lt;/li&gt;
&lt;/ul&gt;


&lt;/li&gt;

&lt;li&gt;Imputacion de valores faltantes (90% sin planta, 82% sin ascensor)&lt;/li&gt;

&lt;li&gt;Validacion de datos crudos&lt;/li&gt;

&lt;/ul&gt;

&lt;h3&gt;
  
  
  &lt;strong&gt;Descubrimientos Clave&lt;/strong&gt;
&lt;/h3&gt;

&lt;p&gt;&lt;strong&gt;Distribuciones:&lt;/strong&gt;&lt;/p&gt;

&lt;ul&gt;
&lt;li&gt;Precio promedio: 2,358€/mes&lt;/li&gt;
&lt;li&gt;m2 promedio: 103.7m2&lt;/li&gt;
&lt;li&gt;Distribucion normal en precios, con larga cola derecha&lt;/li&gt;
&lt;/ul&gt;

&lt;p&gt;&lt;strong&gt;Correlaciones encontradas:&lt;/strong&gt;&lt;/p&gt;

&lt;ul&gt;
&lt;li&gt;Banos ↔ Precio: r = 0.635 (correlacion moderada-fuerte)&lt;/li&gt;
&lt;li&gt;Habitaciones ↔ Precio: r = 0.531 (correlacion moderada)&lt;/li&gt;
&lt;li&gt;m2 ↔ Precio: r = 0.371 (correlacion debil-moderada)&lt;/li&gt;
&lt;/ul&gt;

&lt;p&gt;&lt;strong&gt;Variabilidad geografica:&lt;/strong&gt;&lt;/p&gt;

&lt;ul&gt;
&lt;li&gt;Madrid Capital: 2,589€/mes promedio (rango 850€-7,500€)&lt;/li&gt;
&lt;li&gt;Almeria Capital: 600€/mes promedio&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;Diferencia: 330% mas caro en Madrid&lt;/strong&gt;&lt;/li&gt;
&lt;/ul&gt;

&lt;h3&gt;
  
  
  &lt;strong&gt;Visualizaciones Generadas&lt;/strong&gt;
&lt;/h3&gt;

&lt;p&gt;Se crearon graficos interactivos mostrando:&lt;/p&gt;

&lt;ul&gt;
&lt;li&gt;Distribucion de precios por provincia (top 10)&lt;/li&gt;
&lt;li&gt;Relacion precio vs. tamaño (scatter plots)&lt;/li&gt;
&lt;li&gt;Heatmaps de correlacion entre variables&lt;/li&gt;
&lt;li&gt;Mapas interactivos (Folium) con precios por zona&lt;/li&gt;
&lt;li&gt;Analisis de amenities y su impacto en precio&lt;/li&gt;
&lt;/ul&gt;




&lt;h2&gt;
  
  
  &lt;strong&gt;Fase 3: Machine Learning - Prediccion de Precios&lt;/strong&gt;
&lt;/h2&gt;

&lt;h3&gt;
  
  
  &lt;strong&gt;Feature Engineering&lt;/strong&gt;
&lt;/h3&gt;

&lt;ul&gt;
&lt;li&gt;One-hot encoding de &lt;strong&gt;21 provincias/distritos&lt;/strong&gt;
&lt;/li&gt;
&lt;li&gt;Normalizacion (StandardScaler) de variables numericos&lt;/li&gt;
&lt;li&gt;Seleccion de features: precio, m2, habitaciones, banos, amenities, ubicacion&lt;/li&gt;
&lt;/ul&gt;

&lt;h3&gt;
  
  
  &lt;strong&gt;Comparacion de Modelos&lt;/strong&gt;
&lt;/h3&gt;

&lt;p&gt;Se entrenaron &lt;strong&gt;3 modelos de regresion&lt;/strong&gt;:&lt;/p&gt;

&lt;div class="table-wrapper-paragraph"&gt;&lt;table&gt;
&lt;thead&gt;
&lt;tr&gt;
&lt;th&gt;Modelo&lt;/th&gt;
&lt;th&gt;R2 Test&lt;/th&gt;
&lt;th&gt;RMSE&lt;/th&gt;
&lt;th&gt;MAE&lt;/th&gt;
&lt;/tr&gt;
&lt;/thead&gt;
&lt;tbody&gt;
&lt;tr&gt;
&lt;td&gt;Regresion Lineal&lt;/td&gt;
&lt;td&gt;0.78&lt;/td&gt;
&lt;td&gt;135€&lt;/td&gt;
&lt;td&gt;98€&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td&gt;&lt;strong&gt;Arbol de Decision&lt;/strong&gt;&lt;/td&gt;
&lt;td&gt;&lt;strong&gt;0.83&lt;/strong&gt;&lt;/td&gt;
&lt;td&gt;&lt;strong&gt;120€&lt;/strong&gt;&lt;/td&gt;
&lt;td&gt;&lt;strong&gt;87€&lt;/strong&gt;&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td&gt;Random Forest&lt;/td&gt;
&lt;td&gt;0.81&lt;/td&gt;
&lt;td&gt;125€&lt;/td&gt;
&lt;td&gt;90€&lt;/td&gt;
&lt;/tr&gt;
&lt;/tbody&gt;
&lt;/table&gt;&lt;/div&gt;

&lt;p&gt;&lt;strong&gt;Ganador: Arbol de Decision&lt;/strong&gt; - Captura relaciones no-lineales mejor que el modelo lineal.&lt;/p&gt;

&lt;h3&gt;
  
  
  &lt;strong&gt;Feature Importance&lt;/strong&gt;
&lt;/h3&gt;

&lt;p&gt;El analisis de importancia revelo:&lt;/p&gt;

&lt;ol&gt;
&lt;li&gt;
&lt;strong&gt;Localizacion (zona/provincia)&lt;/strong&gt; - 40%&lt;/li&gt;
&lt;li&gt;
&lt;strong&gt;Tamaño (m2)&lt;/strong&gt; - 35%&lt;/li&gt;
&lt;li&gt;
&lt;strong&gt;Ascensor&lt;/strong&gt; - 10%&lt;/li&gt;
&lt;li&gt;
&lt;strong&gt;Terraza&lt;/strong&gt; - 8%&lt;/li&gt;
&lt;li&gt;
&lt;strong&gt;Otras variables&lt;/strong&gt; - 7%&lt;/li&gt;
&lt;/ol&gt;

&lt;p&gt;&lt;strong&gt;Insight:&lt;/strong&gt; La localizacion es el factor dominante en el precio, seguido del tamaño. Los amenities tienen impacto secundario pero medible.&lt;/p&gt;

&lt;h3&gt;
  
  
  &lt;strong&gt;Validacion&lt;/strong&gt;
&lt;/h3&gt;

&lt;ul&gt;
&lt;li&gt;Split 80% train / 20% test&lt;/li&gt;
&lt;li&gt;Validacion cruzada (5-fold): CV score = 0.83 +/- 0.02&lt;/li&gt;
&lt;li&gt;Analisis de residuos: no hay patron visible (modelo estable)&lt;/li&gt;
&lt;/ul&gt;




&lt;h2&gt;
  
  
  &lt;strong&gt;Fase 4: Agente RAG + LLM Local&lt;/strong&gt;
&lt;/h2&gt;

&lt;h3&gt;
  
  
  &lt;strong&gt;Problema: Las busquedas rigidas no entienden lenguaje natural&lt;/strong&gt;
&lt;/h3&gt;

&lt;p&gt;&lt;strong&gt;Portales tradicionales:&lt;/strong&gt;&lt;br&gt;
Precio: 400€ - 800€&lt;br&gt;
m2: 40 - 60&lt;/p&gt;

&lt;p&gt;&lt;strong&gt;Consulta real del usuario:&lt;/strong&gt;&lt;br&gt;
"Busco algo barato, tranquilo y bien comunicado"&lt;/p&gt;

&lt;h3&gt;
  
  
  &lt;strong&gt;Solucion: Agente con RAG Hibrido&lt;/strong&gt;
&lt;/h3&gt;

&lt;p&gt;&lt;strong&gt;Stack Tecnologico:&lt;/strong&gt;&lt;/p&gt;

&lt;ul&gt;
&lt;li&gt;
&lt;strong&gt;ChromaDB&lt;/strong&gt; - Base de datos vectorial (21,000 documentos)&lt;/li&gt;
&lt;li&gt;
&lt;strong&gt;Sentence-Transformers&lt;/strong&gt; - Embeddings locales (MiniLM-L6-v2, 384 dims)&lt;/li&gt;
&lt;li&gt;
&lt;strong&gt;LangChain + LangGraph&lt;/strong&gt; - Orquestacion del agente&lt;/li&gt;
&lt;li&gt;
&lt;strong&gt;Ollama + Mistral 7B&lt;/strong&gt; - LLM local (sin APIs externas, privacidad garantizada)&lt;/li&gt;
&lt;/ul&gt;

&lt;h3&gt;
  
  
  &lt;strong&gt;Arquitectura del Agente&lt;/strong&gt;
&lt;/h3&gt;

&lt;blockquote&gt;
&lt;p&gt;Input: "¿Que pisos hay baratos en Malasana?"&lt;br&gt;
↓&lt;br&gt;
[ROUTER] Decide estrategia:&lt;br&gt;
Numerico + exacto → SQL puro&lt;br&gt;
Semantico → RAG puro&lt;br&gt;
Hibrido → SQL + RAG&lt;br&gt;
↓&lt;br&gt;
[RETRIEVAL] ChromaDB busca top-5 documentos similares&lt;br&gt;
↓&lt;br&gt;
[LLM] Mistral genera respuesta con contexto&lt;br&gt;
↓&lt;br&gt;
Output: "Encontre 8 pisos en Malasana desde 550€/mes..."&lt;/p&gt;
&lt;/blockquote&gt;

&lt;h3&gt;
  
  
  &lt;strong&gt;Ejemplos de Consultas Soportadas&lt;/strong&gt;
&lt;/h3&gt;

&lt;p&gt;"¿Que hay barato en Malasana?" → Semantico + filtro de precio&lt;br&gt;
"Pisos con terraza y ascensor" → Busqueda de amenities&lt;br&gt;
"Zona tranquila bien comunicada" → Semantica pura&lt;br&gt;
"Precio medio en Salamanca" → Filtro exacto + agregacion&lt;/p&gt;

&lt;h3&gt;
  
  
  &lt;strong&gt;Precision&lt;/strong&gt;
&lt;/h3&gt;

&lt;p&gt;&lt;strong&gt;85%+ de consultas respondidas correctamente&lt;/strong&gt; segun evaluacion manual en test set de 100 consultas.&lt;/p&gt;

&lt;p&gt;&lt;strong&gt;Analisis de fallos (15%):&lt;/strong&gt;&lt;/p&gt;

&lt;ul&gt;
&lt;li&gt;10% - Consultas muy abstractas sin contexto suficiente&lt;/li&gt;
&lt;li&gt;3% - Amenities no documentados en descripciones&lt;/li&gt;
&lt;li&gt;2% - Alucinaciones del LLM (precios inventados)&lt;/li&gt;
&lt;/ul&gt;




&lt;h2&gt;
  
  
  &lt;strong&gt;Herramientas y Tecnologias&lt;/strong&gt;
&lt;/h2&gt;

&lt;p&gt;&lt;strong&gt;Recopilacion y Procesamiento:&lt;/strong&gt;&lt;/p&gt;

&lt;ul&gt;
&lt;li&gt;Python 3.9+&lt;/li&gt;
&lt;li&gt;Pandas, NumPy&lt;/li&gt;
&lt;li&gt;Node.js + Puppeteer&lt;/li&gt;
&lt;li&gt;Playwright, BeautifulSoup&lt;/li&gt;
&lt;/ul&gt;

&lt;p&gt;&lt;strong&gt;Analisis Exploratorio:&lt;/strong&gt;&lt;/p&gt;

&lt;ul&gt;
&lt;li&gt;Matplotlib, Seaborn&lt;/li&gt;
&lt;li&gt;Plotly (graficos interactivos)&lt;/li&gt;
&lt;li&gt;Folium (mapas geograficos)&lt;/li&gt;
&lt;/ul&gt;

&lt;p&gt;&lt;strong&gt;Machine Learning:&lt;/strong&gt;&lt;/p&gt;

&lt;ul&gt;
&lt;li&gt;Scikit-learn (modelos base)&lt;/li&gt;
&lt;li&gt;XGBoost, LightGBM (boosting)&lt;/li&gt;
&lt;li&gt;SHAP (interpretabilidad)&lt;/li&gt;
&lt;/ul&gt;

&lt;p&gt;&lt;strong&gt;RAG e IA:&lt;/strong&gt;&lt;/p&gt;

&lt;ul&gt;
&lt;li&gt;LangChain + LangGraph&lt;/li&gt;
&lt;li&gt;ChromaDB&lt;/li&gt;
&lt;li&gt;Sentence-Transformers&lt;/li&gt;
&lt;li&gt;Ollama (LLM local)&lt;/li&gt;
&lt;/ul&gt;

&lt;p&gt;&lt;strong&gt;Bases de Datos:&lt;/strong&gt;&lt;/p&gt;

&lt;ul&gt;
&lt;li&gt;PostgreSQL (datos crudos)&lt;/li&gt;
&lt;li&gt;ChromaDB (embeddings vectoriales)&lt;/li&gt;
&lt;/ul&gt;




&lt;h2&gt;
  
  
  &lt;strong&gt;Metodologia&lt;/strong&gt;
&lt;/h2&gt;

&lt;h3&gt;
  
  
  &lt;strong&gt;1. Recopilacion y Preparacion de Datos&lt;/strong&gt;
&lt;/h3&gt;

&lt;p&gt;Los anuncios se extrajeron de portales inmobiliarios mediante scraping. Se aplico un proceso riguroso de limpieza:&lt;/p&gt;

&lt;ul&gt;
&lt;li&gt;Normalizacion de formatos&lt;/li&gt;
&lt;li&gt;Eliminacion de duplicados&lt;/li&gt;
&lt;li&gt;Deteccion de outliers&lt;/li&gt;
&lt;li&gt;Imputacion estrategica de valores faltantes&lt;/li&gt;
&lt;/ul&gt;

&lt;h3&gt;
  
  
  &lt;strong&gt;2. Analisis Exploratorio&lt;/strong&gt;
&lt;/h3&gt;

&lt;p&gt;Se identificaron patrones clave:&lt;/p&gt;

&lt;ul&gt;
&lt;li&gt;Distribuciones de precio por zona&lt;/li&gt;
&lt;li&gt;Correlaciones entre features&lt;/li&gt;
&lt;li&gt;Variabilidad geografica&lt;/li&gt;
&lt;li&gt;Impacto de amenities&lt;/li&gt;
&lt;/ul&gt;

&lt;h3&gt;
  
  
  &lt;strong&gt;3. Modelado Predictivo&lt;/strong&gt;
&lt;/h3&gt;

&lt;p&gt;Se compararon 3 algoritmos:&lt;/p&gt;

&lt;ul&gt;
&lt;li&gt;
&lt;strong&gt;Regresion Lineal:&lt;/strong&gt; Baseline (R2 = 0.78)&lt;/li&gt;
&lt;li&gt;
&lt;strong&gt;Arbol de Decision:&lt;/strong&gt; Ganador (R2 = 0.83)&lt;/li&gt;
&lt;li&gt;
&lt;strong&gt;Random Forest:&lt;/strong&gt; Competidor cercano (R2 = 0.81)&lt;/li&gt;
&lt;/ul&gt;

&lt;p&gt;El arbol captura mejor las relaciones no-lineales en el mercado inmobiliario.&lt;/p&gt;

&lt;h3&gt;
  
  
  &lt;strong&gt;4. Sistema RAG&lt;/strong&gt;
&lt;/h3&gt;

&lt;p&gt;Se vectorizaron 21,000 documentos y se indexaron en ChromaDB. Un agente LangGraph maneja:&lt;/p&gt;

&lt;ul&gt;
&lt;li&gt;
&lt;strong&gt;Parsing de intencion&lt;/strong&gt; - ¿Que busca el usuario?&lt;/li&gt;
&lt;li&gt;
&lt;strong&gt;Routing inteligente&lt;/strong&gt; - ¿SQL, RAG o hibrido?&lt;/li&gt;
&lt;li&gt;
&lt;strong&gt;Retrieval semantico&lt;/strong&gt; - Busqueda en ChromaDB&lt;/li&gt;
&lt;li&gt;
&lt;strong&gt;LLM local&lt;/strong&gt; - Generacion de respuestas con Mistral 7B&lt;/li&gt;
&lt;/ul&gt;




&lt;h2&gt;
  
  
  &lt;strong&gt;Aprendizajes Clave&lt;/strong&gt;
&lt;/h2&gt;

&lt;h3&gt;
  
  
  &lt;strong&gt;1. RAG ≠ Bala de Plata&lt;/strong&gt;
&lt;/h3&gt;

&lt;ul&gt;
&lt;li&gt;
&lt;strong&gt;RAG es excelente&lt;/strong&gt; para busquedas semanticas ("zona tranquila")&lt;/li&gt;
&lt;li&gt;
&lt;strong&gt;SQL es mejor&lt;/strong&gt; para filtros exactos (precio especifico)&lt;/li&gt;
&lt;li&gt;
&lt;strong&gt;Enfoque hibrido es superior&lt;/strong&gt; (85%+ vs. 70% individual)&lt;/li&gt;
&lt;/ul&gt;

&lt;h3&gt;
  
  
  &lt;strong&gt;2. Los Datos Reales Son Messy&lt;/strong&gt;
&lt;/h3&gt;

&lt;ul&gt;
&lt;li&gt;90% sin informacion de planta&lt;/li&gt;
&lt;li&gt;82% sin datos de amenities&lt;/li&gt;
&lt;li&gt;Requiere feature engineering creativo&lt;/li&gt;
&lt;/ul&gt;

&lt;h3&gt;
  
  
  &lt;strong&gt;3. LLMs Locales Son Viables&lt;/strong&gt;
&lt;/h3&gt;

&lt;ul&gt;
&lt;li&gt;Mistral 7B en Ollama funciona bien para este dominio&lt;/li&gt;
&lt;li&gt;Latencia aceptable (~200-300ms por query)&lt;/li&gt;
&lt;li&gt;Privacidad garantizada (sin APIs externas)&lt;/li&gt;
&lt;/ul&gt;

&lt;h3&gt;
  
  
  &lt;strong&gt;4. La Localizacion Domina&lt;/strong&gt;
&lt;/h3&gt;

&lt;ul&gt;
&lt;li&gt;40% de importancia en prediccion de precios&lt;/li&gt;
&lt;li&gt;Mayor variabilidad que tamaño o amenities&lt;/li&gt;
&lt;li&gt;Analisis geografico es critico&lt;/li&gt;
&lt;/ul&gt;

&lt;h3&gt;
  
  
  &lt;strong&gt;5. Validacion Cruzada Importa&lt;/strong&gt;
&lt;/h3&gt;

&lt;ul&gt;
&lt;li&gt;El modelo evita overfitting (CV score = 0.83 +/- 0.02)&lt;/li&gt;
&lt;li&gt;Residuos distribuidos aleatoriamente&lt;/li&gt;
&lt;li&gt;Modelo robusto a nuevos datos&lt;/li&gt;
&lt;/ul&gt;




&lt;h2&gt;
  
  
  &lt;strong&gt;Conclusion&lt;/strong&gt;
&lt;/h2&gt;

&lt;p&gt;Este proyecto demostro como &lt;strong&gt;combinar tecnicas clasicas de data science con IA moderna&lt;/strong&gt; puede resolver problemas reales de forma efectiva.&lt;/p&gt;

&lt;p&gt;El pipeline completo - desde scraping hasta un agente RAG inteligente - proporciona:&lt;br&gt;
Insights sobre el mercado de alquiler español&lt;br&gt;
Predicciones de precio con 83% de precision&lt;br&gt;
Un asistente que entiende preguntas en lenguaje natural&lt;/p&gt;

&lt;p&gt;&lt;strong&gt;Tecnologias clave:&lt;/strong&gt;&lt;/p&gt;

&lt;ul&gt;
&lt;li&gt;
&lt;strong&gt;Data Science:&lt;/strong&gt; Pandas, Scikit-learn, EDA&lt;/li&gt;
&lt;li&gt;
&lt;strong&gt;IA Moderna:&lt;/strong&gt; LangChain, ChromaDB, LLMs locales&lt;/li&gt;
&lt;li&gt;
&lt;strong&gt;Ingenieria:&lt;/strong&gt; PostgreSQL, Python, API design&lt;/li&gt;
&lt;/ul&gt;

&lt;p&gt;Este proyecto se desarrollo como parte del &lt;strong&gt;Master en Data Science de Evolve&lt;/strong&gt;, demostrando la aplicacion practica de competencias en analisis de datos, machine learning e inteligencia artificial.&lt;/p&gt;




&lt;h2&gt;
  
  
  &lt;strong&gt;Recursos&lt;/strong&gt;
&lt;/h2&gt;

&lt;ul&gt;
&lt;li&gt;
&lt;strong&gt;GitHub:&lt;/strong&gt; &lt;a href="https://github.com/TuUsuario/Proyecto-Final-DataScience-Evolve-CarlosBarrientos" rel="noopener noreferrer"&gt;https://github.com/TuUsuario/Proyecto-Final-DataScience-Evolve-CarlosBarrientos&lt;/a&gt;
&lt;/li&gt;
&lt;li&gt;
&lt;strong&gt;Documentacion tecnica:&lt;/strong&gt; ARQUITECTURA.md, METODOLOGIA.md&lt;/li&gt;
&lt;li&gt;
&lt;strong&gt;Dataset:&lt;/strong&gt; 21,000+ anuncios de alquiler en España&lt;/li&gt;
&lt;/ul&gt;

</description>
      <category>python</category>
      <category>datascience</category>
      <category>machinelearning</category>
      <category>rag</category>
    </item>
    <item>
      <title>h</title>
      <dc:creator>Carlos Barrientos</dc:creator>
      <pubDate>Sun, 17 May 2026 16:49:59 +0000</pubDate>
      <link>https://dev.to/carlos_barrientos_6d15639/h-50k</link>
      <guid>https://dev.to/carlos_barrientos_6d15639/h-50k</guid>
      <description></description>
    </item>
  </channel>
</rss>
