RASMIN BHALLA

Posted on Apr 11

Migrating Legacy ETL to Modern Data Stack: Matillion dbt on Databricks

#matillion #dbt #databricks #dataenginee

🚀

Modern data engineering is shifting from tool-driven ETL to code-first, modular pipelines. In this post, I’ll walk through how I migrated legacy Matillion workflows to a scalable architecture using dbt and Databricks.

🧩** _

Problem Statement

_**

We had multiple Matillion mappings handling core business entities like:

Company
Department
Group
Class / Sub-Class
Supplier / Supplier Site
Barcode

Challenges:

Tight coupling between jobs
Limited reusability
Difficult debugging and lineage tracking
Inconsistent data quality validation

🏗️ Target Architecture

We redesigned the system using a medallion architecture, where data flows through multiple refinement layers:

Bronze → Raw ingestion
Silver → Cleaned & validated data
Gold → Business-ready datasets

This layered approach improves data quality progressively as it moves downstream ([Databricks Documentation][1]).

🔄 Migration Strategy

1. Decomposing Matillion Mappings

Each Matillion job was broken down into:

Source extraction
Joins & filters
Aggregations

Then rewritten as modular dbt models.

🧱 Layered Modeling Approach

Staging (stg_*) → Raw cleanup
Intermediate (int_*) → Business logic reuse
Marts (dim_*, fct_*) → Analytics-ready tables

Example:

stg_supplier → int_supplier_enriched → dim_supplier

⚡ Incremental Processing

Instead of full refresh pipelines:

Used updated_at based filtering
Applied incremental models

👉 Result: Reduced compute cost and faster execution

🧪 Data Validation Strategy (Critical Step)

Ensuring parity with production was the most critical step.

✔️ Validation Techniques

Row count validation
Aggregation checks (SUM, COUNT)
Sample-level validation
Hash-based comparison

✅ Data Quality Framework in dbt

Implemented both standard and custom tests:

Not Null
Unique
Relationships (FK integrity)
Accepted Values
Freshness checks

⚡ Performance Optimization

Incremental models for large tables
Partitioning (Delta tables)
Optimized joins

🔍 Key Challenges

1. Hidden Dependencies

Solved using dbt DAG (ref())

2. Data Mismatch

Resolved via structured reconciliation

3. Job Variables

Converted into dbt macros

📊 Outcome

✔ Improved maintainability
✔ Standardized SQL transformations
✔ Strong data quality enforcement
✔ Reduced runtime and cost
✔ Clear lineage and traceability

💡 Key Takeaway

This migration wasn’t just tool replacement—it was a shift to:

👉 Modular data engineering
👉 Version-controlled transformations
👉 Reliable, testable pipelines

👋 Final Thoughts

If you're still using legacy ETL tools, moving to dbt can drastically improve:

Development speed
Debugging
Data trust Happy to discuss dbt + Databricks architectures or migration strategies!

DEV Community