Prashant Nigam

Posted on Nov 11

The Magic of LoRA Fine-Tuning with MLX (Part 4)

#lora #smalllanguagemodel #finetuning #llm

This is where the magic happens! In this part, we will deep dive into LoRA (Low-Rank Adaptation) fine-tuning and use MLX to train our model with incredible efficiency on Apple Silicon.

Understanding LoRA: The Game-Changing Technique

Imagine you are a master chef who wants to learn a new cuisine. Instead of forgetting everything you know and starting from scratch, you add new techniques and flavor profiles to your existing knowledge. That's exactly what LoRA (Low-Rank Adaptation) does for language models.

The Traditional Fine-Tuning Problem

Traditional fine-tuning updates all 1.7 billion parameters of our model. This means:

❌ Massive memory requirements
❌ Slow training
❌ Risk of "catastrophic forgetting" (losing general knowledge)
❌ Large model files

The LoRA Solution

LoRA adds small "adapter" layers that learn new behaviors while keeping the original model frozen:

✅ Minimal memory usage
✅ Fast training
✅ Preserves general knowledge
✅ Tiny adapter file size
✅ Can be combined or switched out easily

How LoRA Works Under the Hood

Think of the original model as a Swiss Army knife with all its tools welded in place. LoRA adds new attachments that can be snapped on or off.

MLX: Apple's Secret Weapon for AI

MLX is Apple's machine learning framework designed specifically for Apple Silicon. It's what makes our local fine-tuning possible and incredibly fast.

Why MLX is good for Local AI

Unified Memory Architecture: M-series chips share memory between CPU and GPU, eliminating data transfer bottlenecks
Optimized Computation: Hand-tuned for Apple Silicon's specific capabilities
Memory Efficiency: Intelligent memory management for maximum model sizes
Python Integration: Easy to use while being incredibly fast

Setting Up Our Fine-Tuning Pipeline

Let us build our fine-tuning system step by step, understanding each component.

Step 1: Configuration and Setup

First, let's create a comprehensive configuration system:

touch fine_tuning_config.py

# Create fine_tuning_config.py
import os
from pathlib import Path
import mlx.core as mx

class FineTuningConfig:
    """Centralized configuration for fine-tuning"""

    def __init__(self):
        # Model configuration
        self.base_model = "HuggingFaceTB/SmolLM2-1.7B-Instruct"
        self.adapter_path = "./adapters/email_sentiment"

        # Data paths
        self.train_data_path = "./data/mlx_format/train.jsonl"
        self.valid_data_path = "./data/mlx_format/valid.jsonl"

        # LoRA parameters
        self.lora_layers = 16  # Number of transformer layers to add LoRA to
        self.lora_rank = 16    # The 'r' in LoRA - higher = more capacity but slower
        self.lora_alpha = 32   # Scaling factor for LoRA adapters

        # Training parameters
        self.batch_size = 2           # Batch size (reduce if out of memory)
        self.learning_rate = 5e-5     # Learning rate
        self.max_iters = 1000         # Maximum training iterations
        self.steps_per_report = 10    # How often to print progress
        self.steps_per_eval = 200     # How often to run validation
        self.save_every = 400         # How often to save checkpoints

        # Hardware optimization
        self.use_gpu = mx.metal.is_available()
        self.max_sequence_length = 2048

        # Create directories
        Path(self.adapter_path).mkdir(parents=True, exist_ok=True)

    def print_config(self):
        """Print current configuration"""
        print("🔧 Fine-tuning Configuration:")
        print(f"  Base model: {self.base_model}")
        print(f"  GPU available: {self.use_gpu}")
        print(f"  LoRA rank: {self.lora_rank}")
        print(f"  LoRA layers: {self.lora_layers}")
        print(f"  Batch size: {self.batch_size}")
        print(f"  Learning rate: {self.learning_rate}")
        print(f"  Max iterations: {self.max_iters}")
        print(f"  Adapter path: {self.adapter_path}")

# Create and test config
if __name__ == "__main__":
    config = FineTuningConfig()
    config.print_config()

Step 2: Memory and Performance Monitoring

Before we start fine-tuning, let's create tools to monitor our system:

touch monitoring.py

# Create monitoring.py
import time
import mlx.core as mx
from typing import Dict, List
import psutil

class PerformanceMonitor:
    """Monitor memory usage and training performance"""

    def __init__(self):
        self.start_time = time.time()
        self.metrics = []

    def log_memory_usage(self, step: int, loss: float = None):
        """Log current memory and performance metrics"""

        # GPU memory (if available)
        gpu_memory = {}
        if mx.metal.is_available():
            gpu_memory = {
                'active_mb': mx.metal.get_active_memory() / 1e6,
                'peak_mb': mx.metal.get_peak_memory() / 1e6
            }

        # System memory
        system_memory = psutil.virtual_memory()

        # Training metrics
        elapsed = time.time() - self.start_time

        metrics = {
            'step': step,
            'elapsed_seconds': elapsed,
            'loss': loss,
            'gpu_active_mb': gpu_memory.get('active_mb', 0),
            'gpu_peak_mb': gpu_memory.get('peak_mb', 0),
            'system_memory_percent': system_memory.percent,
            'system_memory_available_gb': system_memory.available / 1e9
        }

        self.metrics.append(metrics)

        if step % 50 == 0:  # Print every 50 steps
            self.print_status(metrics)

        return metrics

    def print_status(self, metrics: Dict):
        """Print current training status"""

        print(f"Step {metrics['step']:4d} | "
              f"Loss: {metrics['loss']:.4f} | "
              f"GPU: {metrics['gpu_active_mb']:.0f}MB | "
              f"Time: {metrics['elapsed_seconds']:.1f}s")

    def get_training_summary(self):
        """Get summary of training run"""

        if not self.metrics:
            return {}

        peak_gpu = max(m['gpu_peak_mb'] for m in self.metrics)
        total_time = self.metrics[-1]['elapsed_seconds']
        final_loss = self.metrics[-1]['loss']

        return {
            'total_training_time': total_time,
            'peak_gpu_memory_mb': peak_gpu,
            'final_loss': final_loss,
            'steps_completed': len(self.metrics)
        }

Step 3: The Fine-Tuning Engine

Now let's create our main fine-tuning script using MLX-LM:

touch fine_tune_model.py

# Create fine_tune_model.py
import subprocess
import time
import json
import os
from pathlib import Path
from fine_tuning_config import FineTuningConfig
from monitoring import PerformanceMonitor

class MLXFineTuner:
    """Fine-tune models using MLX with LoRA"""

    def __init__(self, config: FineTuningConfig):
        self.config = config
        self.monitor = PerformanceMonitor()

    def validate_data(self):
        """Validate that training data exists and is properly formatted"""

        print("📊 Validating training data...")

        if not os.path.exists(self.config.train_data_path):
            raise FileNotFoundError(f"Training data not found: {self.config.train_data_path}")

        # Count training examples
        train_count = 0
        with open(self.config.train_data_path, 'r') as f:
            for line in f:
                if line.strip():
                    train_count += 1

        print(f"✅ Found {train_count} training examples")

        # Validate format
        with open(self.config.train_data_path, 'r') as f:
            first_line = f.readline()
            try:
                example = json.loads(first_line)
                if 'text' not in example:
                    raise ValueError("Training data must have 'text' field")
                print("✅ Data format validated")
            except json.JSONDecodeError:
                raise ValueError("Training data must be valid JSONL format")

        return train_count

    def build_training_command(self):
        """Build the MLX-LM training command"""

        cmd = [
            "python3", "-m", "mlx_lm", "lora",
            "--model", self.config.base_model,
            "--train",
            "--data", "./data/mlx_format",  # Directory containing train.jsonl
            "--batch-size", str(self.config.batch_size),
            "--iters", str(self.config.max_iters),
            "--learning-rate", str(self.config.learning_rate),
            "--steps-per-report", str(self.config.steps_per_report),
            "--steps-per-eval", str(self.config.steps_per_eval),
            "--adapter-path", self.config.adapter_path,
            "--save-every", str(self.config.save_every)
        ]

        return cmd

    def run_fine_tuning(self):
        """Execute the fine-tuning process"""

        print("🚀 Starting LoRA fine-tuning with MLX...")
        print("=" * 60)

        # Validate everything is ready
        train_count = self.validate_data()
        self.config.print_config()

        # Build command
        cmd = self.build_training_command()
        print(f"\n📝 Command: {' '.join(cmd)}")

        # Start training
        start_time = time.time()

        print(f"\n🏃 Training started at {time.strftime('%H:%M:%S')}")
        print(f"📚 Training on {train_count} examples")
        print("💡 This typically takes 3-10 minutes on Apple Silicon M3")
        print("⏰ Progress will be reported every 10 steps\n")

        try:
            # Run the training command
            result = subprocess.run(cmd, capture_output=True, text=True, check=True)

            training_time = time.time() - start_time

            print("\n" + "="*60)
            print("🎉 Fine-tuning completed successfully!")
            print(f"⏱️  Total training time: {training_time:.1f} seconds")
            print(f"💾 Adapters saved to: {self.config.adapter_path}")

            # Save training metadata
            metadata = {
                'model_name': self.config.base_model,
                'training_time_seconds': training_time,
                'training_examples': train_count,
                'lora_rank': self.config.lora_rank,
                'lora_layers': self.config.lora_layers,
                'batch_size': self.config.batch_size,
                'learning_rate': self.config.learning_rate,
                'max_iters': self.config.max_iters,
                'timestamp': time.time(),
                'command_used': ' '.join(cmd)
            }

            metadata_path = f"{self.config.adapter_path}/training_metadata.json"
            with open(metadata_path, 'w') as f:
                json.dump(metadata, f, indent=2)

            print(f"📊 Training metadata saved to: {metadata_path}")

            # Parse and display training output
            self.parse_training_output(result.stdout)

            return True, metadata

        except subprocess.CalledProcessError as e:
            print("\n❌ Fine-tuning failed!")
            print(f"Error code: {e.returncode}")
            print(f"Error output: {e.stderr}")
            print(f"Standard output: {e.stdout}")
            return False, None

    def parse_training_output(self, output: str):
        """Parse and display key information from training output"""

        print("\n📈 Training Progress Summary:")
        print("-" * 40)

        lines = output.split('\n')

        # Look for key training metrics
        for line in lines:
            if 'Loss:' in line or 'Validation' in line:
                print(f"  {line.strip()}")

        # Look for final metrics
        for line in reversed(lines):
            if 'Loss:' in line:
                print(f"\n🎯 Final training loss: {line.split('Loss:')[-1].strip()}")
                break

    def verify_training_output(self):
        """Verify that training produced the expected files"""

        print("\n🔍 Verifying training output...")

        adapter_path = Path(self.config.adapter_path)

        # Check for adapter files
        adapter_files = list(adapter_path.glob("*.safetensors")) + list(adapter_path.glob("*.npz"))
        if adapter_files:
            print(f"✅ Found adapter files: {[f.name for f in adapter_files]}")
        else:
            print("❌ No adapter files found")
            return False

        # Check for configuration
        config_file = adapter_path / "adapter_config.json"
        if config_file.exists():
            print(f"✅ Found adapter config: {config_file}")

            # Display config contents
            with open(config_file, 'r') as f:
                config_data = json.load(f)
                print(f"   LoRA rank: {config_data.get('r', 'unknown')}")
                print(f"   LoRA alpha: {config_data.get('lora_alpha', 'unknown')}")
        else:
            print("⚠️  No adapter config found")

        # Calculate total size
        total_size = sum(f.stat().st_size for f in adapter_path.rglob('*') if f.is_file())
        print(f"📁 Total adapter size: {total_size / 1e6:.1f} MB")

        return True

def main():
    """Main fine-tuning execution"""

    print("🤖 MLX LoRA Fine-Tuning Pipeline")
    print("=" * 50)

    # Create configuration
    config = FineTuningConfig()

    # Create fine-tuner
    fine_tuner = MLXFineTuner(config)

    # Run fine-tuning
    success, metadata = fine_tuner.run_fine_tuning()

    if success:
        # Verify output
        fine_tuner.verify_training_output()

        print("\n✨ Fine-tuning pipeline completed successfully!")
        print("\n🎯 Next steps:")
        print("  1. Test your fine-tuned model")
        print("  2. Run evaluation to measure performance")
        print("  3. Build your application interface")

        return metadata
    else:
        print("\n💥 Fine-tuning failed. Please check the error messages above.")
        return None

if __name__ == "__main__":
    metadata = main()

DEV Community