MLOps Best Practices for Production ML Systems

Why MLOps Matters

Machine learning in production is fundamentally different from research. Models need to be versioned, monitored, retrained, and maintained—often by teams beyond the original developers.

MLOps brings engineering discipline to ML systems, making them reliable, reproducible, and maintainable.

Core Principles

1. Everything is Code

Treat all ML artifacts as code:

Model code: Training scripts, architectures, preprocessing
Infrastructure code: Terraform, Kubernetes manifests
Pipeline code: Orchestration, scheduling, monitoring
Configuration: Hyperparameters, feature definitions

# version_config.yaml
model_version: "v2.3.1"
training_config:
  learning_rate: 0.001
  batch_size: 32
  epochs: 100

data_version: "2024-02-01"
features:
  - user_engagement_7d
  - session_duration
  - click_through_rate

2. Reproducibility is Non-Negotiable

Every experiment must be reproducible:

Version Control Everything:

Code (Git)
Data (DVC, MLflow)
Models (Model registry)
Environment (Docker, Poetry)
Experiments (MLflow, Weights & Biases)

Example setup:

# Pin all dependencies
poetry lock

# Version data
dvc add data/training_set.parquet
dvc push

# Track experiment
mlflow.log_params(config)
mlflow.log_metrics(metrics)
mlflow.log_model(model)

3. Automate Everything

Manual processes don’t scale:

CI/CD for ML: Automated testing and deployment
Automated retraining: Trigger on data drift or schedule
Automated monitoring: Alert on anomalies
Automated rollbacks: Revert on quality degradation

The ML Pipeline

Data Pipeline

Quality data is critical:

# Data validation
from great_expectations import DataContext

context = DataContext()
validation_result = context.run_checkpoint(
    checkpoint_name="data_quality_checkpoint",
    batch_request=batch_request
)

if not validation_result.success:
    raise ValueError("Data validation failed!")

Best practices:

Schema validation
Statistical checks (distributions, ranges)
Data lineage tracking
Feature store for consistency

Training Pipeline

Systematic training process:

Data preparation: Clean, transform, split
Feature engineering: Extract, select, scale
Model training: Hyperparameter tuning, cross-validation
Evaluation: Multiple metrics, fairness checks
Registration: Save to model registry

Deployment Pipeline

Safe model deployment:

# Gradual rollout strategy
class ModelRouter:
    def __init__(self):
        self.champion = load_model("v1")
        self.challenger = load_model("v2")

    def predict(self, features):
        # Route 10% traffic to new model
        if random.random() < 0.1:
            return self.challenger.predict(features)
        return self.champion.predict(features)

Deployment strategies:

Shadow deployment (log predictions, don’t serve)
Canary deployment (gradual rollout)
Blue-green deployment (instant switch with rollback)
A/B testing (compare performance)

Monitoring and Observability

What to Monitor

Input Monitoring:

Feature distribution shifts
Missing values
Outliers
Data quality

Model Monitoring:

Prediction distribution
Confidence scores
Latency metrics
Error rates

Output Monitoring:

Business metrics
User engagement
Conversion rates
Revenue impact

Alerting Strategy

# Example monitoring setup
from prometheus_client import Histogram, Counter

prediction_latency = Histogram(
    'model_prediction_latency_seconds',
    'Time spent making predictions'
)

prediction_errors = Counter(
    'model_prediction_errors_total',
    'Total prediction errors'
)

# Alert on drift
if feature_drift_score > threshold:
    alert_team("Feature drift detected!")
    trigger_retraining_pipeline()

Testing ML Systems

Types of Tests

Unit Tests:

Data transformations
Feature engineering logic
Model training functions

Integration Tests:

Pipeline end-to-end
Model serving API
Data pipeline flows

Model Tests:

def test_model_performance():
    """Test model meets minimum quality threshold"""
    metrics = evaluate_model(model, test_set)
    assert metrics['auc'] > 0.85
    assert metrics['precision'] > 0.80

def test_prediction_invariance():
    """Test predictions are consistent"""
    predictions1 = model.predict(test_data)
    predictions2 = model.predict(test_data)
    assert np.allclose(predictions1, predictions2)

Infrastructure Best Practices

Containerization

# Dockerfile for model serving
FROM python:3.11-slim

WORKDIR /app
COPY requirements.txt .
RUN pip install --no-cache-dir -r requirements.txt

COPY model/ ./model/
COPY serve.py .

EXPOSE 8000
CMD ["uvicorn", "serve:app", "--host", "0.0.0.0"]

Kubernetes Deployment

# model-deployment.yaml
apiVersion: apps/v1
kind: Deployment
metadata:
  name: ml-model-serving
spec:
  replicas: 3
  template:
    spec:
      containers:
      - name: model
        image: ml-model:v2.3.1
        resources:
          requests:
            memory: "2Gi"
            cpu: "1"
        livenessProbe:
          httpGet:
            path: /health
            port: 8000

Documentation

Document everything:

Model cards: Purpose, training data, performance, limitations
API documentation: Endpoints, request/response formats
Runbooks: Troubleshooting, common issues
Architecture diagrams: System overview, data flows

Conclusion

Successful MLOps requires:

Treating ML as software engineering
Automating the entire lifecycle
Monitoring everything that matters
Planning for failure and recovery
Documenting thoroughly

The goal: reliable, maintainable ML systems that deliver consistent value.

Building production ML systems? Start with these fundamentals and iterate based on your specific needs.

Why MLOps Matters#

Core Principles#

1. Everything is Code#

2. Reproducibility is Non-Negotiable#

3. Automate Everything#

The ML Pipeline#

Data Pipeline#

Training Pipeline#

Deployment Pipeline#

Monitoring and Observability#

What to Monitor#

Alerting Strategy#

Testing ML Systems#

Types of Tests#

Infrastructure Best Practices#

Containerization#

Kubernetes Deployment#

Documentation#

Conclusion#