DEV Community

LibiaLany
LibiaLany

Posted on

Los datos genómicos se están convirtiendo en un problema de Ingeniería de Plataformas

El futuro del análisis de datos genómicos

  • En 2001, secuenciar el primer genoma humano costó aproximadamente 2.7 mil millones de dólares y tomó más de una década.
  • Hoy: un genoma completo puede secuenciarse en menos de 4 horas por aproximadamente 200 dólares.
  • Los volúmenes de datos están creciendo más rápido de lo que el almacenamiento y el cómputo pueden soportar.

Dolly with her firstborn lamb, Bonnie
Imagen recuperado de Wikipedia

Mucho estudios son exponenciales

El Proyecto 1000 Genomas nos da una línea base concreta.

  • Lanzado en 2007 por un consorcio internacional (Wellcome Sanger Institute, BGI, NHGRI). Objetivos:
  • Catalogar la variación genética humana hasta variantes presentes en menos del 1% de la población.
  • Obtener un conjunto de datos de referencia que acelere globalmente la investigación sobre genética de enfermedades comunes.
  • Un proyecto. Miles de genomas. Petabytes de datos.

Hoy en día, grandes biobancos secuencian cientos de miles de individuos con estándares mas modernos.


Hoy en día tenemos pipelines modernos de genómica

  • Datos de señal cruda (FAST5/POD5) provenientes de secuenciadores.
  • Archivos intermedios masivos durante el alineamiento (SAM - hasta 300 GB por muestra).
  • Representaciones comprimidas (BAM, CRAM) para almacenamiento.
  • Índices listos para consultas para extracción rápida de regiones.

La carga de trabajo es intermitente, intensiva en CPU y paralelizable una combinación poco adecuada para infraestructura local fija.

La computación en la nube es un camino viable a gran escala.


Una pequeña mirada al pipeline genómico

Solo el alineamiento puede tomar varios pasos y horas por muestra.

Herramientas del stack:

  • minimap2-arm: alineador optimizado para lecturas largas con soporte ARM/Graviton.
  • SAMtools: conversión de formatos, ordenamiento, indexación y estadísticas.

Por qué el alineamiento es la parte difícil

El alineamiento de secuencias es el proceso de mapear lecturas crudas a un genoma de referencia. Es:

Propiedad Impacto
Intensivo en CPU Requiere paralelismo a nivel de hilos e instancias
Genera enormes archivos intermedios Los archivos SAM superan rutinariamente los 100–300 GB
Totalmente paralelizable Muy adecuado para cómputo elástico en la nube
Sensible al tiempo Los investigadores necesitan resultados, no colas


La visión del ingeniero de plataformas para genómica

Conciencia de costos y mínima fricción para el usuario final.


Local Hardware Only

Tener un binario en maquinas del laboratorio de red


Genomic web server


Almacenamiento por niveles para datos genómicos

En S3 no todos los datos se acceden con la misma frecuencia.
Una estrategia de almacenamiento basada en ciclos de vida reduce drásticamente los costos:

Nivel Tipo de datos Clase de almacenamiento
Caliente Análisis activos, ejecuciones recientes S3 Standard
Templado Trabajos completados, archivo de corto plazo S3 Infrequent Access
Frío Cumplimiento a largo plazo, respaldos crudos S3 Glacier
  • Automatizar transiciones con S3 Lifecycle Policies.
  • La compresión CRAM reduce el almacenamiento en aproximadamente un 60% frente a BAM.


Presupuesto de investigación y Graviton ejecutando bioinformática

  • Instancia AWS EC2 Graviton (familias t4g / c7g) hasta un 40% mejor relación rendimiento frente a x86 para cargas de cómputo.

  • Consideración clave verificar compatibilidad ARM para todas las herramientas bioinformáticas (minimap2-arm es nativo para ARM algunas herramientas antiguas no lo son).

En un presupuesto de investigación, cada decisión arquitectónica también es una decisión financiera.


¿Nada se está rompiendo?

Observabilidad:

  • Trabajos enviados/completados/fallidos.
  • Tiempo promedio de alineamiento por muestra.
  • Almacenamiento consumido por nivel (caliente / templado / frío).

Ecosistema más amplio de genómica en la nube

Existen varias plataformas administradas para genómica a gran escala:

Plataforma Enfoque
AWS HealthOmics Workflows ómicos de extremo a extremo con integración nativa en AWS
Google Cloud Life Sciences Pipelines genómicos por lotes en GCP
DNAnexus Investigación colaborativa y cumplimiento regulatorio
Seven Bridges Workflows portables CWL/WDL y soporte multi-cloud

Top comments (0)