LibiaLany

Posted on May 29

Los datos genómicos se están convirtiendo en un problema de Ingeniería de Plataformas

#plataformengineer #aws #genomics

El futuro del análisis de datos genómicos

En 2001, secuenciar el primer genoma humano costó aproximadamente 2.7 mil millones de dólares y tomó más de una década.
Hoy: un genoma completo puede secuenciarse en menos de 4 horas por aproximadamente 200 dólares.
Los volúmenes de datos están creciendo más rápido de lo que el almacenamiento y el cómputo pueden soportar.

Dolly with her firstborn lamb, Bonnie
Imagen recuperado de Wikipedia

Mucho estudios son exponenciales

El Proyecto 1000 Genomas nos da una línea base concreta.

Lanzado en 2007 por un consorcio internacional (Wellcome Sanger Institute, BGI, NHGRI). Objetivos:
Catalogar la variación genética humana hasta variantes presentes en menos del 1% de la población.
Obtener un conjunto de datos de referencia que acelere globalmente la investigación sobre genética de enfermedades comunes.
Un proyecto. Miles de genomas. Petabytes de datos.

Hoy en día, grandes biobancos secuencian cientos de miles de individuos con estándares mas modernos.

Hoy en día tenemos pipelines modernos de genómica

Datos de señal cruda (FAST5/POD5) provenientes de secuenciadores.
Archivos intermedios masivos durante el alineamiento (SAM - hasta 300 GB por muestra).
Representaciones comprimidas (BAM, CRAM) para almacenamiento.
Índices listos para consultas para extracción rápida de regiones.

La carga de trabajo es intermitente, intensiva en CPU y paralelizable una combinación poco adecuada para infraestructura local fija.

La computación en la nube es un camino viable a gran escala.

Una pequeña mirada al pipeline genómico

Solo el alineamiento puede tomar varios pasos y horas por muestra.

Herramientas del stack:

minimap2-arm: alineador optimizado para lecturas largas con soporte ARM/Graviton.
SAMtools: conversión de formatos, ordenamiento, indexación y estadísticas.

Por qué el alineamiento es la parte difícil

El alineamiento de secuencias es el proceso de mapear lecturas crudas a un genoma de referencia. Es:

Propiedad	Impacto
Intensivo en CPU	Requiere paralelismo a nivel de hilos e instancias
Genera enormes archivos intermedios	Los archivos SAM superan rutinariamente los 100–300 GB
Totalmente paralelizable	Muy adecuado para cómputo elástico en la nube
Sensible al tiempo	Los investigadores necesitan resultados, no colas

La visión del ingeniero de plataformas para genómica

Conciencia de costos y mínima fricción para el usuario final.

Local Hardware Only

Tener un binario en maquinas del laboratorio de red

Genomic web server

Almacenamiento por niveles para datos genómicos

En S3 no todos los datos se acceden con la misma frecuencia.
Una estrategia de almacenamiento basada en ciclos de vida reduce drásticamente los costos:

Nivel	Tipo de datos	Clase de almacenamiento
Caliente	Análisis activos, ejecuciones recientes	S3 Standard
Templado	Trabajos completados, archivo de corto plazo	S3 Infrequent Access
Frío	Cumplimiento a largo plazo, respaldos crudos	S3 Glacier

Automatizar transiciones con S3 Lifecycle Policies.
La compresión CRAM reduce el almacenamiento en aproximadamente un 60% frente a BAM.

Presupuesto de investigación y Graviton ejecutando bioinformática

Instancia AWS EC2 Graviton (familias t4g / c7g) hasta un 40% mejor relación rendimiento frente a x86 para cargas de cómputo.
Consideración clave verificar compatibilidad ARM para todas las herramientas bioinformáticas (minimap2-arm es nativo para ARM algunas herramientas antiguas no lo son).

En un presupuesto de investigación, cada decisión arquitectónica también es una decisión financiera.

¿Nada se está rompiendo?

Observabilidad:

CPU Usage

Ecosistema más amplio de genómica en la nube

Existen varias plataformas administradas para genómica a gran escala:

Plataforma	Enfoque
AWS HealthOmics	Workflows ómicos de extremo a extremo con integración nativa en AWS
Google Cloud Life Sciences	Pipelines genómicos por lotes en GCP
DNAnexus	Investigación colaborativa y cumplimiento regulatorio
Seven Bridges	Workflows portables CWL/WDL y soporte multi-cloud

DEV Community