9 Billones de Bases de ADN Enseñaron a una IA a Escribir Vida#
Evo 2 es un modelo de IA entrenado con 9 billones de pares de bases de ADN de todos los dominios de la vida. Sin entrenamiento específico, predice el impacto funcional de mutaciones genéticas — desde variantes no codificantes hasta el gen BRCA1 del cáncer de mama. Aquí comparamos su rendimiento contra 24 modelos especializados en 705 benchmarks.
El hallazgo: Evo 2 no es el mejor en ningún benchmark individual, pero es competitivo en todos — top 3 en el 55% de las tareas, y #1 en predicción de variantes BRCA1 (AUROC 0,901). El salto desde Evo 1 es total: mejora en 49 de 49 tareas.
Gráfica clave#

Reproducir#
O localmente:
pip install pandas matplotlib numpy scipy
jupyter execute notebook.ipynb
Datos#
datos/benchmarks_variantes.csv— 705 comparaciones de rendimiento (AUROC, AUPRC) entre 25 modelos en 4 datasets (ClinVar, BRCA1, BRCA2, SpliceVarDB)
Links#
Video: Ver en YouTube
Datos originales: Supplementary Table 3, Nature
Código del modelo: arcinstitute/evo2