- La inteligencia artificial está transformando la investigación biológica en campos como la genómica, la estructuración de proteínas y el análisis de imágenes.
- Modelos avanzados como AlphaFold y AlphaGenome, junto con la bioinformática y la biología de sistemas, permiten predecir estructuras, funciones y rutas metabólicas complejas.
- Iniciativas abiertas y colaborativas (MOC-A, AI4LIFE, BioImage Model Zoo) democratizan el acceso a datos, modelos y recursos computacionales.
- Persisten retos clave: necesidad de más datos de calidad, interpretabilidad de modelos, regulación, ética y acceso equitativo a infraestructuras de IA.
La investigación biológica y la inteligencia artificial llevan décadas mirándose de reojo, pero en los últimos años se han convertido en compañeras de viaje imprescindibles. Lo que antes se hacía solo con microscopios, pipetas y cuadernos, ahora se apoya en algoritmos capaces de analizar millones de datos, predecir estructuras moleculares imposibles de resolver a mano y sugerir nuevos experimentos.
Esta nueva etapa de la ciencia combina biología computacional, ciencia de datos, modelos de deep learning y plataformas abiertas para abordar problemas tan diversos como el origen de la vida, el diagnóstico de enfermedades complejas, la medicina de precisión o el diseño de fármacos. El resultado es un cambio de paradigma: la biología se está escribiendo, literalmente, en código.
De la bioinformática clásica al deep learning en biología
Durante mucho tiempo, la biología y la IA han avanzado a ritmos muy distintos: la biología es compleja, llena de excepciones y contexto, mientras que los algoritmos tradicionales necesitan datos limpios, homogéneos y bien estructurados para funcionar de forma robusta. Esta tensión ha sido uno de los grandes frenos a la adopción masiva de IA en el laboratorio.
En biología computacional, sin embargo, la IA no es nueva: ya en los años 80 se aplicaron métodos de aprendizaje automático para clasificar secuencias de proteínas y ADN, y pronto se empezaron a usar redes neuronales para predecir estructuras secundarias de proteínas. Desde entonces, estas técnicas forman parte del repertorio habitual de la bioinformática.
Cuando hablamos de IA en biología conviene diferenciar entre las técnicas de machine learning “clásico” y los enfoques de deep learning. El machine learning supervisado y no supervisado se ha utilizado con éxito para construir clasificadores (por ejemplo, distinguir muestras “cáncer / no cáncer”) o agrupar genes y muestras según patrones de expresión, ayudando a generar hipótesis y a priorizar dianas experimentales.
Las metodologías de deep learning, especialmente las redes neuronales profundas, han revolucionado ámbitos concretos donde la cantidad de datos es masiva y la señal está muy estructurada, como el análisis de imágenes de microscopía o de histopatología. Aquí la IA supera con creces la capacidad humana para detectar patrones sutiles y repetitivos.
No todas las áreas de la biología se benefician por igual: campos con millones de secuencias bien almacenadas, como las bases de datos proteicas tipo UniProtKB, ofrecen un terreno ideal para entrenar modelos potentes. En cambio, repositorios de interacciones específicas, mucho más pequeños y heterogéneos, no permiten aún sacar todo el partido al deep learning.

Modelos de lenguaje para proteínas y el impulso de la biología estructural
Uno de los giros más sorprendentes ha sido la adopción de modelos de lenguaje, inspirados en el procesamiento del lenguaje natural, para trabajar con secuencias de proteínas. Igual que un modelo de texto aprende patrones gramaticales y semánticos, un modelo entrenado con millones de secuencias de aminoácidos puede captar regularidades que reflejan estructura, función y evolución.
En las últimas evaluaciones internacionales de métodos de predicción de función proteica, como el ejercicio CAFA5, la inmensa mayoría de los mejores modelos se basan en este tipo de representaciones profundas. Se entrenan con bases de datos como UniProtKB, repletas de secuencias, y son capaces de generalizar a proteínas poco caracterizadas para sugerir funciones probables.
Este avance se suma al impacto de modelos como AlphaFold, que pusieron en primera línea la predicción de estructuras terciarias de proteínas mediante IA. Tanto es así que el Nobel de Química ha reconocido recientemente el desarrollo de proteínas artificiales funcionales y los algoritmos de predicción estructural como un hito científico de primer nivel.
Sin embargo, estos modelos también traen retos: son auténticas “cajas negras” difíciles de interpretar. De ahí que haya surgido todo un subcampo, la inteligencia artificial explicable (XAI), que busca desentrañar qué patrones concreta está utilizando el modelo y por qué toma determinadas decisiones, algo crítico cuando se trabaja con datos biomédicos.
Más allá de las estructuras, la aplicación de modelos de lenguaje de proteínas para anotar funciones génicas desconocidas se está convirtiendo en una herramienta imprescindible para sacar partido a los millones de secuencias que hoy por hoy carecen de caracterización experimental.
IA para reconstruir el origen de la vida y el metabolismo primitivo
La unión de biología computacional e IA no solo sirve para mirar al futuro, también para rebobinar el reloj evolutivo y explorar el pasado remoto de la vida. Un ejemplo llamativo es el trabajo del Instituto de Biología Integrativa de Sistemas (I2SysBio), donde se ha utilizado la llamada estrategia de “metabolismo generativo” para ir desde el último ancestro común universal (LUCA) hacia los primeros pasos de la vida.
La genética comparada permite estimar cuán antiguos son los ancestros comunes entre especies: cuanto más similares los genomas, más reciente su último ancestro común; cuanto más diferentes, más se retrocede en el tiempo. Con la acumulación masiva de genomas secuenciados, el concepto de LUCA —ese organismo ancestral del que descienden todos los seres vivos actuales— se ha ido afinando y situando en torno a los 4.200 millones de años.
El gran problema, hasta ahora, era conectar la química prebiótica de la Tierra primitiva con los metabolismos ya organizados de LUCA. Ni los enfoques ascendentes (de la química simple hacia la biología) ni los descendentes (desde los organismos actuales hacia atrás) habían logrado cerrar esa brecha.
El enfoque de metabolismo generativo emplea algoritmos que generan redes metabólicas a partir de conjuntos de reglas de reacción. Trabajando hacia atrás, se infiere qué genes ancestrales y qué enzimas podría haber tenido LUCA y qué reacciones eran plausibles en un entorno primitivo concreto, extendiendo el espacio metabólico más allá de las rutas conocidas hoy.
De este modo, la IA funciona como una especie de “detective molecular” capaz de reconstruir rutas metabólicas hipotéticas, conectando las reacciones actuales con conjuntos de reacciones prebióticas plausibles. Esta aproximación, muy usada en biología sintética e ingeniería metabólica, se reaprovecha aquí para uno de los grandes enigmas: cómo emergió el metabolismo complejo desde una química sencilla y desorganizada.
Ciencia de datos aplicada a biología: del laboratorio húmedo al teclado
La investigación biológica moderna se ha vuelto intensamente digital. Hoy, un biólogo que quiera estar en la vanguardia necesita manejar genomas completos, imágenes de alta resolución, datos clínicos y ambientales, todo integrado en pipelines de análisis cada vez más complejos.
En este contexto, la ciencia de datos aplicada a biología se ha consolidado como un perfil crítico. Un investigador capaz de combinar biología, programación y estadística puede ir mucho más allá de interpretar resultados: diseña experimentos guiados por datos, construye modelos predictivos y colabora de tú a tú con ingenieros y científicos computacionales.
En genómica, tecnologías de secuenciación masiva (NGS) generan miles de millones de lecturas por experimento, imposibles de manejar sin técnicas robustas de machine learning, estadística y cómputo distribuido. Estas herramientas permiten ensamblar genomas, identificar variantes asociadas a enfermedades y analizar perfiles de expresión génica (RNA-seq) para descubrir qué genes se activan o silencian en distintas condiciones.
La biología de sistemas, por su parte, se apoya en la ciencia de datos para reconstruir redes de regulación génica, interacciones proteína-proteína y rutas metabólicas. El objetivo ya no es estudiar un gen aislado, sino entender la célula como una red compleja, localizar “nodos” clave y simular cómo cambiaría el sistema si se interviene sobre ellos.
Otro frente emergente es el estudio del microbioma y la metagenómica. Aquí, la IA ayuda a clasificar miles de especies microbianas en una sola muestra, relacionar composiciones microbianas con dieta, enfermedades o tratamientos, y modelar interacciones ecológicas entre microbios y su entorno. Sin estas herramientas, el microbioma sería solo una lista interminable de nombres; con IA, se convierte en una mina de biomarcadores y nuevas dianas terapéuticas.
Deep learning para imágenes biológicas y salud uterina
La microscopia moderna produce imágenes tridimensionales y temporales cada vez más complejas. Analizar a mano todas esas capturas sería inviable, y por eso la visión por computador y el deep learning se han convertido en aliados básicos en biología celular y medicina.
Los algoritmos actuales son capaces de contar y clasificar células, segmentar estructuras, detectar tumores en biopsias digitales o seguir el movimiento de células en tiempo real. Esto no solo ahorra tiempo al personal del laboratorio, también aporta objetividad y reproducibilidad a los análisis.
En el ámbito de la salud uterina, la combinación de biología de sistemas e inteligencia artificial está cambiando la forma de entender patologías como la endometriosis, el síndrome de Asherman o ciertos tipos de infertilidad. En lugar de mirar solo un marcador o una imagen aislada, se integran datos genómicos, proteómicos, histológicos y clínicos para construir modelos que describen al útero como un sistema dinámico.
Gracias a estos modelos se pueden desarrollar herramientas de medicina personalizada para optimizar tratamientos de fertilidad, ajustar protocolos hormonales en función de la respuesta esperada de cada paciente y detectar biomarcadores tempranos de disfunción uterina. Instituciones como la Fundación Carlos Simón trabajan precisamente en este tipo de enfoques integradores.
Proyectos abiertos y ecosistemas colaborativos de IA en ciencias de la vida
El despliegue real de IA en biología no depende solo de tener buenos modelos, sino de construir ecosistemas abiertos donde datos, herramientas y recursos computacionales sean accesibles. Aquí el software libre, las nubes académicas y las alianzas público-privadas juegan un papel central.
Un ejemplo es la colaboración entre Red Hat Research y la Mass Open Cloud Alliance (MOC-A), que impulsa una nube abierta en la que universidades, centros públicos y empresas comparten infraestructura: CPU, GPU, almacenamiento, grandes bases de datos, herramientas y modelos de IA alojados en un centro de datos neutro en carbono.
Sobre esta base se ha desplegado, por ejemplo, una plataforma con Red Hat OpenShift AI para experimentación en descubrimiento de fármacos, utilizada en foros donde investigadores pueden entrenar y probar modelos open source, escalar recursos en función de sus necesidades y seguir accediendo a su trabajo tras los eventos.
La accesibilidad es clave: muchos grupos académicos y hospitales regionales no tienen infraestructura local suficiente para cargas de trabajo de IA a gran escala. Plataformas compartidas como la MOC-A democratizan el acceso a recursos que, de otra forma, estarían reservados a grandes farmacéuticas o centros punteros.
Junto a la accesibilidad, la transparencia y la posibilidad de auditar y adaptar los modelos resultan críticas en biomedicina. El open source permite revisar código, ajustar modelos a contextos locales y crear soluciones adaptadas a flujos de trabajo específicos, algo difícil de lograr con herramientas propietarias cerradas.
AI4LIFE, FAIR data y modelos de imágenes listos para IA
En Europa, proyectos como AI4LIFE se centran en hacer la IA accesible a biólogos sin experiencia avanzada en programación. Su objetivo es reducir la brecha entre la potencia de las técnicas de deep learning y la realidad del día a día en los laboratorios de ciencias de la vida.
AI4LIFE desarrolla plataformas de uso sencillo para análisis de imágenes biológicas mediante IA: segmentación de células, detección de estructuras, extracción de características… Todo ello enmarcado en el principio FAIR para los datos (localizables, accesibles, interoperables y reutilizables), adaptado a conjuntos de imágenes y modelos “listos para IA”.
El proyecto impulsa estándares para anotar y documentar conjuntos de datos de imágenes de forma que puedan reutilizarse fácilmente para entrenar nuevos modelos o mejorar los ya existentes. Esto reduce la necesidad de reprocesar datos una y otra vez, ahorra tiempo de cálculo y favorece la colaboración entre grupos.
Un pilar de AI4LIFE es el BioImage Model Zoo, un repositorio comunitario de modelos para análisis de imágenes biológicas. Allí, los científicos pueden descargar modelos entrenados, aplicarlos con herramientas populares de análisis y contribuir con sus propios modelos, creando un ecosistema vivo y en constante mejora.
Además, el proyecto organiza iniciativas como las Open Calls para apoyar casos de uso concretos y competiciones tipo “Denoising Challenge”, donde se desarrollan y comparan métodos de mejora de calidad en imágenes de microscopía. Este enfoque colaborativo acelera la innovación, aumenta la visibilidad de nuevas herramientas y facilita su adopción.
Descubrimiento de nuevos antibióticos y diseño racional de fármacos
La misma lógica de combinar secuencias, modelos de lenguaje y experimentación húmeda se aplica a un problema crítico: la resistencia a los antibióticos. Laboratorios como el Machine Biology Group, liderado por César de la Fuente, exploran el uso de IA para localizar y diseñar nuevas moléculas antimicrobianas.
Su estrategia pasa por utilizar deep learning para analizar millones de proteínas y péptidos, tanto de organismos actuales como de especies extintas, en un enfoque denominado “molecular de-extinction”: rescatar moléculas del pasado con potencial antimicrobiano y optimizarlas mediante biología sintética.
Parte de este trabajo se inspira en fuentes naturales como péptidos antimicrobianos de la piel de anfibios, que se modifican y mejoran gracias a la IA para maximizar su eficacia frente a bacterias resistentes y minimizar toxicidad y efectos indeseados sobre la microbiota humana.
Los modelos de machine learning no solo predicen qué secuencias podrían comportarse como antibióticos, también ayudan a ajustar estabilidad, solubilidad, selectividad y otros parámetros clave antes de pasar a experimentación en el laboratorio. Esto acorta de forma drástica los tiempos desde la idea hasta los candidatos preclínicos.
De cara a la carrera investigadora, perfiles que dominan biología, programación y técnicas de IA se sitúan en primera línea de este nuevo paradigma de descubrimiento de fármacos asistido por algoritmos.
IA y células madre: reprogramación, terapias y retos
Otro ámbito en plena ebullición es la intersección entre inteligencia artificial y biología de células madre. Aquí, el foco no está solo en analizar datos, sino en diseñar procesos celulares más eficientes y seguros para aplicaciones clínicas.
Uno de los avances más comentados es la colaboración entre OpenAI y Retro Biosciences, que ha permitido mejorar los famosos factores de Yamanaka, responsables de convertir células adultas en células madre pluripotentes inducidas (iPS). Usando modelos de IA especializados en biología, se han identificado variantes con una capacidad de reprogramación muy superior.
Los resultados apuntan a una reprogramación celular hasta 50 veces más eficiente, con mejor reparación de ADN y un rejuvenecimiento celular más robusto. Esto abre el camino hacia terapias regenerativas más potentes y seguras, disminuyendo riesgos de mutaciones o comportamientos indeseados de las células reprogramadas.
En paralelo, grupos en Japón, en colaboración con empresas como Google, trabajan en automatizar la producción de iPS con ayuda de IA. El objetivo es estandarizar y optimizar cada paso del proceso, reduciendo costes y variabilidad para que las terapias celulares sean viables a gran escala.
La IA también se emplea para analizar datos complejos de sistemas biológicos (enfoques tipo SysBioAI), detectar riesgos en etapas tempranas, personalizar terapias en función del perfil molecular de cada paciente y ajustar tratamientos en tiempo real según la respuesta observada.
Las aplicaciones potenciales abarcan desde la aceleración de ensayos clínicos y la reducción de costes, hasta la medicina regenerativa personalizada, el rejuvenecimiento celular y la integración de IA en todas las fases del pipeline biomédico. Por supuesto, esto va acompañado de retos serios: heterogeneidad celular, riesgos de seguridad, regulación, ética y la necesidad constante de datos de alta calidad.
Mientras tanto, normativas como la Artificial Intelligence Act de la Unión Europea buscan asegurar que estos avances se despliegan bajo marcos de transparencia, supervisión humana y garantías de seguridad, especialmente en aplicaciones médicas de alto riesgo.
AlphaGenome y la «materia oscura» del genoma humano
Si AlphaFold cambió la forma de entender el plegamiento de proteínas, AlphaGenome apunta ahora a traducir el código del ADN en información funcional, con especial interés en ese 98 % del genoma que no codifica proteínas pero concentra la mayoría de variantes relacionadas con enfermedades complejas.
Desarrollado por el equipo de Google DeepMind, AlphaGenome es un modelo de IA basado en deep learning entrenado con genomas humanos y de ratón, capaz de analizar tramos largos de ADN y predecir miles de señales genéticas relacionadas con la regulación de genes y proteínas.
En evaluaciones estándar, sus predicciones igualan o superan a otros modelos punteros en la práctica totalidad de pruebas, lo que ha llevado a muchos expertos a considerar que marca un antes y un después en genómica computacional. Su capacidad para interpretar regiones no codificantes lo convierte en una herramienta clave para descifrar la “materia oscura” del genoma.
Las implicaciones prácticas son enormes: AlphaGenome podría mejorar la interpretación de pruebas genéticas, identificar variantes raras implicadas en patologías, orientar el desarrollo de nuevos tratamientos y simular cómo mutaciones en regiones reguladoras alteran la expresión de genes.
Investigadores de centros como el CNB-CSIC, el Francis Crick Institute o el Wellcome Sanger subrayan que, aunque no es una varita mágica que resuelva todos los problemas, sí supone una pieza de ingeniería sobresaliente que integra muchas ideas previas y las lleva a un nivel de rendimiento muy superior.
Eso sí, también insisten en un punto clave: estos modelos dependen críticamente de la calidad, diversidad y estandarización de los datos de entrenamiento. El gran reto a futuro es generar y compartir datos biológicos robustos, abiertos y bien documentados para alimentar la próxima generación de IA genómica.
Con todo este panorama, la investigación biológica apoyada en inteligencia artificial se perfila como un campo en expansión constante, donde la combinación de datos masivos, modelos avanzados, infraestructuras abiertas y colaboración interdisciplinar está redefiniendo cómo se formulan las preguntas científicas y cómo se buscan las respuestas, desde el origen de la vida hasta las terapias más personalizadas en medicina actual.
Tabla de Contenidos
- De la bioinformática clásica al deep learning en biología
- Modelos de lenguaje para proteínas y el impulso de la biología estructural
- IA para reconstruir el origen de la vida y el metabolismo primitivo
- Ciencia de datos aplicada a biología: del laboratorio húmedo al teclado
- Deep learning para imágenes biológicas y salud uterina
- Proyectos abiertos y ecosistemas colaborativos de IA en ciencias de la vida
- AI4LIFE, FAIR data y modelos de imágenes listos para IA
- Descubrimiento de nuevos antibióticos y diseño racional de fármacos
- IA y células madre: reprogramación, terapias y retos
- AlphaGenome y la «materia oscura» del genoma humano