NVIDIA Nemotron 3: el modelo de IA que ve, escucha y razona al mismo tiempo y es gratis

Durante años, los sistemas de agentes IA tuvieron un problema estructural: para entender el mundo necesitaban varios modelos separados. Uno para leer texto, otro para analizar imágenes, otro para procesar audio. Cada vez que el agente tenía que pasar información de un modelo al siguiente, perdía tiempo y contexto. El resultado era lentitud, costos elevados y errores que se acumulaban entre saltos.

El 28 de abril de 2026, NVIDIA presentó Nemotron 3 Nano Omni — un modelo de inteligencia artificial de código abierto que resuelve ese problema de raíz. En lugar de usar varios modelos en cadena, Nemotron 3 Nano Omni unifica texto, visión, imágenes y audio en un único sistema de razonamiento. Un solo modelo que ve, escucha y lee al mismo tiempo.

Qué es y cómo funciona

Nemotron 3 Nano Omni tiene 30.000 millones de parámetros totales pero usa una arquitectura mixture-of-experts (MoE) que solo activa unos 3.000 millones en cada inferencia — los expertos necesarios según el tipo de tarea. El resultado es un modelo con la capacidad de uno grande pero con el costo computacional de uno pequeño.

La arquitectura combina encoders de visión y audio dentro del mismo sistema, eliminando la necesidad de modelos de percepción separados. Esto le permite razonar sobre lo que ve en una pantalla, transcribir lo que escucha en un video y leer documentos complejos — todo en el mismo ciclo de procesamiento, sin pasos intermedios.

En benchmarks de comprensión de documentos complejos, video y audio, el modelo ocupa el primer lugar en seis leaderboards de modelos abiertos. Frente a otros modelos multimodal abiertos equivalentes, logra una velocidad de inferencia hasta 9 veces mayor con la misma calidad de respuesta.

Para qué sirve en la práctica

NVIDIA diseñó Nemotron 3 Nano Omni para funcionar como el componente de percepción dentro de sistemas de agentes IA más amplios. Actúa como los "ojos y oídos" del sistema mientras modelos más grandes como Nemotron 3 Super o Nemotron 3 Ultra se encargan de la planificación y ejecución.

Los casos de uso concretos que NVIDIA describe son tres:

NVIDIA Nemotron 3: el modelo de IA que ve, escucha y razona al mismo tiempo y es gratis

FOTO: ilustrativa generada con IA a modo informativo.

Computer use: el modelo interpreta lo que aparece en la pantalla de una computadora en tiempo real — texto, interfaces gráficas, menús — y permite que un agente navegue sistemas de software sin acceso a la API. H Company ya lo usa para que sus agentes interpreten grabaciones de pantalla en resolución 1080p completa, algo que antes no era práctico por la latencia.

Document intelligence: analiza documentos complejos que combinan texto, tablas e imágenes — contratos legales, informes financieros, registros médicos — y responde preguntas específicas sobre su contenido con precisión alta.

Audio y video: transcribe, resume y responde preguntas sobre contenido de video y audio, capturando contexto visual que los modelos de solo audio pierden — como gráficos o texto en pantalla dentro de una grabación.

Quién ya lo usa

Empresas como Palantir, Foxconn, Eka Care y H Company ya adoptaron Nemotron 3 Nano Omni en producción. Dell Technologies, DocuSign, Oracle e Infosys están en fase de evaluación. La lista refleja que el modelo apunta directamente al mercado enterprise — salud, finanzas, manufactura y tecnología.

Dónde descargarlo

Nemotron 3 Nano Omni es open source y está disponible gratuitamente en Hugging Face y OpenRouter. También puede usarse como microservicio a través de NVIDIA NIM en build.nvidia.com.

El modelo corre en hardware NVIDIA de distintas generaciones — desde GPUs Ampere hasta Hopper y Blackwell — y soporta cuantización FP8 y NVFP4 para mayor eficiencia en despliegues empresariales. Su arquitectura liviana también permite ejecutarlo localmente en hardware como el NVIDIA DGX Spark o el NVIDIA Jetson, sin depender de la nube.

El ecosistema Nemotron 3 completo

Nemotron 3 Nano Omni es el primer modelo lanzado de la familia Nemotron 3. Los otros dos — Nemotron 3 Super (120.000 millones de parámetros, orientado a agentes colaborativos y cargas de trabajo de alto volumen) y Nemotron 3 Ultra (para planificación compleja y razonamiento avanzado) — se esperan en la primera mitad de 2026.

En paralelo, NVIDIA anunció en GTC 2026 la Nemotron Coalition: una alianza de laboratorios de IA que incluye a Mistral AI, Perplexity, LangChain, Cursor y Black Forest Labs, entre otros, para desarrollar colaborativamente el modelo base que impulsará la familia Nemotron 4 — la próxima generación después de la actual.