Bitget App
Trading Inteligente
Comprar criptoMercadosTradingFuturosEarnCentroMás
El próximo sistema de chips de inferencia de Nvidia integrará la tecnología de “Unidad de Procesamiento de Lenguaje” (LPU) de Groq, utilizando una arquitectura completamente diferente a la de las GPU tradicionales. Este sistema está optimizado específicamente para reducir la latencia y los cuellos de botella en el ancho de banda de memoria durante la inferencia de grandes modelos, mediante una integración más amplia de SRAM y tecnología de apilamiento 3D.

El próximo sistema de chips de inferencia de Nvidia integrará la tecnología de “Unidad de Procesamiento de Lenguaje” (LPU) de Groq, utilizando una arquitectura completamente diferente a la de las GPU tradicionales. Este sistema está optimizado específicamente para reducir la latencia y los cuellos de botella en el ancho de banda de memoria durante la inferencia de grandes modelos, mediante una integración más amplia de SRAM y tecnología de apilamiento 3D.

老虎证券老虎证券2026/02/28 04:09
Mostrar el original
Este nuevo producto podría estar basado en la arquitectura de próxima generación Feynman, lo que permitiría reducir significativamente el consumo energético y los costos operativos de los agentes de IA. OpenAI se ha comprometido a comprar e invertir 30 mil millones de dólares. Nvidia planea lanzar el mes que viene, durante la conferencia de desarrolladores GTC, un nuevo chip de inferencia que integra la tecnología “Language Processing Unit” (LPU) de Groq, lo que representa una aceleración en la transición de Nvidia hacia el campo de la computación de inferencia, en respuesta a la creciente demanda de los clientes por soluciones de alto rendimiento y bajo costo. Según The Wall Street Journal, este sistema, descrito por el CEO de Nvidia, Jensen Huang, como “algo que el mundo nunca ha visto”, está diseñado específicamente para acelerar la respuesta a consultas de modelos de IA. Se espera que el lanzamiento de este producto redefina el panorama actual del mercado de potencia de cómputo para IA, impactando directamente a los proveedores de servicios en la nube y a los inversores corporativos que buscan alternativas más rentables. Como una señal clave de la aceptación inicial de esta tecnología, OpenAI, desarrollador de ChatGPT, ya ha acordado convertirse en uno de los mayores clientes de este nuevo procesador y anunció que comprará a Nvidia una gran cantidad de “capacidad de inferencia dedicada”. Esta decisión no solo consolida la base de clientes principales de Nvidia, sino que también envía una señal clara al mercado: la infraestructura subyacente que soporta agentes de IA autónomos está pasando del entrenamiento masivo previo a la inferencia eficiente. Frente a la feroz competencia de ciertos exchanges y numerosas startups, Nvidia está superando su dependencia exclusiva de las GPU tradicionales. Mediante la introducción de nuevas arquitecturas tecnológicas y la exploración de modelos de despliegue basados únicamente en CPU, la empresa busca mantener su dominio en la próxima etapa de evolución de la industria de la IA. Integración del diseño LPU: atacando el cuello de botella de la inferencia en grandes modelos A medida que la industria de la IA pasa del entrenamiento de modelos a la implementación en aplicaciones reales, la computación de inferencia se convierte en el foco central. La inferencia de IA se divide principalmente en dos etapas: pre-fill y decode, siendo la etapa de decodificación especialmente lenta en modelos de IA de gran tamaño. Para superar este cuello de botella técnico, Nvidia optó por la integración de tecnología externa para romper los límites físicos. Según The Wall Street Journal, a finales del año pasado Nvidia invirtió 20 mil millones de dólares para obtener la licencia clave de la tecnología de la startup Groq, y en una operación de “contratación centralizada” incorporó al equipo directivo, incluido el fundador Jonathan Ross. La LPU diseñada por Groq utiliza una arquitectura completamente diferente a la de las GPU tradicionales, mostrando una eficiencia excepcional en tareas de inferencia. Analistas del sector creen que el próximo producto podría incorporar la disruptiva arquitectura Feynman de próxima generación. Según un artículo previo de Wallstreetcn, la arquitectura Feynman podría adoptar una integración más amplia de SRAM e incluso, mediante tecnología de apilamiento 3D, integrar profundamente la LPU, optimizando específicamente los dos grandes cuellos de botella de la inferencia: la latencia y el ancho de banda de memoria, lo que reduciría drásticamente el consumo energético y los costos de operación de los agentes de IA. Expansión del despliegue solo con CPU: ofreciendo opciones de cómputo diversificadas Junto con la introducción de la arquitectura LPU, Nvidia también está ajustando de manera flexible el uso de sus procesadores tradicionales. La práctica estándar de Nvidia era combinar la CPU Vera con su potente GPU Rubin en los servidores de centros de datos, pero para ciertas cargas de trabajo de agentes de IA, esta configuración resultó ser demasiado costosa y poco eficiente energéticamente. Algunos grandes clientes corporativos descubrieron que un entorno solo con CPU era más eficiente para tareas específicas de IA. En línea con esta tendencia, Nvidia anunció este mes la ampliación de su colaboración con Meta Platforms, realizando el primer despliegue a gran escala solo con CPU para soportar los agentes de IA de segmentación publicitaria de Meta. El mercado ve esta colaboración como una ventana temprana al ajuste estratégico de Nvidia, que muestra que la empresa está yendo más allá del modelo tradicional de venta exclusiva de GPU, buscando asegurar diferentes segmentos del mercado de IA mediante una combinación diversificada de hardware. Cambio en la demanda del mercado y competencia en aumento Esta evolución en el diseño del hardware subyacente responde directamente al auge de la demanda de aplicaciones de agentes de IA en la industria tecnológica. Muchas empresas que desarrollan y operan agentes de IA han descubierto que el costo de las GPU tradicionales es demasiado alto y que no siempre son la mejor opción para la operación real de modelos. Los movimientos de OpenAI reflejan esta tendencia. Además de comprometerse a adquirir el nuevo sistema de Nvidia para mejorar su herramienta Codex, que crece rápidamente, OpenAI firmó el mes pasado un acuerdo de colaboración computacional valorado en varios miles de millones de dólares con la startup Cerebras. Según Andrew Feldman, CEO de Cerebras, sus chips enfocados en inferencia superan en velocidad a las GPU de Nvidia. Además, OpenAI firmó un importante acuerdo para utilizar los chips Trainium de cierto exchange. No solo las startups, sino también los principales proveedores de servicios en la nube están acelerando el desarrollo de chips propios. Anthropic Claude Code, ampliamente considerado líder en el mercado de auto-codificación, actualmente depende principalmente de chips diseñados por cierto exchange y por una filial de cierto exchange, en lugar de productos de Nvidia. Frente al asedio de los competidores, Jensen Huang destacó en una entrevista con wccftech que Nvidia está pasando de ser un simple proveedor de chips a convertirse en un constructor de un ecosistema completo de IA que abarca semiconductores, centros de datos, nube y aplicaciones. Para los inversores, la conferencia GTC del mes que viene será un punto clave para comprobar si Nvidia puede mantener su mito del 90% de cuota de mercado en la era de la inferencia.
0
0

Descargo de responsabilidad: El contenido de este artículo refleja únicamente la opinión del autor y no representa en modo alguno a la plataforma. Este artículo no se pretende servir de referencia para tomar decisiones de inversión.

PoolX: Haz staking y gana nuevos tokens.
APR de hasta 12%. Gana más airdrop bloqueando más.
¡Bloquea ahora!
© 2026 Bitget