AMD finalizó la adquisición de Xilinx, que terminó costando cerca de $ 49 mil millones en lugar de los $ 35 mil millones originales proyectados cuando se anunció el acuerdo en octubre de 2020 gracias al aumento de las acciones de AMD durante el último año y medio.
Y ahora, con AMD obteniendo la luz verde de los reguladores y habiendo gastado todo ese "dinero" (la capitalización de mercado diluida no es lo mismo que el efectivo real, pero puede comprar cosas con él), es bastante natural preguntarse qué CPU y El diseñador de GPU hará con lo que haya adquirido. No solo la lógica programable de FPGA que está en el corazón de los dispositivos Xilinx, sino también los bloques duros de transistores que se han vuelto comunes en todos los híbridos de FPGA, como motores DSP, aceleradores de IA, controladores de memoria, controladores de E/S y otros tipos de interconexión SerDes.
A AMD le llevaría mucho tiempo crear un equipo de ingenieros que tenga la experiencia que Xilinx ha obtenido con la lógica programable y dentro de sus sectores de negocios aeroespacial, de defensa, telecomunicaciones/comunicaciones, industrial y de transmisión/medios. Eso, combinado con la pila de software de Vitis, es lo que hace que Xilinx valga más que el valor de adquirir una empresa que tiene flujos de ingresos y ganancias en otros sectores con poca superposición con el negocio central de AMD. Inmediatamente se traduce en un mercado direccionable total más amplio que la directora ejecutiva de AMD, Lisa Su, ahora fija en $ 135 mil millones, que es bastante más grande que el mercado direccionable de $ 79 mil millones que Su dijo que AMD tenía seis meses antes de que se anunciara el acuerdo con Xilinx.
El aumento de TAM es vital para lograr el crecimiento de AMD (y, de hecho, cualquier diseñador de semiconductores), y agregar los flujos de ingresos y ganancias de Xilinx (3680 millones de dólares y 929 millones de dólares, respectivamente, en los últimos doce meses) a los flujos de ingresos y ganancias de AMD: $ 16.34 mil millones y $ 3.16 mil millones, respectivamente, en 2021 también tiene su propio valor inherente.
Pero para darse cuenta de ese valor, y por qué Su & Company gastó tanto para obtener Xilinx en primer lugar, tendrá que hacer un montón de cosas para maximizar esa inversión y generar ingresos más altos de lo que sería posible simplemente a través de la combinación. lo que permite cierta escala con las fundiciones y la consolidación de algunas funciones administrativas y oficinas físicas.
Lo que no está claro con AMD, y de hecho con cualquiera de los principales diseñadores de chips en el centro de datos, es cuántos bloques de IP licencian de terceros. Esto podría resultar más costoso de lo que muchos de nosotros sabemos, y suponiendo que Xilinx realmente cree sus propios controladores de memoria, controladores de E/S, controladores de red y SerDes más genéricos e interconexiones en el chip, entonces AMD podría ser capaz de ahorrar algo de masa cambiando con el tiempo a los bloques IP de Xilinx. Si los bloques de IP de Xilinx son mejores que las alternativas de AMD o faltan por completo en la pila de AMD, aquí hay todo tipo de posibilidades para mejorar lo que AMD está poniendo en los zócalos de CPU y GPU y cómo podría crear su propia nueva IP a partir de eso.
Por ejemplo, imagine una estructura de conmutador Infinity Fabric a escala de centro de datos basada en Xilinx SerDes y un motor de procesamiento de paquetes creado conjuntamente por los equipos convergentes de AMD y Xilinx. Imagine algo similar a la red de área de memoria que IBM ha creado para sus procesadores Power10, pero que se ejecuta en bastidores y bastidores y filas y filas de CPU Epyc y aceleradores de CPU Instinct. Imagínese no preocuparse en absoluto por Ethernet o InfiniBand, excepto como puntos de entrada al clúster. ¿Qué tan genial sería eso?
Eche un vistazo a un dispositivo híbrido Xilinx FPGA en la generación "Everest" de la familia Versal:
Esos motores de matriz de IA para el procesamiento de inferencia de aprendizaje automático y los motores DSP para varios tipos de procesamiento de señales son bloques duros que solían implementarse en lógica programable, lo que Xilinx ha estado llamando motores adaptables en su línea Versal, pero debido al espacio, térmico y problemas de rendimiento, era mucho más eficiente implementar estos bloques como un ASIC y usar una interconexión de alta velocidad en el chip para conectar todos estos bloques entre sí y la lógica programable.
Cada uno de esos bloques duros, incluidos los núcleos de Arm, está disponible para que los ingenieros de AMD jueguen mientras contemplan cómo diseñar motores, sistemas y clústeres de cómputo. Y cada dispositivo informático que diseña AMD, ya sea un chip monolítico o una colección de chipsets en un paquete, puede tener una pizca de lógica programable agregada según lo crea conveniente AMD.
Entonces, ¿qué hará AMD con Xilinx, además de operar el negocio prácticamente sin cambios? Todavía no se ha dicho, aparte de decir que AMD ya estaba otorgando licencias de IP de Xilinx antes de que se cerrara el acuerdo y que sea lo que sea esa IP, y no asuma que era lógica programable, aparecerá en un chip de AMD en algún momento antes. el final del próximo año.
Veamos algunas de las posibilidades, y si tiene algunas ideas propias, infórmese.
En primer lugar, creemos que las implementaciones híbridas de matriz única de CPU completas y FPGA completas son muy poco probables, pero existe la posibilidad de que ocurran híbridos de CPU-FPGA empaquetados conjuntamente.
Esto es algo en lo que Intel estaba trabajando en 2014 con el fabricante de FPGA Altera, incluso antes de que adquiriera la empresa, y luego anunció como un producto que combina un procesador "Skylake" Xeon SP con un Arria 10 FPGA en un solo paquete en 2018. No No creo que estos despeguen en el centro de datos, y la razón es la misma por la que no vemos híbridos CPU-GPU en un solo paquete en el centro de datos, excepto en casos muy específicos, como cuando se reutilizan chips de PC con gráficos integrados. como motores de servidor de procesamiento de medios, como lo han hecho AMD e Intel en el pasado con sus líneas de productos integrados.
En su complejo CPU-GPU frankensocket, Intel colocó un Xeon SP-6138P de 20 núcleos completo a 125 vatios en el mismo paquete que un Arria 10 GX FPGA 1150 completo con una potencia nominal de 70 vatios. Estaban conectados mediante enlaces UltraPath Interconnect (UPI), los mismos que se utilizan para realizar configuraciones NUMA de memoria compartida con CPU, lo que significa que Intel injertó controladores UPI en el Arria 10. (Parece poco probable que este controlador UPI se haya implementado en el sistema programable). lógica, pero es posible que el protocolo UPI se haya implementado sobre el SerDes codificado de forma rígida adaptado a la sincronización de UPI con lógica programable llenando los vacíos). Que Arria 10 GX no tenía núcleos Arm activados en el complejo FPGA ( podrían haber estado físicamente allí, Intel nunca fue claro al respecto).
La aplicación de destino para la parte FPGA de este frankensocket era ejecutar la conmutación virtual Open vSwitch en la lógica programable, haciendo que se ejecutara más de 3 veces más rápido y permitiendo que la CPU Xeon aloje el doble de máquinas virtuales porque no estaba ejecutando Open vSwitch en el software. en los núcleos Xeon. Estimamos que el dispositivo combinado costaba $ 6500, y la parte Xeon costaba alrededor de $ 2600 en ese momento. Por lo que sabemos, esta idea no arrasó en el mercado, y la conversación ha cambiado a la descarga de almacenamiento virtual, conmutación y redes virtuales, y cifrado/descifrado a DPU (una especie de SmartNIC glorificado, dependiendo de las definiciones que desee). usar).
AMD ha estado pensando en este enfoque informático híbrido CPU-GPU con su arquitectura de sistemas heterogéneos durante más de una década, e incluso los implementó en algunas partes del servidor y obviamente lo ha hecho para PC y chips de consolas de juegos personalizados a gran volumen. Hasta cierto punto, la interconexión de Infinity Fabric es una implementación de HSA.
AMD podría hacer paquetes integrados que combinen CPU completas y FPGA completas: el frankensocket compuesto por cómputo de CPU, chipsets para lógica programable de FPGA y una memoria compartida y un concentrador de E/S para los dos es interesante, ya que proporcionaría un intercambio coherente. memoria a través de la capacidad de CPU y FPGA dentro del zócalo. Y con los enlaces de Infinity Fabric, también se puede hacer a través de sockets. Y con el cambio de Infinity Fabric, como sugerimos, podría hacerse entre bastidores y tal vez incluso en filas. Lo cual es una idea poderosa.
El problema con todo esto es bloquear la configuración dentro de cualquier socket. La proporción de lógica programable de CPU a FPGA será diferente según la aplicación, la industria y el caso de uso del cliente. Y si agrega GPU a la mezcla, tiene muchas variables diferentes para clasificar y, en efecto, cada chip se convierte en una pieza personalizada para un cliente específico con el tiempo. Puede hacer eso para los hiperescaladores y los constructores de la nube, porque los volúmenes lo justifican, pero si AMD quiere vender esto a otros proveedores de servicios y grandes empresas, tendría que elegir algunos SKU y lo que sea que haga probablemente no sea óptimo.
Nvidia no tiene ningún uso para los FPGA, excepto tal vez para simular sus propios chips (y tal vez ni siquiera allí si hace todas sus simulaciones y verificaciones en su supercomputadora "Selene"), y Jensen Huang, cofundador y director ejecutivo de la compañía, no ha sido tímido al decir esto. Pero el hecho de que Intel haya comprado Altera y ahora AMD haya comprado Xilinx muestra, como mínimo, que los FPGA siguen siendo atractivos en la frontera entre los lenguajes de programación que se ejecutan en CPU estándar y los ASIC personalizados para implementar ciertas funciones o pilas de software. Siempre hemos sido de la opinión de que un sistema equilibrado incluiría los tres motores de cómputo, como lo hace, por ejemplo, un conmutador moderno. Necesita CPU para un procesamiento en serie rápido y grandes espacios de memoria, GPU para un procesamiento en paralelo rápido y un gran ancho de banda de memoria, y FPGA para acelerar los algoritmos codificados más allá de lo que está disponible en una implementación de software en, por ejemplo, un procesador X86 o Arm pero en un volumen que no justifica un ASIC personalizado porque esos algoritmos cambian demasiado o porque no puede pagar el calor o las primas de costos.
Creemos que definitivamente es interesante tener lógica programable FPGA integrada en cada zócalo de la CPU y tal vez incluso en cada zócalo de la GPU como una especie de bloc de notas para estos dispositivos para que puedan tener algoritmos de hash, algoritmos de cifrado, protocolos de seguridad o elementos de conmutadores virtuales que se están realizando. (o hecho parcialmente) en FPGA en lugar de en bloques lógicos en un chip de CPU o GPU, en chipsets separados agregados al zócalo de CPU o GPU, o en software de nivel superior que se ejecuta en la CPU. IBM ha agregado tales scratchpads (no implementados con lógica FPGA, claro) a sus procesadores System z y Power a lo largo de los años, lo que les permite implementar nuevas instrucciones o crear instrucciones compuestas, que se agregaron sobre la marcha a la arquitectura mucho después de la fichas grabadas. Esto no sería una gran parte de las propiedades inmobiliarias del chip/socket.
Definitivamente pensamos que pronto habrá híbridos Versal FPGA que se entregarán usando núcleos Xen X86, y creemos que la pila de Vitis se modificará para poder compilar código en esos núcleos, así como en los otros elementos de ese cómputo Versal. complejo. Creemos que no es probable que AMD incorpore núcleos X86 o Arm a sus GPU, pero sí creemos que la empresa podría crear una línea de SmartNIC y DPU que tengan una combinación de núcleos FPGA y X86, y tal vez incluso GPU pequeñas si es necesario. tiene sentido arquitectónico. AMD es nuevo en SmartNIC, pero Xilinx no, particularmente después de su adquisición de Solarflare en abril de 2019.
Eso nos deja con un pensamiento más en este experimento mental, y es algo que hemos estado alentando a los fabricantes de motores de cómputo a hacer desde el comienzo de este viaje híbrido. Lo que parece claro es que vamos a tener componentes de chiplet dentro de un socket o entre sockets con algún tipo de interconexión entre todos. Con AMD y Xilinx, será Infinity Fabric. Muchas, muchas generaciones de él, y tal vez sea compatible con el protocolo CCIX o CXL, lo que debería ser posible si Infinity Fabric es de hecho un superconjunto de PCI-Express con funciones AMD HyperTransport entretejidas. No te obsesiones con eso. Hay buenas razones de latencia para querer empaquetar muchas cosas en un motor de cómputo híbrido y hacer un gran socket. Pero tal vez la mejor respuesta, en la era posterior a la Ley de Moore, sea dejar de desperdiciar tanto silicio en funciones que no se utilizan por completo.
Entonces, lo que nos gustaría que AMD hiciera es esto. Cree un núcleo Zen4 de alto rendimiento con todas las entrañas del motor vectorial arrancadas y coloque más núcleos en el troquel o núcleos más gruesos y rápidos en el troquel. Optamos por lo último porque en esta CPU queremos un rendimiento en serie espectacular. Queremos memoria HBM3 en esta cosa, y queremos al menos 256 GB de capacidad, lo que debería ser posible. Y una tonelada de enlaces de Infinity Fabric saliendo del único zócalo. Mátalo a 500 vatios, no nos importa. Ahora, justo al lado de la izquierda de la placa del sistema, queremos una GPU Instinct "Aldebaran" asesina, y la mitad de un MI200 podría ser suficiente: el Instinct MI200 tiene dos GPU lógicas en un solo paquete, o un MI300 completo, debido el próximo año con cuatro motores Aldebaran, podría ser necesario. Dependerá del cliente. También coloque mucha memoria HBM3 alrededor de la GPU. A la derecha de la CPU, queremos un Versal FPGA híbrido con aún más enlaces Infinity Fabric saliendo de él, los núcleos Arm arrancados, los motores DSP y los motores AI dejados, y todas las interconexiones bloqueadas también allí. Este es un motor lógico programable integrado que puede funcionar como una DPU cuando sea necesario. Los carriles de Infinity Fabric pueden salir aquí para crear un clúster, o directamente de las GPU y CPU, pero nos gusta la idea de implementar un interruptor de Infinity Fabric justo en la DPU.
Ahora, tome estos bloques de motor de cómputo y permita que los clientes configuren las proporciones que necesitan en las placas del sistema, dentro de un bastidor y entre filas. Tal vez un cliente necesite cuatro GPU para cada CPU y dos DPU para cada complejo con un solo conmutador Infinity Fabric. En otro escenario, tal vez las GPU estén más cerca de las DPU por razones de latencia (piense en una supercomputadora moderna) y las CPU cuelguen al costado de las GPU. O tal vez las CPU y las GPU hablaron desde el concentrador DPU. O tal vez las CPU están en una topología de anillo y las GPU están en un gran árbol dentro del bastidor. Conviértalo en Infinity Fabric y haga que la topología se pueda cambiar en los switches Infinity Fabric. (Diferentes cargas de trabajo necesitan diferentes topologías). Cada componente está altamente ajustado, simplificado, sin nada de grasa, con el hardware absolutamente codiseñado con el software. Cree enlaces de almacenamiento de Infinity Fabric a la memoria persistente, elija su tecnología y ejecute CXL encima para que sea más fácil.
No hay InfiniBand o Ethernet en este futuro sistema AMD, excepto en los nodos principales del clúster, que son solo servidores Epyc solo para CPU.
Si fuéramos AMD, eso es lo que haríamos.
¿Para qué se utiliza Xilinx?
Xilinx presta servicios a la industria aeroespacial y de defensa con productos de grado comercial, industrial, militar y espacial. La emulación y creación de prototipos con FPGA permite el modelado y la verificación rápidos y precisos del sistema SoC del software integrado.
¿Por qué AMD quiere a Xilinx?
"Xilinx ofrece FPGA líderes en la industria, SoC adaptativos, motores de inteligencia artificial y experiencia en software que permiten a AMD ofrecer la cartera más sólida de soluciones informáticas adaptables y de alto rendimiento en la industria y capturar una mayor participación de la oportunidad de mercado de aproximadamente $ 135 mil millones que vemos en todo el mundo". nube, borde y
¿Qué son los productos Xilinx?
Xilinx diseña y desarrolla productos de lógica programable, incluidos circuitos integrados (IC), herramientas de diseño de software, funciones de sistema predefinidas entregadas como núcleos de propiedad intelectual (IP), servicios de diseño, capacitación de clientes, ingeniería de campo y soporte técnico.
Qué empresas usan Xilinx
Empresas que utilizan actualmente Xilinx Vivado
nombre de empresa | Sitio web | Cremallera |
---|---|---|
Raytheon | rtx.com | 02451 |
Northrop Grumman | northropgrumman.com | 22042 |
Instituto de Investigación del Suroeste | swri.org | 78238-5166 |
Boeing | boeing.com | 60606 |
2 filas más