Nutanix lance son « meilleur Kubernetes pour exécuter les IA »

<p>Juste avant sa conférence annuelle qui aura lieu la semaine prochaine à Chicago, Nutanix est venu sur la conférence <a href="https://www.lemagit.fr/actualites/366641013/SUSE-entre-enfin-dans-la-course-au-remplacement-de-VMware">KubeCON</a> qui a eu lieu la semaine dernière à Amsterdam pour présenter sa nouvelle solution Nutanix Agentic AI. Il s’agit d’une plateforme conçue pour exécuter des IA génératives sur site, qui succède à l’ancien <a href="https://www.lemagit.fr/actualites/366587584/GPT-in-a-Box-Nutanix-promet-du-One-click-GenAI">Nutanix GPT-in-a-Box</a> et qui fonctionne désormais entièrement par-dessus <a href="https://www.lemagit.fr/actualites/366623857/Avec-Cloud-Native-AOS-Nutanix-fonctionnera-en-cloud-public">NKP</a>, sa distribution Kubernetes.</p> <p>« Notamment grâce à NKP, Nutanix Agentic AI est conçu pour supporter des charges qui changent tout le temps avec la même élasticité que les applications dites cloud-natives. », argumente Dan Ciruli, aujourd’hui patron de la division Cloud-Native chez Nutanix (en photo en haut de cet article) et anciennement directeur des produits chez D2IQ, l’entreprise qui avait créé NKP avant que Nutanix <a href="https://www.lemagit.fr/actualites/366587373/Nutanix-fait-renaitre-sa-Kubernetes-Platform">le rachète</a>.</p> <section class="section main-article-chapter" data-menu-title="Gestion des KV-Caches, virtualisation des GPU et le plein d’outils"> <h2 class="section-title"><i class="icon" data-icon="1"></i>Gestion des KV-Caches, virtualisation des GPU et le plein d’outils</h2> <p>Parmi les fonctions d’élasticité notable, il y a notamment le fait que le répartiteur de charge tienne compte des <a href="https://www.lemagit.fr/actualites/366640388/GTC-2026-Nvidia-impose-un-nouveau-type-de-stockage">KV-Caches</a>, ce concept technique propre à l’inférence. « Il s’agit de faire en sorte que lorsqu’une nouvelle requête arrive, elle soit dirigée vers l’instance qui a déjà le contexte initial dans sa mémoire, ceci afin d’éviter de le recharger à chaque fois, ce qui fait chuter drastiquement les performances sur d’autres plateformes d’inférence », ajoute notre interlocuteur.</p> <p>« C’est une solution qui peut s’installer soit directement sur un serveur, soit en machine virtuelle par-dessus notre hyperviseur AHV, selon le choix de l’utilisateur. Et, dans les deux cas, elle offre exactement les mêmes performances, exactement la même virtualisation des GPU présents dans la machine hôte. C’est unique sur le marché », continue-t-il.</p> <p>Au-delà des avantages de son moteur NKP, Nutanix Agentic AI est aussi livré avec une sélection d’outils de la CNCF qui comprend une trentaine d’applications d’IA, la base de données vectorielles <a href="https://www.lemagit.fr/actualites/366612826/Google-Cloud-redouble-defforts-pour-promouvoir-AlloyDB-et-AlloyDB-Omni">pgvector</a>, le serveur d’IA <a href="https://www.lemagit.fr/actualites/366575297/IA-generative-et-Kubernetes-ces-defis-que-lecosysteme-doit-relever">KServe</a>, ou encore la plateforme de fine-tuning <a href="https://www.lemagit.fr/conseil/Tutoriel-MLOps-les-premiers-pas-sur-Kubeflow">Kubeflow</a>. Tout est également connectable à la plateforme AI Enterprise de Nvidia, notamment ses LLM et ses outils de RAG prêts à l’emploi, si le serveur hôte est équipé de GPU Nvidia.</p> <p>« Bref, Nutanix Agentic AI est pour ainsi dire la partie logicielle qui manque à tous les matériels dits AI Factory que Dell, Cisco et les autres ont présentés durant <a href="https://www.lemagit.fr/essentialguide/Dossier-GTC-2026-tout-ce-quil-faut-savoir-des-dernieres-infrastructures-Nvidia">la GTC 2026</a> », assène Dan Ciruli.</p> </section> <section class="section main-article-chapter" data-menu-title="Pas de problème de vitesse au niveau du stockage"> <h2 class="section-title"><i class="icon" data-icon="1"></i>Pas de problème de vitesse au niveau du stockage</h2> <p>Au sujet des équipements tiers, se pose d’ailleurs la question de la gestion de leur partie stockage. Historiquement, Nutanix était une solution d’infrastructure hyperconvergée, qui se contentait de simuler un pool de stockage depuis les disques intégrés aux serveurs hôtes. Dans son ambition de récupérer des clients déçus de VMware, Nutanix a depuis consenti à intégrer dans sa virtualisation les baies de <a href="https://www.lemagit.fr/actualites/366587432/Nutanix-se-rapproche-de-Dell-sur-fond-de-concurrence-acharnee-avec-VMware">Dell</a> et de <a href="https://www.lemagit.fr/actualites/366623529/Nutanix-devient-compatible-avec-les-baies-de-Pure-Storage">Pure Storage</a> que ces clients possédaient.</p> <p>Pour autant, LeMagIT a pu entendre que des visiteurs du stand de Nutanix s’interrogeaient sur le portage de cette fonctionnalité très orientée VM sous un environnement qui, d’une part, repose sur Kubernetes et qui, d’autre part, doit certainement nécessiter le même usage pointu du stockage que toutes les autres plateformes d’IA.</p> <p>« Sur Kubernetes [à l’époque de la solution D2IQ, N.D.R], nous utilisions les <a href="https://www.lemagit.fr/conseil/Kubernetes-comment-fonctionnent-les-pilotes-de-stockage-CSI">pilotes CSI</a> de ces fournisseurs, mais nous utilisons à présent nos propres pilotes CSI dès lors que ces solutions sont reconnues par notre hyperviseur comme du stockage externe. Cela permet de traiter ce stockage externe avec l’ensemble des outils Nutanix, notamment celui qui assure la continuité d’activité en cas de panne. C’est-à-dire que vous pourrez restaurer vos données d’IA ailleurs en cas de problème, y compris sur <a href="https://www.lemagit.fr/actualites/366636602/Nutanix-permet-enfin-de-controler-le-cloud-hybride-en-dehors-du-cloud">un cluster Kubernetes en cloud</a>, quelle que soit la marque de stockage d’origine », commente Dan Ciruli.</p> <p>« Concernant les performances, nous avons mesuré celles de notre stockage avec MLPerfs et elles sont <a href="https://www.nutanix.com/blog/nutanix-shines-in-the-new-mlperf-storage-benchmark">très bonnes</a>. Mais ce sont des besoins pour l’entraînement des IA. Ce que nous proposons ici est une solution d’inférence, pour utiliser des modèles d’IA déjà entraînés », ajoute-t-il.</p> <p>Un avis que confirment différents <a href="https://www.softwareseni.com/ai-training-and-inference-storage-performance-requirements-benchmarked/">spécialistes</a> : l’entraînement a besoin de beaucoup de bande passante, car les GPU doivent vérifier régulièrement la cohérence globale des écritures qu’ils ont chacun effectuées simultanément. En revanche, le stockage n’est sollicité en inférence que lorsque le LLM a besoin de puiser dans la base vectorielle les connaissances issues des documents de l’utilisateur.</p> <p>Les moteurs de RAG actuels se contentent de charger un minimum de données essentielles, qu’ils trouvent rapidement grâce au format des vecteurs. La caractéristique importante ici n’est donc pas la bande passante en Go/s, mais la quantité d’accès exprimée en IOPS. La solution pour favoriser ce paramètre consiste à utiliser des <a href="https://www.lemagit.fr/conseil/Stockage-tout-comprendre-aux-performances-des-SSD-NVMe">SSD NVMe</a> internes, ou reliés via une carte réseau qui supporte le NVMe-over-Fabrics. De préférence du <a href="https://www.lemagit.fr/etude/LInstitut-du-Cerveau-adopte-en-avant-premiere-un-stockage-NVMe-RoCE">NVMe/RoCE</a> pour favoriser les communications en rafale. Or, toutes les baies de stockage conçues pour l’IA en sont dotées.</p> <p>Concernant les agents, dont la raison d’être est de lancer des exécutables tiers, ils devraient d’autant moins solliciter le stockage que, dans Nutanix Agentic AI, tous les applicatifs tiers sont censés être préchargés en mémoire sous la forme de containers.</p> </section>