<p>Juste avant sa conférence annuelle qui aura lieu la semaine prochaine à Chicago, Nutanix est venu sur la conférence <a href="https://www.lemagit.fr/actualites/366641013/SUSE-entre-enfin-dans-la-course-au-remplacement-de-VMware">KubeCON</a> qui a eu lieu la semaine dernière à Amsterdam pour présenter sa nouvelle solution Nutanix Agentic AI. Il s’agit d’une plateforme conçue pour exécuter des IA génératives sur site, qui succède à l’ancien <a href="https://www.lemagit.fr/actualites/366587584/GPT-in-a-Box-Nutanix-promet-du-One-click-GenAI">Nutanix GPT-in-a-Box</a> et qui fonctionne désormais entièrement par-dessus <a href="https://www.lemagit.fr/actualites/366623857/Avec-Cloud-Native-AOS-Nutanix-fonctionnera-en-cloud-public">NKP</a>, sa distribution Kubernetes.</p> <p>« Notamment grâce à NKP, Nutanix Agentic AI est conçu pour supporter des charges qui changent tout le temps avec la même élasticité que les applications dites cloud-natives. », argumente Dan Ciruli, aujourd’hui patron de la division Cloud-Native chez Nutanix (en photo en haut de cet article) et anciennement directeur des produits chez D2IQ, l’entreprise qui avait créé NKP avant que Nutanix <a href="https://www.lemagit.fr/actualites/366587373/Nutanix-fait-renaitre-sa-Kubernetes-Platform">le rachète</a>.</p> <section class="section main-article-chapter" data-menu-title="Gestion des KV-Caches, virtualisation des GPU et le plein d’outils"> <h2 class="section-title"><i class="icon" data-icon="1"></i>Gestion des KV-Caches, virtualisation des GPU et le plein d’outils</h2> <p>Parmi les fonctions d’élasticité notable, il y a notamment le fait que le répartiteur de charge tienne compte des <a href="https://www.lemagit.fr/actualites/366640388/GTC-2026-Nvidia-impose-un-nouveau-type-de-stockage">KV-Caches</a>, ce concept technique propre à l’inférence. « Il s’agit de faire en sorte que lorsqu’une nouvelle requête arrive, elle soit dirigée vers l’instance qui a déjà le contexte initial dans sa mémoire, ceci afin d’éviter de le recharger à chaque fois, ce qui fait chuter drastiquement les performances sur d’autres plateformes d’inférence », ajoute notre interlocuteur.</p> <p>« C’est une solution qui peut s’installer soit directement sur un serveur, soit en machine virtuelle par-dessus notre hyperviseur AHV, selon le choix de l’utilisateur. Et, dans les deux cas, elle offre exactement les mêmes performances, exactement la même virtualisation des GPU présents dans la machine hôte. C’est unique sur le marché », continue-t-il.</p> <p>Au-delà des avantages de son moteur NKP, Nutanix Agentic AI est aussi livré avec une sélection d’outils de la CNCF qui comprend une trentaine d’applications d’IA, la base de données vectorielles <a href="https://www.lemagit.fr/actualites/366612826/Google-Cloud-redouble-defforts-pour-promouvoir-AlloyDB-et-AlloyDB-Omni">pgvector</a>, le serveur d’IA <a href="https://www.lemagit.fr/actualites/366575297/IA-generative-et-Kubernetes-ces-defis-que-lecosysteme-doit-relever">KServe</a>, ou encore la plateforme de fine-tuning <a href="https://www.lemagit.fr/conseil/Tutoriel-MLOps-les-premiers-pas-sur-Kubeflow">Kubeflow</a>. Tout est également connectable à la plateforme AI Enterprise de Nvidia, notamment ses LLM et ses outils de RAG prêts à l’emploi, si le serveur hôte est équipé de GPU Nvidia.</p> <p>« Bref, Nutanix Agentic AI est pour ainsi dire la partie logicielle qui manque à tous les matériels dits AI Factory que Dell, Cisco et les autres ont présentés durant <a href="https://www.lemagit.fr/essentialguide/Dossier-GTC-2026-tout-ce-quil-faut-savoir-des-dernieres-infrastructures-Nvidia">la GTC 2026</a> », assène Dan Ciruli.</p> </section> <section class="section main-article-chapter" data-menu-title="Pas de problème de vitesse au niveau du stockage"> <h2 class="section-title"><i class="icon" data-icon="1"></i>Pas de problème de vitesse au niveau du stockage</h2> <p>Au sujet des équipements tiers, se pose d’ailleurs la question de la gestion de leur partie stockage. Historiquement, Nutanix était une solution d’infrastructure hyperconvergée, qui se contentait de simuler un pool de stockage depuis les disques intégrés aux serveurs hôtes. Dans son ambition de récupérer des clients déçus de VMware, Nutanix a depuis consenti à intégrer dans sa virtualisation les baies de <a href="https://www.lemagit.fr/actualites/366587432/Nutanix-se-rapproche-de-Dell-sur-fond-de-concurrence-acharnee-avec-VMware">Dell</a> et de <a href="https://www.lemagit.fr/actualites/366623529/Nutanix-devient-compatible-avec-les-baies-de-Pure-Storage">Pure Storage</a> que ces clients possédaient.</p> <p>Pour autant, LeMagIT a pu entendre que des visiteurs du stand de Nutanix s’interrogeaient sur le portage de cette fonctionnalité très orientée VM sous un environnement qui, d’une part, repose sur Kubernetes et qui, d’autre part, doit certainement nécessiter le même usage pointu du stockage que toutes les autres plateformes d’IA.</p> <p>« Sur Kubernetes [à l’époque de la solution D2IQ, N.D.R], nous utilisions les <a href="https://www.lemagit.fr/conseil/Kubernetes-comment-fonctionnent-les-pilotes-de-stockage-CSI">pilotes CSI</a> de ces fournisseurs, mais nous utilisons à présent nos propres pilotes CSI dès lors que ces solutions sont reconnues par notre hyperviseur comme du stockage externe. Cela permet de traiter ce stockage externe avec l’ensemble des outils Nutanix, notamment celui qui assure la continuité d’activité en cas de panne. C’est-à-dire que vous pourrez restaurer vos données d’IA ailleurs en cas de problème, y compris sur <a href="https://www.lemagit.fr/actualites/366636602/Nutanix-permet-enfin-de-controler-le-cloud-hybride-en-dehors-du-cloud">un cluster Kubernetes en cloud</a>, quelle que soit la marque de stockage d’origine », commente Dan Ciruli.</p> <p>« Concernant les performances, nous avons mesuré celles de notre stockage avec MLPerfs et elles sont <a href="https://www.nutanix.com/blog/nutanix-shines-in-the-new-mlperf-storage-benchmark">très bonnes</a>. Mais ce sont des besoins pour l’entraînement des IA. Ce que nous proposons ici est une solution d’inférence, pour utiliser des modèles d’IA déjà entraînés », ajoute-t-il.</p> <p>Un avis que confirment différents <a href="https://www.softwareseni.com/ai-training-and-inference-storage-performance-requirements-benchmarked/">spécialistes</a> : l’entraînement a besoin de beaucoup de bande passante, car les GPU doivent vérifier régulièrement la cohérence globale des écritures qu’ils ont chacun effectuées simultanément. En revanche, le stockage n’est sollicité en inférence que lorsque le LLM a besoin de puiser dans la base vectorielle les connaissances issues des documents de l’utilisateur.</p> <p>Les moteurs de RAG actuels se contentent de charger un minimum de données essentielles, qu’ils trouvent rapidement grâce au format des vecteurs. La caractéristique importante ici n’est donc pas la bande passante en Go/s, mais la quantité d’accès exprimée en IOPS. La solution pour favoriser ce paramètre consiste à utiliser des <a href="https://www.lemagit.fr/conseil/Stockage-tout-comprendre-aux-performances-des-SSD-NVMe">SSD NVMe</a> internes, ou reliés via une carte réseau qui supporte le NVMe-over-Fabrics. De préférence du <a href="https://www.lemagit.fr/etude/LInstitut-du-Cerveau-adopte-en-avant-premiere-un-stockage-NVMe-RoCE">NVMe/RoCE</a> pour favoriser les communications en rafale. Or, toutes les baies de stockage conçues pour l’IA en sont dotées.</p> <p>Concernant les agents, dont la raison d’être est de lancer des exécutables tiers, ils devraient d’autant moins solliciter le stockage que, dans Nutanix Agentic AI, tous les applicatifs tiers sont censés être préchargés en mémoire sous la forme de containers.</p> </section>
Nutanix lance son « meilleur Kubernetes pour exécuter les IA »