Le SmartSSD V2

Le modèle de Von Neumann atteint un point de rupture critique. Le SSD computationnel (CSD) n’était au départ qu’une curiosité technologique. Il devient désormais une nécessité structurelle face à l’explosion des données générées par l’IA et au déploiement massif de l’Edge Computing. C’est le SmartSSD qui se place au centre du mouvement. Issu du partenariat Samsung et AMD (via Xilinx), il traite les données directement là où elles résident. On l’a longtemps perçue comme trop avancée pour son époque. Les goulots d’étranglement actuels liés à l’inférence, à la recherche vectorielle et aux architectures RAG changent la donne. Du coup, sa proposition de valeur est radicalement redéfinie.

L'Architecture du SmartSSD : Une Convergence de Haute Performance

Ne confonds pas le SmartSSD avec un simple périphérique de stockage doté d'un contrôleur amélioré. C'est une plateforme hétérogène complexe. À l'intérieur, il combine du stockage NAND flash, de la mémoire vive à haute bande passante et une logique programmable de type FPGA (Field Programmable Gate Array). En clair, on dépasse largement le cadre d'un disque passif. L'architecture intègre directement ces trois briques technologiques dans un seul boîtier.

Structure de la Première Génération : Les Fondations Kintex

Le premier SmartSSD tournait sur du PCIe Gen3 x4. Le standard montre désormais ses limites, mais la vraie rupture se situait dans l'architecture. On a calé un FPGA AMD Kintex UltraScale+ (KU15P) directement dans le chemin de données du disque. Ce composant intègre 1,143 million de cellules logiques et près de 2 000 tranches DSP. Du coup, l'ensemble délivre une puissance de calcul parallèle massive. Exactement ce qu'il faut pour les tâches de traitement de flux.

Le cœur du sujet, c'est le Private Data Path. Ce canal interne relie directement le contrôleur SSD Samsung au FPGA. Les données filent à la vitesse native de la NAND vers la logique programmée, sans traverser le bus PCIe de l'hôte. Du coup, on retire les interruptions CPU et on libère le bus système de sa congestion.

Le module embarque 4 Go de DDR4 dédié sur place. Ça permet de gérer le cache et de manipuler des structures complexes (arbres de recherche, tables de hachage) localement. Tout le traitement reste enfermé dans le disque.

La Seconde Génération : Le Passage aux SoC Adaptatifs Versal

Caractéristique	SmartSSD Gen 1 (Kintex)	SmartSSD Gen 2 (Versal)
Accélérateur Logic	FPGA Kintex UltraScale+	SoC Adaptatif Versal
Processeurs Embarqués	Aucun (Logique pure)	Arm Cortex-A72 & R5F
Mémoire Dédiée	4 Go DDR4	Jusqu'à 32 Go HBM2e
Interface Hôte	PCIe Gen3 x4	PCIe Gen4 x4 / Gen5 (prévu)
Capacité NAND	3.84 To	Jusqu'à 4 To (extensible par compression)
Bande Passante Mémoire	~19.2 Go/s	Jusqu'à 819 Go/s (HBM2e)

Certaines variantes du SmartSSD Gen 2 embarquent de l'HBM2e. C'est un choix déterminant. Avec un débit de 819 Go/s, le dispositif nourrit les moteurs de calcul internes à des vitesses que la DRAM système n'arrive même pas à égaler. Pour les algorithmes d'IA gourmands en données, c'est un point critique.

Pourquoi le Marché n'était pas Prêt : Analyse d'un Anachronisme Technologique

La première vague de déploiement massif du SmartSSD, vers 2018-2020, a peiné à convaincre. Le bilan reste mitigé. Trois facteurs se sont croisés : le matériel, le logiciel et l'économie. Le Near-Data Processing (NDP) butait alors contre des barrières techniques et financières qu'il ne parvenait pas à franchir. Puis l'écosystème a accéléré. Les contraintes ont simplement disparu.

Les Limites du Bus PCIe Gen3 et la "Lenteur" du Stockage

En 2018, le PCIe Gen3 tenait encore le haut du pavé dans les serveurs. Sur un lien x4, la bande passante plafonne théoriquement à environ 4 Go/s. Du coup, compter sur le traitement à même le disque pour des charges classiques ne se justifie plus.

La "Data Gravity" (cette difficulté native à déplacer les données) se faisait déjà sentir. Mais les volumes n'avaient pas encore explosé. On était loin du seuil où le mouvement des informations dévore le budget machine.2

Et côté latence, les SSD de l'époque semblaient vraiment lents face à la RAM. Les devs ont fait le calcul et ont verrouillé leurs index en DRAM. Entièrement.8

L'Immaturité des Couches Logicielles et des API

Pendant longtemps, les FPGA sont restés le domaine réservé des ingénieurs hardware. Pour y toucher, il fallait maîtriser le Verilog ou le VHDL. AMD a bien introduit Vitis pour ouvrir la porte au C/C++. Mais la courbe d'apprentissage est restée tout simplement trop raide pour les développeurs de bases de données et d'applications cloud. Côté protocole NVMe, aucun standard industriel n'existait pour piloter ces fonctions de calcul. Résultat : les clients ont été obligés de passer par des pilotes spécifiques et des bibliothèques propriétaires. Du coup, l'interopérabilité avec le reste de l'écosystème est devenue un vrai frein.

Le "Missing Link" : L'IA Générative et le Besoin de Recherche Vectorielle

Avant 2022, l’IA s’appuyait massivement sur de la vision par ordinateur ou de l’analyse prédictive légère. Les stratégies d’entreprise n’intégraient pas encore l’IA générative ni les modèles de langage étendus (LLM). Du coup, la capacité à traiter des pétaoctets de documents non structurés pour de la recherche sémantique (Embeddings) se limitait à quelques géants du web.

Le SmartSSD proposait une architecture capable de supporter ce type de charge. Concrètement, il s’agissait d’une réponse technique robuste, mais adressée à un besoin qui n’avait pas encore franchi le seuil de la généralisation.

Le Nouveau Paradigme : IA Edge, RAG et Inférence

Le contexte technique a basculé. Le SmartSSD redevient l'élément central des data centers modernes. Tout repose sur trois piliers majeurs : l'IA en périphérie, le RAG et la recherche vectorielle. Ces leviers n'ont pas élargi le marché. Ils ont rendu cette architecture indispensable. En clair, le SmartSSD sort de sa phase de niche. Il structure désormais l'infrastructure au quotidien.

Accélération du RAG (Retrieval-Augmented Generation)

RAG impose désormais sa dominance comme méthode privilégiée. Le principe est simple : fournir des données fraîches et privées aux LLM sans lancer de réentraînement coûteux. Derrière, on s’appuie sur une base de vecteurs. Et l’interrogation doit se faire en temps réel. Le défi reste colossal. Pour chaque requête, le système doit effectuer une recherche de "voisins les plus proches" (ANN - Approximate Nearest Neighbor) sur des milliards de vecteurs haute dimension. La charge est continue.

La recherche vectorielle traditionnelle bouffe la DRAM. Un index d’un milliard de vecteurs exige plusieurs téraoctets de mémoire vive. Le coût devient ingérable pour beaucoup d’organisations. Le SmartSSD contourne le problème. Il stocke les index sur la NAND flash et s’appuie sur un FPGA + de la HBM locale pour faire les calculs de distance (cosinus, euclidien) directement sur le disque. Concrètement, le Near-Data Processing change la donne. Les travaux SmartANNS mesurent un gain de débit (QPS) de 10,7x face aux méthodes SSD classiques. Du coup, la consommation DRAM de l’hôte tombe drastiquement.

Inférence IA à l'Edge : Filtrage et Prétraitement

En edge, tout se joue sur trois contraintes : latence, bande passante et puissance électrique. Un SmartSSD déployé sur une passerelle industrielle ou un véhicule autonome remplit exactement ce rôle de filtre intelligent. Le FPGA intégré lance des modèles de détection d’objets ou d’anomalies en temps réel. Du coup, plus de flux vidéo bruts vers le cloud. On ne stocke (ou ne transmet) que les métadonnées pertinentes.18

La réduction des données à la source n'est pas une option, c'est une obligation technique. En maintenance prédictive, par exemple, un SmartSSD absorbe la charge. Il traite les vibrations haute fréquence des capteurs, effectue une transformation de Fourier rapide (FFT) directement en local, et remonte une alerte en quelques millisecondes. Le CPU principal du serveur Edge reste complètement inactif.18

Mécanismes Techniques du Near-Data Processing (NDP)

Le basculement du stockage passif vers le stockage computationnel repose sur des innovations architecturales ciblées. Concrètement, le flux de données standard change de trajectoire.

Bypasser les Limites de Von Neumann

Dans une architecture classique, le traitement impose un déplacement. La donnée doit obligatoirement circuler :

Dans une architecture classique, la donnée n’a pas le choix. Elle quitte la NAND, file vers le contrôleur SSD, traverse le bus PCIe pour gagner la DRAM hôte, puis atterrit dans les caches du CPU. Et comme le résultat doit souvent repartir, elle refait exactement le même trajet en sens inverse. Bref, chaque opération génère un aller-retour obligatoire.

Le SmartSSD court-circuite les étapes 2, 3 et 4 pour la majorité des opérations de filtrage. Le FPGA accède directement au tampon de données du contrôleur SSD. Du coup, l'utilisation du CPU de l'hôte chute drastiquement : elle peut être réduite jusqu'à 97 % dans les requêtes de base de données intensives (scans de tables, jointures).

Quantisation Binaire et Indexation Légère

Le SmartSSD compense les limites matérielles du FPGA face à un GPU massif grâce à la quantisation binaire. Les vecteurs float32 sont transformés en représentations binaires bien plus compactes. Le calcul de la distance de Hamming sur ces données devient l'arme principale. Du coup, le FPGA élimine 99,9 % des résultats inutiles instantanément. Seuls les candidats restants remontent au CPU pour finaliser le classement.

Gestion du Write Amplification Factor (WAF)

Loger l'intelligence dans le contrôleur du disque, ça a un impact direct sur la durée de vie. Le SmartSSD prend connaissance de la structure des données en temps réel. Fichiers, tables, objets, il les analyse. Du coup, il gère le placement sur la NAND pour réduire le Write Amplification. L'endurance du disque en profite directement. Concrètement, c'est un avantage décisif pour les workloads d'IA qui génèrent de nombreux journaux et points de contrôle.

Standardisation : L'Heure de l'Interopérabilité

Entre 2018 et 2025, le virage est clair. SNIA et NVM Express ont piloté une véritable standardisation. Du coup, le stockage computationnel n'est plus une île propriétaire.

Le Jeu de Commandes NVMe pour les Programmes Computationnels

La norme NVMe 2.0 (et les suivantes) a intégré le Computational Programs Command Set. Concrètement, ce standard dicte le workflow : un hôte découvre, charge et lance des fonctions directement sur un CSD. Tout ça s'articule autour de trois types d'espaces de noms (Namespaces) :

Le NVM Namespace s'occupe du stockage de blocs standard. Le Computational Programs Namespace gère les binaires et les fonctions exécutables. Pour finir, le Subsystem Local Memory Namespace permet d'allouer et d'accéder à la mémoire locale du disque. Que ce soit de la DDR4 ou du HBM, tout passe par là.

Avec cette standardisation, les fournisseurs de logiciels intègrent le support du stockage computationnel de manière générique. MongoDB, ElasticSearch ou Milvus n'ont qu'un seul code à gérer. Il s'exécute identiquement sur un SmartSSD Samsung, un accélérateur Pliops ou ScaleFlux. La compatibilité est directe, sans adaptation supplémentaire.

L'Écosystème API SNIA

Le SNIA a conçu une API haut niveau qui masque intégralement les détails matériels. Que le support repose sur un FPGA, un ASIC ou un cœur Arm, l'application n'interagit qu'avec une "Computational Storage Function" (CSF). En clair, tu portes tes logiciels existants vers le stockage computationnel sans toucher au code source. Il suffit de greffer le plugin spécifique au hardware.12

Analyse Comparative : SmartSSD vs GPU vs DPU

Dans une hiérarchie de calcul toute en couches, le SmartSSD tient une place bien précise. Il ne cherche pas à supplanter le GPU. Son rôle, c'est de le compléter. Concrètement, il absorbe les contraintes de la gravité des données. Un blocage que le GPU ne peut gérer à lui seul.

FPGA vs GPU pour l'IA et la Recherche Vectorielle

Les GPU comme le NVIDIA H100 dominent l'entraînement des modèles. Leur force repose sur une puissance de calcul en virgule flottante non négligeable. L'inférence et le filtrage, c'est une autre paire de manches. Là, les SmartSSD basés sur FPGA prennent le relais avec des atouts bien précis :

Latence prédictible : Le FPGA exploite le traitement en pipeline pour garantir une latence rigoureusement fixe. Sur des terrains comme le trading haute fréquence ou le contrôle industriel, cette stabilité est non négociable.
Faim d’énergie maîtrisée : Pour filtrer simplement ou faire de la recherche vectorielle quantifiée, le SmartSSD tient la route avec environ 25W. Un GPU haut de gamme, en comparaison, avale entre 300 et 700W.
Architecture flux continu : Le FPGA travaille au fil de l’eau. Les données sont traitées instantanément dès leur sortie de la NAND. Le GPU impose l’inverse : il faut d’abord empiler des lots en VRAM. Ce chargement préalable génère une latence de transfert qu’il faut absorber dès le démarrage.

Le Rôle du DPU (Data Processing Unit)

Les DPU, à l’instar du BlueField de NVIDIA, sont câblés pour l’accélération réseau et la virtualisation du stockage (NVMe-over-Fabrics). Du coup, le SmartSSD et le DPU se complètent sans friction. Le DPU gère le transit des données sur InfiniBand ou Ethernet. Le SmartSSD, lui, calcule directement sur les données au repos. Résultat : on construit des infrastructures de stockage désagrégées. Le calcul est réparti à la pointe, le CPU hôte étant strictement exclu.33

Type de Composant	Fonction Principale	Atout Majeur
CPU (Intel Xeon/AMD EPYC)	Orchestration générale	Polyvalence totale
GPU (NVIDIA/AMD)	Entraînement et Inférence lourde	Puissance TFLOPs massive
SmartSSD (CSD)	NDP, Filtrage, Recherche Vectorielle	Réduction du mouvement des données
DPU (BlueField/Pensando)	Réseau et Sécurité	Offload du stack réseau

Impact sur l'Efficacité Énergétique et la Soutenabilité des Data Centers

L'IA alourdit drastiquement la balance énergétique. D'ici 2026, les data centers pourraient consommer jusqu'à 1 050 TWh. En clair, ça représente une part significative de l'électricité mondiale. 35

Réduction de l'Empreinte Carbone par Requête

Les transferts sur un bus PCIe consomment déjà de l’énergie. Le métrique ? Des picojoules par bit. Le SmartSSD élimine les mouvements inutiles. Résultat : la facture électrique par requête IA s’allege. Preuve en chiffres, une interaction ChatGPT tire environ 2,9 watt-heures. C’est dix fois ce qu’absorbe une recherche Google classique.35 Du côté du RAG, le gain se joue sur la récupération des données. Passer à du stockage computationnel pour la phase Retriever divise par trois la consommation de cette étape précise.23

Densification des Serveurs

Le SmartSSD décharge le CPU de 97 % du scan de données. Résultat direct : la densité de services par rack explose. Un serveur unique monté avec 24 SmartSSDs suffit à égaler une grappe de machines classiques sur les tâches d'analyse. Le gain se voit immédiatement : besoins en refroidissement et empreinte physique qui chutent. (1)

Cas d'Usage de l'IA Moderne : De la Vidéo au Vector Search

Aujourd'hui, le SmartSSD équipe des applications bien concrètes. Cinq ans plus tôt, ces cas d'usage n'existaient pas. Ou n'étaient que marginaux. Du coup, on passe directement à du terrain opérationnel.

Transcodage Vidéo et Analyse en Temps Réel

Le streaming et la surveillance intelligente ont rendu le transcodage vidéo on ne peut plus courant. Le SmartSSD Gen 2 absorbe cette charge directement sur le stockage. Il traite plusieurs flux 4K en parallèle sans solliciter le reste de l'infrastructure. Les cœurs Arm intégrés et les moteurs de traitement vidéo (VCU) du SoC Versal s'occupent de la compression ou de l'analyse côté disque. Reconnaissance faciale, détection d'intrusion : tout se passe sur place. Le CPU hôte n'a même pas encore conscience que les données arrivent que le traitement est déjà bouclé.

Prévention des Ransomwares et Intégrité des Données

La sécurité on-drive n'est plus théorique. Un SmartSSD scanne les patterns d'écriture en temps réel. Si une activité suspecte se profile, comme le chiffrement massif de fichiers typique d'un ransomware, le FPGA intervient. Il coupe l'accès au disque. Notifie le système instantanément. Concrètement, la réactivité dépasse de loin celle d'un antivirus tournant sur l'OS hôte.9

La Recherche Vectorielle à l'Échelle du Billion

Kioxia et Samsung ont validé le concept sur le terrain. Un seul serveur gère 4,8 milliards de vecteurs. Ils s'appuient sur des blocs proches du SmartSSD, AiSAQ en tête.14 Le système s'articule autour d'une architecture FusionANNS. Concrètement, le GPU affine les vecteurs en dernière ligne droite. Le stockage computationnel prend en charge la recherche brute sur des pétaoctets.17

L'Avenir du Stockage Computationnel : Vers CXL 4.0 et l'Infrastructure Composable

L'avenir du SmartSSD ne se trace qu'au niveau des interconnexions. Le standard CXL arrive sur le devant de la scène. Compute Express Link structure l'architecture des échanges. En clair, le matériel ajuste sa cadence. Le protocole dicte la suite.

CXL et la Cohérence Mémoire

CXL 2.0 et 3.0 transforment le SmartSSD en dispositif de type "Type 2" ou "Type 3". Le CPU y perçoit la mémoire HBM interne comme une extension directe de sa propre RAM. La cohérence matérielle est garantie. Du coup, on règle le problème historique de copie entre l'hôte et l'accélérateur. Un thread CPU écrit une structure de données directement dans la HBM du SmartSSD. Le FPGA lance le traitement sur-le-champ. Sans aucun appel système.

Vers des Capacités de Stockage de 245 To

Les SSD décollent en capacité. Solidigm et SK Hynix en sont à des modèles de 245 To pour 2026. Mathématiquement, le calcul embarqué s'impose. C'est une fatalité.

Lire un tel volume via un lien PCIe Gen5 x4 prend plusieurs heures. Pour du traitement temps réel, attendre ce genre de latence est hors de question. Le stockage doit donc porter la charge de travail. S'indexer et se fouiller lui-même n'est plus un luxe. C'est une exigence technique.

Année	Standard PCIe Dominant	Capacité Max SSD	État du Stockage Computationnel
2018	Gen3	4 To	Prototypes, niche
2021	Gen4	16 To	SmartSSD Gen 1, adoption limitée
2024	Gen5	61 To	SmartSSD Gen 2, RAG, Inférence Edge
2026+	Gen6/7 / CXL 4.0	245 To+	Standard de l'industrie, NDP omniprésent

Conclusion : Une Technologie au Rendez-vous de l'IA

Au départ, le SmartSSD de Samsung et AMD n’avait pas vraiment de rôle défini. La donne a basculé avec l’IA générative et l’informatique en périphérie. C’est là qu’il prend tout son sens. Il combine trois technologies : la densité de la NAND, la vitesse de la HBM et la flexibilité du calcul FPGA. Ce rapprochement permet de briser le goulot d’étranglement de Von Neumann. En clair, on supprime les attentes inutiles entre le stockage et le processeur. Les systèmes d’IA à grande échelle peuvent enfin tourner sans être bridés.

Techniquement, le SmartSSD repose sur trois avancées majeures.

Fini le "Data Tax". Le traitement s’effectue sur place. Du coup, plus de latence ni de surconsommation liée au transfert des données sur le bus système.

La recherche vectorielle n’est plus réservée à une élite. Les équipes peuvent dimensionner des bases massives pour du RAG sans foncer tête baissée sur des coffrets DRAM. (Le budget s’en trouve directement préservé.)

L’Edge devient réellement autonome. Le disque standard se transforme en capteur actif. Il ingère les flux et tranchera instantanément, même dans des environnements où chaque cycle compte.

Les normes NVMe et CXL atteignent leur maturité. Le stockage computationnel n'est plus une option marginale ou un pari sur l'avenir. Il devient la base des infrastructures qui veulent aligner performance extrême et efficacité énergétique. Le SmartSSD change de casquette. On n'y stocke plus seulement des données. C'est le point de départ du calcul. C'est là que l'intelligence commence.

Le SmartSSD V2 (Samsung & AMD)

Le SmartSSD V2

L'Architecture du SmartSSD : Une Convergence de Haute Performance

Structure de la Première Génération : Les Fondations Kintex

La Seconde Génération : Le Passage aux SoC Adaptatifs Versal

Pourquoi le Marché n'était pas Prêt : Analyse d'un Anachronisme Technologique

Les Limites du Bus PCIe Gen3 et la "Lenteur" du Stockage

L'Immaturité des Couches Logicielles et des API

Le "Missing Link" : L'IA Générative et le Besoin de Recherche Vectorielle

Le Nouveau Paradigme : IA Edge, RAG et Inférence

Accélération du RAG (Retrieval-Augmented Generation)

Inférence IA à l'Edge : Filtrage et Prétraitement

Mécanismes Techniques du Near-Data Processing (NDP)

Bypasser les Limites de Von Neumann

Quantisation Binaire et Indexation Légère

Gestion du Write Amplification Factor (WAF)

Standardisation : L'Heure de l'Interopérabilité

Le Jeu de Commandes NVMe pour les Programmes Computationnels

L'Écosystème API SNIA

Analyse Comparative : SmartSSD vs GPU vs DPU

FPGA vs GPU pour l'IA et la Recherche Vectorielle

Le Rôle du DPU (Data Processing Unit)

Impact sur l'Efficacité Énergétique et la Soutenabilité des Data Centers

Réduction de l'Empreinte Carbone par Requête

Densification des Serveurs

Cas d'Usage de l'IA Moderne : De la Vidéo au Vector Search

Transcodage Vidéo et Analyse en Temps Réel

Prévention des Ransomwares et Intégrité des Données

La Recherche Vectorielle à l'Échelle du Billion

L'Avenir du Stockage Computationnel : Vers CXL 4.0 et l'Infrastructure Composable

CXL et la Cohérence Mémoire

Vers des Capacités de Stockage de 245 To

Conclusion : Une Technologie au Rendez-vous de l'IA

Rejoignez
L'investisseur geek.

Le SmartSSD V2

L'Architecture du SmartSSD : Une Convergence de Haute Performance

Structure de la Première Génération : Les Fondations Kintex

La Seconde Génération : Le Passage aux SoC Adaptatifs Versal

Pourquoi le Marché n'était pas Prêt : Analyse d'un Anachronisme Technologique

Les Limites du Bus PCIe Gen3 et la "Lenteur" du Stockage

L'Immaturité des Couches Logicielles et des API

Le "Missing Link" : L'IA Générative et le Besoin de Recherche Vectorielle

Le Nouveau Paradigme : IA Edge, RAG et Inférence

Accélération du RAG (Retrieval-Augmented Generation)

Inférence IA à l'Edge : Filtrage et Prétraitement

Mécanismes Techniques du Near-Data Processing (NDP)

Bypasser les Limites de Von Neumann

Quantisation Binaire et Indexation Légère

Gestion du Write Amplification Factor (WAF)

Standardisation : L'Heure de l'Interopérabilité

Le Jeu de Commandes NVMe pour les Programmes Computationnels

L'Écosystème API SNIA

Analyse Comparative : SmartSSD vs GPU vs DPU

FPGA vs GPU pour l'IA et la Recherche Vectorielle

Le Rôle du DPU (Data Processing Unit)

Impact sur l'Efficacité Énergétique et la Soutenabilité des Data Centers

Réduction de l'Empreinte Carbone par Requête

Densification des Serveurs

Cas d'Usage de l'IA Moderne : De la Vidéo au Vector Search

Transcodage Vidéo et Analyse en Temps Réel

Prévention des Ransomwares et Intégrité des Données

La Recherche Vectorielle à l'Échelle du Billion

L'Avenir du Stockage Computationnel : Vers CXL 4.0 et l'Infrastructure Composable

CXL et la Cohérence Mémoire

Vers des Capacités de Stockage de 245 To

Conclusion : Une Technologie au Rendez-vous de l'IA

Rejoignez L'investisseur geek.

Rejoignez
L'investisseur geek.