DeepSeek : Meta et la Silicon Valley en panique et l'Amérique au défi

Difficile de passer à côté de l’épisode DeepSeek et le vent de panique qui a saisi aussi bien les spéculateurs boursiers, avec un effacement de 1000 milliards en une journée et les plateformes IA bousculées dans leur approche technique. Là où certains voient un moment Spoutnik, d’autres émettent de sérieux doutes sur les déclarations de l’opérateur chinois. Mais le mode panique est toujours actif.

Preuve en est, Meta a mis en place une cellule de crise chargée de faire un retro engineering de Deepseek pour comprendre les dessous du code.

Néanmoins, le timing de l’annonce et quelques éléments factuels militent autant pour une tentative de déstabilisation (réussie) qu’une « déception » au sens anglo-saxon du terme.

Sommaire

Quelques éléments de contexte.

D’abord la méthode. Depuis l’embargo sur les puces Nvidia prononcé par Joe Biden, DeepSeek utiliserait des puces N800 moins puissantes que les modèles B100 et 200 (Blackwell). Pour contourner ce déficit de puissance, les chercheurs de DeepSeek s’appuient sur une méthode de mécanisme d’attention MLA (multi head latent Attention) et MOE (Mixture of Experts), élaborée en 2017, mais qu’ils auraient largement amélioré pour nécessiter des calculs moindres lors de l’inférence.

Comment : la méthode combine plusieurs modèles spécialisés, des « experts » qui traitent chacun une tâche. Un réseau détermine quel expert est le plus approprié pour chaque entrée, ce qui permet de répartir les ressources de calcul et diminue de facto la puissance nécessaire. En segmentant finement les « experts » et en en mutualisant d’autres pour partager les connaissances communes, DeepSeek optimise les ressources de calcul nécessaire pour l’entraînement et l’inférence.

C’est ici qu’intervient le MLA, une amélioration de l’attention multi-tête classique qui introduit un espace latent partagé pour gérer plus efficacement les informations. Il fonctionne en projetant les entrées dans un espace latent plus petit avant d’effectuer l’attention.Dans un modèle Mixture-of-Experts (MoE), MLA permet aux “experts” d’avoir une spécialisation plus fine en réduisant le bruit dans l’apprentissage.

Résultat : les premiers tests DeepSeekMoE 145B tests indiquent que ce modèle de 145 milliards de paramètres surpasse l’architecture GShard et atteint des performances comparables à DeepSeek 67B, en n’utilisant que 28,5 % (voire 18,2 %) des ressources computationnelles. C’est beau.

Un prix très bas : DeepSeek R1 ne coûte que 2,19 dollar pour un million de tokens générés contre 60 dollars pour OpenAI facture 60 dollars. Cette différence de prix, presque 30 fois inférieure,.

Cette approche est crédible. Reste quelques zones d’ombres

Reste que cette annonce suscite plusieurs questions :

Le timing : Trump annonce un plan « Stargate » de 500 mds, irréaliste (personne n’a l’argent), mais fixe un objectif de domination US sur l’IA. Dans la guerre économique sino-américaine tout ce qui peut déstabiliser les US est bon a prendre : Deepseek sort du bois et de nulle part opportunément et démontre la puissance technologique de la Chine qui s’est ingénié à former une armée d’ingénieurs de haut-niveau pour prendre une avance technologique sur son rival d’Outre-Atlantique. Dans différents compartiments (transport, armée, urbanisme, énergie…), la Chine est passée devant l’Amérique en continuant d’investir massivement dans des projets, et surtout, avec un plan sur du long terme qui n’est pas dicté par un souci de rentabilité immédiate.

L’acteur : l’éditeur de Deepseek, Liang Wenfeng bosse pour High-Flyer, un hedge-fund chinois spécialisé dans le trading haute fréquence. Autrement dit, la manipulation des cours de bourse est son quotidien. IL ne faut pas être grand clerc pour Imaginer que l’annonce aura un impact sur les cours du Nasdaq où la moindre nouvelle, même mineure, impacte les valeurs technos survalorisées à ce jour.

L’entraînement : réponse du berger à la bergère, Deepseek « aurait » aspiré une partie des données d’OpenAI pour entraîner son modèle en utilisant la technique de distillation des connaissance (on retrouve ici les « experts » à l’œuvre). Avec cette technique, fatalement les coûts d’entraînement sont réduits. Cette thèse est invérifiable en l’état et selon un tech d’Amazon que je vous conseille de suivre si vous souhaitez un point de vue éclairé sur l’IA *, il est possible que la plateforme ait pu faire sans, schéma de principe à l’appui :

Le mensonge ? Par ailleurs, lors d’une interview à CNBC, le CEO de Scale AI affirme que DeepSeek aurait 50,000 puces Nvidia H100s (53 000 $ pièce). Ce qui ramènerait les coûts quasi à équivalence avec les coûts de développement des IA US. Une théorie qui milite pour l’aspect “deception” de cette annonce. La “deception” consistant à construire un récit falsifié pour induire l’ennemi en erreur.

Le résultat bis : certes, nous sommes dans une performance dans les canons du genre, mais avec de nombreux biais relevé par l’audit de newsguard lequel a mis en évidence que, dans 30 % des cas, le chatbot réitérait des informations erronées et, dans 53 % des cas, il fournissait des réponses floues ou peu pertinentes lorsqu’il était interrogé sur des sujets d’actualité. Ces insuffisances ont conduit à un taux d’échec de 83 %, bien au-dessus de la moyenne de 62 % observée chez ses concurrents occidentaux.

Mais…

La puissance de DeepSeek (peu ou prou identique aux modèles de’OpenAI et Gemini, meilleurs sur certains aspects (chain of thought en particulier, plus faible sur d’autres) repose sur un modèle Open-Source. Autrement dit, le code est ouvert et disponible. D’une part, cette approche permet à DeepSeek de se bâtir un écosystème, mais aussi aux acteurs US de comprendre et améliorer leur approche (Meta est à fond sur l’analyse du code DeepSeek, et les autres acteurs aussi probablement). Comme l’indique Yann Le Cun, à la tête de l’IA chez Meta, “le grand gagnant est l’open-source”, mais le même Yann Le Cun rappelle, si besoin en était, que pour délivrer des réponses à des millions de personnes, les coûts d’infrastructure seront monstrueux, quand bien même les calculs nécessaires seraient moindres que pour les concurrents. Preuve en est, la ruée vers l’application a suscité une file d’attente conséquente, voire une interruption du service.

Et du côté de l’Open-Source, DeepSeek a un peu éclipsé l’autre champion chinois, Ali Baba, dont le moteur Qwen 2.5 VL annoncé le 28 janvier permet de créer un agent sur le modèle de l’Operator d’OpenAI, mais gratuitement, mais surtout surpasserait DeepSeek. A vérifier.

Qu’en penser ?

Depuis l’arrivée au pouvoir de XI-Jinping, la Chine entre en compétition ouverte avec les Etats-Unis. Malgré un embargo relatif sur les puces, la Chine dispose d’un vivier de chercheurs et d’ingénieurs, 5 millions d’ingénieurs formés chaque année, accompagné par un Etat tout puissant et omnipotent. Chaque entreprise compte un ou plusieurs représentants de l’état à son board. Au fil des ans à venir, le plan de puissance mis en œuvre par XI va se concrétiser. Pour mémoire la croissance du PIB chinois dépasse celui des US. Par ailleurs, en termes de dépôt de brevets, la Chine est loin devant. Une réalité encore difficile à accepter par les US. Un rappel s’il en était besoin que la techno est aussi un outil de puissance politique comme le rappelle l’essai d’Asma Mhalla : technopolitique.

Update : Depuis l’annonce de DeepSeek, l’IA chinoise subit moultes attaques cyber (étonnant non ?). Pire, une faille de sécurité majeure a été découverte :une base de données non sécurisée aurait exposé plus de 1,2 milliard d’enregistrements, rendant accessibles sans authentification des informations potentiellement sensibles. Cette fuite, qui met en évidence les vulnérabilités des infrastructures cloud, concernerait un volume de plus de 9 téraoctets de données, incluant des journaux d’accès et des informations utilisateur. L’alerte a été donnée par un chercheur en cybersécurité, qui a rapidement signalé l’incident aux autorités compétentes.

Pour tester DeepSeek

Fabrice Frossard

Laisser un commentaireAnnuler la réponse.

Kimi K3 : Pékin vient de fracturer la Silicon Valley

Guide complet : Piloter NotebookLM avec Claude pour automatiser l’analyse de corpus

Amodei vs. l’État : quand la régulation arrive 48 heures trop tard

Trending

Kimi K3 : Pékin vient de fracturer la Silicon Valley

Guide complet : Piloter NotebookLM avec Claude pour automatiser l’analyse de corpus

Amodei vs. l’État : quand la régulation arrive 48 heures trop tard

A2Family, MCP, ADK : la guerre des protocoles IA