DeepMind à l’assaut des modèles multimodaux

Fil d'actualités
18 février 2026
Google DeepMind présente Gemini 3.1 Pro, un modèle nativement multimodal capable de traiter texte, audio, images, vidéo et code au sein d’une même chaîne de travail. Objectif: réduire les frictions entre formats et rapprocher perception et raisonnement. Pour les équipes produit et R&D, de nouveaux cas se débloquent: analyse documentaire enrichie, débogage assisté, synthèse audiovisuelle. Reste à juger la fiabilité, les coûts d’inférence et l’ergonomie à l’épreuve des usages réels.
16 février 2026
Google DeepMind ouvre un programme d’accès accéléré aux 17 laboratoires nationaux du Département de l’Énergie américain. Première étape: “AI co‑scientist”, un collaborateur virtuel multi‑agents basé sur Gemini pour formuler et tester plus vite des hypothèses. Enjeu: comprimer les cycles en matériaux, énergie et climat, sans sacrifier validation expérimentale, traçabilité ni sécurité des données. Une passerelle concrète entre IA générative et pratique scientifique.
31 janvier 2026
Les modèles hybrides, combinant modules spécialisés et composants généralistes, deviennent la tendance dominante ; DeepMind développe des modules pour la santé, le droit et la finance pour optimiser l'allocation des ressources.
31 janvier 2026
Google annonce une hausse majeure de ses investissements, à 175–185 milliards de dollars, pour renforcer ses capacités de calcul et industrialiser le déploiement de modèles comme Gemini, nativement multimodal et crédité de plus de 750 millions d’utilisateurs actifs mensuels. Signal clair de la course à l’infrastructure: puces, centres de données et efficacité énergétique deviennent des différenciateurs clés. L’ambition est industrielle; le défi, lui, sera aussi économique qu’environnemental.
14 janvier 2026
DeepMind déploie Gemini 2.5 avec variantes Pro, Flash et Flash-Lite, offrant des options adaptées à différents cas d'usage et budgets afin de desservir un marché plus large que les solutions monolithiques.
31 décembre 2025
DeepMind améliore le prétraitement multimodal via des méthodes auto-supervisées sur des jeux de données comme LAION-5B, atteignant environ 80% de précision d'alignement et réduisant le besoin de fine-tuning.
Dans la même catégorie
Les derniers faits marquants
18 février 2026
18 février 2026
17 février 2026
16 février 2026