GPT-4
OpenAI déploie GPT-4, modèle multimodal acceptant images et texte. Performances au niveau humain sur benchmarks professionnels et académiques, mais capacités inférieures aux humains dans de nombreux scénarios réels.
OpenAI déploie GPT-4, modèle multimodal acceptant images et texte. Performances au niveau humain sur benchmarks professionnels et académiques, mais capacités inférieures aux humains dans de nombreux scénarios réels.
OpenAI présente ChatGPT, un modèle entraîné pour interagir en conversation. Le format dialogué permet à ChatGPT de répondre aux questions de suivi, reconnaître ses erreurs, contester les prémisses incorrectes et rejeter les demandes inappropriées.
Hugging Face publie MTEB, un benchmark massif pour évaluer les modèles d'embedding texte. Il couvre 58 langues, 8 tâches (retrieval, clustering, classification, etc.) et 112 datasets. Permet de comparer systématiquement les performances des embeddings.
OpenAI lance Whisper, un modèle de reconnaissance vocale entraîné sur 680 000 heures de données multilingues. Le système gère plusieurs langues, accents et bruits de fond avec une robustesse supérieure aux modèles existants.
Hugging Face présente BLOOM, le plus grand modèle de langage multilingue open-source au monde. Entraîné sur 46 langues, BLOOM rivalise avec les modèles propriétaires de pointe en performance et accessibilité.
OpenAI publie Triton 1.0, un langage de programmation GPU open-source inspiré de Python. Il permet aux chercheurs sans expérience CUDA d'écrire du code GPU efficace, comparable aux performances d'experts.
OpenAI présente DALL·E, un réseau de neurones capable de générer des images à partir de descriptions textuelles en langage naturel, couvrant un large éventail de concepts.
OpenAI présente CLIP, un réseau de neurones qui apprend les concepts visuels à partir de supervision en langage naturel. CLIP permet la classification visuelle zero-shot en fournissant simplement les noms des catégories, sans entraînement spécifique.
OpenAI publie un article fondateur sur les capacités few-shot des modèles de langage. Les LLMs peuvent accomplir des tâches avec peu d'exemples sans fine-tuning, révélant une capacité d'adaptation rapide émergente.
OpenAI publie une étude sur les lois d'échelle des modèles de langage neuraux, établissant des relations prévisibles entre la taille du modèle, les données d'entraînement et la performance. Les résultats permettent d'optimiser l'allocation des ressources de calcul.
OpenAI présente le Sparse Transformer, un réseau de neurones profond qui établit de nouveaux records en prédiction séquentielle (texte, images, son). Son mécanisme d'attention amélioré traite des séquences 30x plus longues qu'auparavant.
OpenAI a entraîné un grand modèle de langage non supervisé générant des paragraphes cohérents, atteignant l'état de l'art sur plusieurs benchmarks et accomplissant lecture compréhension, traduction, QA et résumé sans entraînement spécifique aux tâches.
OpenAI a créé un bot capable de battre les meilleurs joueurs professionnels de Dota 2 en matchs 1v1 selon les règles de tournoi standard. Le bot a appris par auto-jeu sans imitation learning ni tree search, progressant vers des systèmes IA accomplissant des objectifs complexes en environnements réels.
Audit systématique des benchmarks FOLIO et MALLS révélant 39% et 36% d'erreurs dans les formalisations FOL. Les auteurs publient des annotations corrigées et un framework LLM pour guider la relabélisation manuelle, permettant d'atteindre 90% de précision en révisant <24% des instances. Tests sur Gemma 31B, Qwen3-30B et GPT-4o-mini montrent des gains de +9 à +22 points.
Benchmark complet de 8 petits LLMs (135M–1B) sur Jetson Orin Nano Super 8GB avec llama.cpp CUDA, testés en 4 modes de puissance (7W–MAXN). Mode 25W optimal : SmolLM2-135M atteint 165 tok/s et 22.6 tok/J ; LFM2.5-1.2B meilleur en classe ~1B (54.1 tok/s). 384 cellules de benchmark, données brutes publiées.
BitsMoE propose une méthode de quantification pour modèles MoE basée sur l'allocation spectrale de bits. Via décomposition SVD, elle préserve la base partagée et quantifie finement les facteurs spécifiques aux experts. Sur Qwen3-30B à 2 bits, elle améliore la précision de 27,83 points et accélère le décodage de 1,76× vs GPTQ.
CSRP, un framework en trois étapes pour la correction d'erreurs grammaticales chinoises, combine pré-entraînement continu (5.9M échantillons), fine-tuning avec Chain-of-Thought, et optimisation de politique avec récompenses conscientes de l'efficacité. Atteint 50.99 F₀.₅ sur NACGEC et surpasse GPT-4 en correction orthographique (59.61 F1).
LithoGRPO combine le flow matching et l'apprentissage par renforcement (GRPO) pour optimiser les masques de lithographie en fabrication de semi-conducteurs. Le framework intègre une fonction de récompense physique explicite et propose un algorithme de comptage de tirs 130x plus rapide. Résultats SOTA sur les méthodes d'optimisation et d'apprentissage.
Méthode d'attribution retardée de récompenses par étape pour entraîner des agents LLM en interaction multi-agent stratégique. Un modèle open-source 8B entraîné avec cette approche a surpassé GPT-5 et remporté les deux catégories (Open et Efficient) du benchmark MindGames Arena à NeurIPS 2025.
Framework de red teaming multi-domaine évaluant 11 LLMs sur 690 scénarios cliniques. Résultats : variance substantielle (scores 0.791–0.984), défaillances critiques masquées par la précision moyenne, amplification d'erreur 10-20% sur tâches d'équité. Approche hybride (automatisée + validation humaine) nécessaire.
llama.cpp version b9455 fusionne un correctif majeur pour la quantification du KV cache en mode tensor sur multi-GPU. La solution étend le backend meta pour gérer correctement l'aplatissement des tenseurs sans perdre les informations de forme, évitant ainsi de modifier les graphes de calcul.
mistral.rs v0.8.2 atteint jusqu'à 2.8x plus rapide que llama.cpp en inférence CUDA sur Gemma 4 (dense et MoE) sur GB10, B200 et H100. Résultats reproductibles publiés avec support Q4K et eQ8_0, serveur OpenAI-compatible inclus.
Des chercheurs démontrent que les watermarks statistiques dans les LLM sont vulnérables aux ensembles linéaires. En moyennant les distributions de probabilité de 3-5 modèles, les perturbations introduites par les watermarks s'annulent. La méthode WASH (Watermark Attenuation via Statistical Hybridisation) supprime la détection sur 6 schémas de watermarking testés, réduisant les z-scores de 5-300 à <2 (seuil: 4).
GLIDE est une bibliothèque Python open-source unifiant les méthodes de prediction-powered inference (PPI++, Stratified PPI, Predict-Then-Debias) pour évaluer les systèmes agentic. Elle combine annotations humaines et jugements LLM en estimations sans biais avec intervalles de confiance valides, réduisant les coûts d'annotation tout en maintenant la précision.
Un nouveau métrique d'évaluation contrefactuelle (CSS) révèle que six modèles de frontier classés similairement sur des métriques traditionnelles se rangent dans l'ordre inverse selon leur capacité à adapter les recommandations cliniques face à des mutations de cas oncologiques. Tous les modèles échouent sur les changements de statut chirurgical, un défaut invisible aux métriques de couverture.
VeriGate étend GRPO en combinant récompenses de vérificateur et supervision au niveau des étapes. La méthode utilise un modèle de récompense de processus (PRM) pour assigner du crédit granulaire aux tokens, évitant l'effondrement du gradient quand toutes les trajectoires reçoivent la même récompense. Sur MATH avec Qwen2.5-Instruct (1.5B/7B), VeriGate améliore la précision de ~20% et ~12% respectivement.
Eywa est une architecture mémoire pour agents IA persistants, fondée sur la provenance des preuves. Elle stocke les sources immuables avant d'extraire les faits, valide les mémoires contre des signaux typés, et récupère le contexte via un chemin de lecture déterministe sans appels LLM. Résultats : 90.19% sur LoCoMo C1-C4, 88.2% sur LongMemEval-S, 81.45% sur BEAM.
Étude multi-modèles (Pythia-1.4B, Gemma-2, Qwen2.5-7B, Llama-3.1-8B) sur la représentation linéaire de la malhonnêteté synthétique. Des sondes linéaires détectent le mensonge avec AUC ≥0.99 dès les couches 1-3. Les représentations de malhonnêteté se consolident progressivement en couches profondes, avec implications pour la surveillance basée sur l'activation.
LongDS-Bench évalue la capacité des agents IA à maintenir un contexte analytique sur des horizons longs. Le benchmark contient 68 tâches d'analyse de données multi-tours (2 225 tours) basées sur des notebooks Kaggle réels. Les meilleurs modèles atteignent seulement 48,45% de précision, avec une chute de 47 points entre les tours précoces et tardifs. Les erreurs long-horizon représentent 52-69% des échecs.
Port de Parakeet (speech-to-text NVIDIA) en C++/ggml sans Python ni PyTorch. Sortie byte-for-byte identique à NeMo, 5x plus rapide sur GPU pour les gros modèles, 600x realtime sur clips audio. GGUF quantifiés (f16, q8_0, q6_k, q5_k, q4_k), API C plate, intégré dans LocalAI avec endpoint OpenAI-compatible.
Optimisation Flash Attention pour llama.cpp sur GPU RDNA3 : réduction de 47% de la VRAM KV par rapport à Vulkan f16. Packing 8-bit des K-values dans instructions GPU natives sudot4, sans quantization lossy. À 128k contexte avec MTP draft : 21.76 GiB vs 23.18 GiB (gain 1.42 GiB). Qualité préservée : KLD moyen 0.00455 (q4_0 V), 97.06% top-token identiques.
Monokernel optimisé pour inférence LLM sur AMD MI300X : 3 300 tokens/s en sortie par requête (batch 1, sans décodage spéculatif). Architecture mappée à la topologie physique du GPU. Support initial d'un modèle 2B, MoE frontier prévu.
Recherche sur le fine-tuning ciblé par probe (LoRA) pour calibrer la confiance verbale des LLM. Les modèles détectent internement les réponses correctes (0.76–0.88 AUROC) mais affichent 99% de confiance en sortie. Fine-tuning sur 8 modèles (7B–70B) avec activation patching causal (ρ=0.976). Code et pré-enregistrement disponibles.
BenchTrace est un benchmark pour évaluer la capacité d'auto-évolution des agents LLM. Basé sur 1,821 épisodes annotés couvrant six tâches, il mesure la qualité de la réflexion et teste si les agents évitent les erreurs passées. Expériences sur Qwen3-32B et GPT-4.1 : taux de réussite <30% en réflexion, oubli des leçons antérieures et généralisation faible.
Framework mathématique pour surrogate modeling de réservoirs pétroliers (Norne, 46×112×22 grille) via Fourier Neural Operators (FNO) et variante physics-informed (PINO). Validation empirique : R²>0.99 (pétrole), R²>0.90 (gaz), R²≈0.80 (pression) sur 3298 jours. Speedup 10⁴× vs simulateur OPM, ensemble 1000 membres en <1 min sur GPU B200.
Évaluation de 14 modèles de sécurité open-source sur 79 331 échantillons couvrant 8 catégories de risque NIST. Qwen Guard (4B) atteint le meilleur recall (83,97%), surpassant Llama Guard (12B) et GPT-OSS Safeguard (20B). La taille du modèle ne corrèle pas avec la performance de détection.
MechELK est un framework d'interprétabilité méchaniste pour extraire les connaissances latentes des LLM. En trois étapes (localisation via SAE, vérification par probing causal, élicitation par ingénierie de représentation), il atteint 84,7% de précision sur TruthfulQA, surpassant CCS de 6,2% et détecte 78,3% des connaissances cachées quand la sortie du modèle est incorrecte.
Étude systématique comparant les modèles d'espace d'état (SSM) pour la classification de séries temporelles. S4D surpasse les variantes Mamba en précision et efficacité. Les auteurs proposent MS4 et MS4N, versions légères de S4D avec projection linéaire et mélange de canaux. Évaluation sur 59 datasets (MONSTER, UEA) : MS4N égale des modèles 10× plus grands en paramètres.
HQMQ, méthode sans calibration pour compresser le cache KV des LLM, quantifie chaque chunk de 4 éléments comme quaternion Hurwitz. Testé sur Mistral-7B, Llama-3-8B, Qwen2.5/3-8B et gpt-oss-20b : atteint qualité fp16 à ~5 bits, compression jusqu'à 5.05× (Llama-3-70B : 43 GB → 8.5 GB), surpasse int4 naïf de 3–1900×.
Laguna M.1 (225.8B paramètres, 23.4B activés) et Laguna XS.2 (33.4B total, 3B activés) sont deux modèles MoE entraînés end-to-end pour le coding agentic. Compétitifs sur SWE-bench Verified, SWE-bench Multilingual, SWE-Bench Pro et Terminal-Bench 2.0. XS.2 disponible sous Apache 2.0.