Page 2 sur 192

ToutHaut signalRécent

7679 articles

Introducing GPTs

OpenAI lance les GPTs, des versions personnalisées de ChatGPT combinant instructions, connaissances additionnelles et compétences variées, sans nécessiter de code.

GPT OpenAI Outils

SIG

HYP

Hugging Face Blog·6 sept.

Spread Your Wings: Falcon 180B is here

Hugging Face annonce le lancement de Falcon 180B, un grand modèle de langage open-source avec 180 milliards de paramètres. Le modèle est disponible en versions base et instruction-tuned, conçu pour des tâches de génération de texte et de raisonnement complexe.

Open source Llama Benchmarks

SIG

HYP

Hugging Face Blog·18 juil.

Llama 2 is here - get it on Hugging Face

Meta lance Llama 2, un modèle de langage open-source disponible sur Hugging Face. Le modèle est proposé en plusieurs tailles et peut être utilisé gratuitement pour la recherche et les applications commerciales.

Llama Open source Meta AI

SIG

HYP

OpenAI Blog·14 mars

GPT-4

OpenAI déploie GPT-4, modèle multimodal acceptant images et texte. Performances au niveau humain sur benchmarks professionnels et académiques, mais capacités inférieures aux humains dans de nombreux scénarios réels.

GPT OpenAI Vision

SIG

HYP

OpenAI Blog·30 nov.

Introducing ChatGPT

OpenAI présente ChatGPT, un modèle entraîné pour interagir en conversation. Le format dialogué permet à ChatGPT de répondre aux questions de suivi, reconnaître ses erreurs, contester les prémisses incorrectes et rejeter les demandes inappropriées.

OpenAI GPT

SIG

HYP

Hugging Face Blog·19 oct.

MTEB: Massive Text Embedding Benchmark

Hugging Face publie MTEB, un benchmark massif pour évaluer les modèles d'embedding texte. Il couvre 58 langues, 8 tâches (retrieval, clustering, classification, etc.) et 112 datasets. Permet de comparer systématiquement les performances des embeddings.

Embeddings Benchmarks Évaluations

SIG

HYP

OpenAI Blog·21 sept.

Introducing Whisper

OpenAI lance Whisper, un modèle de reconnaissance vocale entraîné sur 680 000 heures de données multilingues. Le système gère plusieurs langues, accents et bruits de fond avec une robustesse supérieure aux modèles existants.

OpenAI Voix Open source

SIG

HYP

Hugging Face Blog·12 juil.

Introducing The World's Largest Open Multilingual Language Model: BLOOM

Hugging Face présente BLOOM, le plus grand modèle de langage multilingue open-source au monde. Entraîné sur 46 langues, BLOOM rivalise avec les modèles propriétaires de pointe en performance et accessibilité.

Open source Llama Benchmarks

SIG

HYP

OpenAI Blog·28 juil.

Introducing Triton: Open-source GPU programming for neural networks

OpenAI publie Triton 1.0, un langage de programmation GPU open-source inspiré de Python. Il permet aux chercheurs sans expérience CUDA d'écrire du code GPU efficace, comparable aux performances d'experts.

Open source Infrastructure Génération de code

SIG

HYP

OpenAI Blog·5 janv.

DALL·E: Creating images from text

OpenAI présente DALL·E, un réseau de neurones capable de générer des images à partir de descriptions textuelles en langage naturel, couvrant un large éventail de concepts.

OpenAI Génération d'images Vision

SIG

HYP

OpenAI Blog·5 janv.

CLIP: Connecting text and images

OpenAI présente CLIP, un réseau de neurones qui apprend les concepts visuels à partir de supervision en langage naturel. CLIP permet la classification visuelle zero-shot en fournissant simplement les noms des catégories, sans entraînement spécifique.

OpenAI Vision Benchmarks

SIG

HYP

OpenAI Blog·28 mai

Language models are few-shot learners

OpenAI publie un article fondateur sur les capacités few-shot des modèles de langage. Les LLMs peuvent accomplir des tâches avec peu d'exemples sans fine-tuning, révélant une capacité d'adaptation rapide émergente.

GPT OpenAI Prompt engineering

SIG

HYP

OpenAI Blog·23 janv.

Scaling laws for neural language models

OpenAI publie une étude sur les lois d'échelle des modèles de langage neuraux, établissant des relations prévisibles entre la taille du modèle, les données d'entraînement et la performance. Les résultats permettent d'optimiser l'allocation des ressources de calcul.

OpenAI Benchmarks Papers

SIG

HYP

OpenAI Blog·23 avr.

Generative modeling with sparse transformers

OpenAI présente le Sparse Transformer, un réseau de neurones profond qui établit de nouveaux records en prédiction séquentielle (texte, images, son). Son mécanisme d'attention amélioré traite des séquences 30x plus longues qu'auparavant.

OpenAI Raisonnement Benchmarks

SIG

HYP

OpenAI Blog·14 févr.

Better language models and their implications

OpenAI a entraîné un grand modèle de langage non supervisé générant des paragraphes cohérents, atteignant l'état de l'art sur plusieurs benchmarks et accomplissant lecture compréhension, traduction, QA et résumé sans entraînement spécifique aux tâches.

OpenAI GPT Benchmarks

SIG

HYP

OpenAI Blog·11 août

Dota 2

OpenAI a créé un bot capable de battre les meilleurs joueurs professionnels de Dota 2 en matchs 1v1 selon les règles de tournoi standard. Le bot a appris par auto-jeu sans imitation learning ni tree search, progressant vers des systèmes IA accomplissant des objectifs complexes en environnements réels.

OpenAI Reinforcement learning Agents IA

SIG

HYP

arXiv cs.CL·18 juin

Montreal Forced Aligner and the state of speech-to-text alignment in 2026

Montreal Forced Aligner 3.0, outil de référence depuis 2016 pour l'alignement forcé parole-texte, atteint des performances état-de-l'art sur l'anglais, le japonais et le coréen avec erreurs limites <15ms. Nouvelles capacités : adaptation de modèles, remappage cross-langue, couverture étendue (langues/dialectes), dictionnaires IPA harmonisés.

Voix Benchmarks Open source

SIG

HYP

arXiv cs.AI·18 juin

TxBench-PP: Analyzing AI Agent Performance on Small-Molecule Preclinical Pharmacology

TxBench-PP est un benchmark vérifié pour évaluer les agents IA sur la pharmacologie préclinique de petites molécules. 100 évaluations couvrent mécanisme d'action, pharmacodynamique, engagement composé-cible et sécurité. Sur 16 configurations (11 modèles, 4800 trajectoires), Claude Opus 4.8 atteint 59.3% de réussite, GPT-5.5 55.3%. Aucun système ne maîtrise fiablement ces décisions.

Agents IA Benchmarks Claude

SIG

HYP

arXiv cs.AI·18 juin

DeFAb: A Verifiable Benchmark for Defeasible Abduction in Foundation Models

DeFAb est un benchmark de 372 648+ instances pour évaluer le raisonnement abductif défaisable dans les modèles de langage. Les meilleurs modèles frontier atteignent 65% en conditions standard mais chutent à 23,5% en évaluation robuste au rendu, contre 100% pour un solveur logique symbolique. Le benchmark inclut trois niveaux de difficulté avec vérification polynomiale des hypothèses.

Benchmarks Raisonnement Évaluations

SIG

HYP

arXiv cs.CL·18 juin

Morpheus: A Morphology-Aware Neural Tokenizer and Word Embedder for Turkish

Morpheus est un tokeniseur neural morphologie-aware pour le turc agglutinant. Le modèle utilise une programmation dynamique Poisson-binomial différentiable pour segmenter les morphèmes avec une compression de 1.425 bits/caractère et un alignement morphologique MorphScore F1 de 0.61 (vs ~0.32 pour les tokeniseurs subword). Lossless par construction : decode(encode(w)) = w.

Embeddings Papers Open source

SIG

HYP

arXiv cs.LG·18 juin

ThousandWorlds: A benchmark for climate emulation of potentially habitable exoplanets

ThousandWorlds est un benchmark ML pour l'émulation climatique d'exoplanètes potentiellement habitables. Le dataset contient ~1800 simulations de 5 modèles climatiques globaux mappant 8 paramètres planétaires à des champs atmosphériques 3D. Trois sous-ensembles progressifs et deux protocoles d'évaluation testent 7 baselines ; les méthodes GP surpassent le deep learning standard.

Benchmarks Papers Raisonnement

SIG

HYP

arXiv cs.CL·18 juin

JetFlow: Breaking the Scaling Ceiling of Speculative Decoding with Parallel Tree Drafting

JetFlow améliore le speculative decoding en combinant l'efficacité du drafting parallèle avec le conditionnement causal par branche. Sur GPU H100, il atteint 9.64x speedup sur MATH-500 et 4.58x sur conversations ouvertes, dépassant les méthodes tree-based existantes sur modèles Qwen3 denses et MoE.

Benchmarks Génération de code Open source

SIG

HYP

arXiv cs.AI·18 juin

ProfiLLM: Utility-Aligned Agentic User Profiling for Industrial Ride-Hailing Dispatch

ProfiLLM est un pipeline LLM agentic déployé chez DiDi pour extraire des profils utilisateurs sémantiques à partir de logs comportementaux massifs. Le système utilise 27 outils analytiques pour miner les données et génère des profils alignés sur l'utilité prédictive, atteignant +6.14% d'amélioration AUC et +0.47% de GMV en test A/B.

Agents IA Llama RAG

SIG

HYP

Simon Willison·17 juin

GLM-5.2 is probably the most powerful text-only open weights LLM

Z.ai a publié GLM-5.2 (753B paramètres, 40 actifs en MoE) sous licence MIT le 16 juin. Modèle texte uniquement avec fenêtre de contexte de 1M tokens. Classé 1er sur l'Artificial Analysis Intelligence Index v4.1 (score 51) devant DeepSeek V4 Pro et Kimi K2.6. 2e sur Code Arena WebDev derrière Claude Fable 5.

Open source Benchmarks Génération de code

SIG

HYP

arXiv cs.AI·17 juin

EComAgentBench: Benchmarking Shopping Agents on Long-Horizon Tasks with Distributed Hidden Intent

EComAgentBench est un benchmark de 662 tâches e-commerce évaluant les agents LLM sur des intentions cachées distribuées entre requête, profil utilisateur et clarifications. Les exigences sont dispersées et l'agent doit les découvrir en moins de 100 appels d'outils. Le meilleur modèle atteint 57,1% de précision.

Agents IA Benchmarks Évaluations

SIG

HYP

arXiv cs.AI·17 juin

PreAct: Computer-Using Agents that Get Faster on Repeated Tasks

PreAct compile les exécutions réussies d'agents informatiques en petits programmes à états finis, rejoués 8.5-13x plus vite sans appels LLM par étape. Un validateur indépendant vérifie chaque programme avant stockage. Sur trois benchmarks (mobile, desktop, web), cette vérification évite l'accumulation de programmes défaillants (+1.75-2.6 tâches).

Agents IA Génération de code Benchmarks

SIG

HYP

arXiv cs.LG·17 juin

Rift: A Conflict Signature for Deception in Language Models

Des chercheurs identifient une signature interne de la tromperie dans les modèles de langage : les réponses mensongères affichent une rang résiduel 2.1-2.3x plus élevé que les réponses naïvement fausses. Cette signature détecte la déception avec 100% de précision sur GPT-2, Qwen2.5 et Phi-3, et transfère zero-shot entre familles de modèles et langues (AUC 0.933-1.0).

Sécurité IA Alignement Évaluations

SIG

HYP

arXiv cs.LG·17 juin

ProCUA-SFT Technical Report

ProCUA-SFT est un dataset de 3.1M échantillons SFT générés automatiquement à partir de 93K trajectoires synthétiques couvrant 2,484 combinaisons d'applications. Fine-tuner UI-TARS 7B sur ProCUA-SFT atteint 45.0% sur OSWorld, soit +18.7 points vs le modèle de base et +35% vs AgentNet. Le pipeline utilise Kimi-K2.5 comme générateur de tâches, juge et exécuteur.

Agents IA Benchmarks Fine-tuning

SIG

HYP

arXiv cs.AI·17 juin

FllumaOne: A Code-Native Multimodal CAD Dataset with Executable Programs and Kernel-Validated Feature Histories

FllumaOne est un dataset CAD multimodal de 100 000 modèles générés par programmes Python exécutables dans Flluma (système CAD basé OpenCASCADE). Chaque échantillon aligne le programme avec un arbre de features, une représentation STEP, un nuage de points et des descriptions en langage naturel. Un baseline Qwen2.5-Coder-1.5B atteint 99.98% de validité syntaxe Python et 99.14% de validité export STEP.

Génération de code Benchmarks Vision

SIG

HYP

arXiv cs.CL·17 juin

AIPatient Arena: EHR-grounded evaluation of large language models in end-to-end clinical consultation workflows

AIPatient Arena évalue les LLM en consultation clinique multi-tours sur 8 dimensions via des graphes de connaissances EHR. Sur 437 patients, les modèles excellent en questionnement (4.43-4.99/5) et conduite éthique (4.38-4.93/5), mais échouent en diagnostic (2.63-3.55/5) et couverture informationnelle (2.08-3.02/5). Les faiblesses incluent répétitions, omissions d'antécédents, gestion insuffisante de l'incertitude.

Évaluations Raisonnement Sécurité IA

SIG

HYP

arXiv cs.AI·17 juin

How Inference Compute Shapes Frontier LLM Evaluation

Étude sur 12 modèles frontière évaluant l'impact du compute d'inférence sur les performances. Trois interventions testées : budgets de tokens plus larges, compaction de contexte, tentatives répétées. Résultats : les budgets augmentés améliorent significativement les performances sur FrontierMath, Humanity's Last Exam, TerminalBench. Les évaluations à budget fixe sous-estiment les capacités des modèles récents.

Benchmarks Évaluations Raisonnement

SIG

HYP

arXiv cs.LG·17 juin

The Discrete-Log Clock: How a Transformer Learns Modular Multiplication

Des chercheurs montrent qu'un transformer apprenant la multiplication modulaire utilise une transformation de caractères multiplicatifs plutôt que la DFT standard. Sur a·b mod 113, le spectre devient sparse (Gini 0.58 vs 0.07), avec 96.9% des neurones MLP accordés à une seule fréquence. L'algorithme implémente un « Discrete-Log Clock » réduisant la multiplication à l'addition en espace logarithmique discret.

Raisonnement Papers Évaluations

SIG

HYP

Reddit r/MachineLearning·16 juin

quicktok: a faster tokenizer (exact and byte-identical with tiktoken) [P]

quicktok est un tokeniseur BPE écrit en C++ produisant des tokens byte-identiques à tiktoken. Il encode 2–3.6× plus vite que bpe-openai et 4–11× plus vite que tiktoken lui-même. Supporte cl100k, o200k, GPT-OSS, Llama-3, Qwen2.5/3. Optimisations : trie 2-byte, caches denses, pretokenizer compilé.

Génération de code Outils Open source

SIG

HYP

arXiv cs.LG·16 juin

Transformers Learn the Mestre-Nagao Heuristic

Des transformers à deux couches classifient les courbes elliptiques rationnelles (rang 0 vs 1) avec >99% de précision à partir de 128 traces de Frobenius. L'analyse mécanistique révèle qu'un circuit sparse de 20 neurones implémente l'heuristique de Mestre-Nagao (poids log(p)/(p·log B), r=0.997), découverte autonome d'un résultat de théorie analytique des nombres.

Raisonnement Évaluations Papers

SIG

HYP

arXiv cs.CL·16 juin

Nemotron 3 Ultra: Open, Efficient Mixture-of-Experts Hybrid Mamba-Transformer Model for Agentic Reasoning

NVIDIA présente Nemotron 3 Ultra, un modèle MoE hybride Mamba-Transformer de 550B paramètres (55B actifs) pré-entraîné sur 20T tokens avec contexte 1M. Utilise SFT, RL et distillation multi-enseignants. Atteint ~6x le débit d'inférence des LLM publics avec précision équivalente. Checkpoints, données et recette open-sourcés sur HuggingFace.

Agents IA Raisonnement Open source

SIG

HYP

arXiv cs.AI·16 juin

PrologMCP: A Standardized Prolog Tool Interface for LLM Agents

PrologMCP expose Prolog comme outil stateful via le Model Context Protocol pour les agents LLM. Testé sur PARARULE-Plus avec Claude Sonnet 4.6, GPT-4.1 et o4-mini, le système atteint 1.00 de précision sur l'ensemble général et 0.99-1.00 sur l'ensemble difficile, surpassant les modèles de reasoning sur les tâches déductives.

MCP Agents IA Raisonnement

SIG

HYP

arXiv cs.AI·16 juin

CODA-BENCH: Can Code Agents Handle Data-Intensive Tasks?

CODA-BENCH est le premier benchmark évaluant conjointement les capacités de code et de données des agents IA. Construit sur l'écosystème Kaggle avec 1 009 tâches et ~980 fichiers par environnement, il révèle que les meilleurs agents n'atteignent que 61,1% de succès pour intégrer découverte de données et exécution de code.

Agents IA Benchmarks Génération de code

SIG

HYP

arXiv cs.CL·15 juin

CacheRL:Multi-Turn Tool-Calling Agents via Cached Rollouts and Hybrid Reward

CacheRL entraîne des petits modèles d'agents (Qwen3-4B-Thinking) atteignant 92% de précision sur tâches multi-étapes avec appels d'outils, soit 100× moins de calcul que GPT-5 (94%). Trois innovations : pipeline de trajectoires avec traces de raisonnement LLM, cache fuzzy trois niveaux éliminant exécutions live, récompenses adaptées au cache. SFT + GRPO améliorent la récompense de validation de 0,43 à 0,78.

Agents IA Reinforcement learning Raisonnement

SIG

HYP

arXiv cs.AI·15 juin

Every Eval Ever: A Unifying Schema and Community Repository for AI Evaluation Results

Every Eval Ever propose un schéma unifié et un dépôt communautaire pour standardiser les résultats d'évaluation IA. Le système ingère 22 235 modèles et 2 273 benchmarks via un format JSON unique, avec convertisseurs automatiques depuis les harnesses populaires et leaderboards. Résout la fragmentation des résultats dispersés en formats incompatibles.

Évaluations Benchmarks Open source

SIG

HYP

arXiv cs.CL·15 juin

The Coin Flip Judge? Reliability and Bias in LLM-as-a-Judge Evaluation

Étude de fiabilité sur LLM-as-a-Judge : GPT-4o-mini et GPT-4.1-mini montrent une instabilité importante avec 13,6% de retournements de préférence en moyenne, 28% des questions dépassant 20% de flip rate. Biais de position détecté (72% A-majority). Accord inter-juges à 76% (κ=0,51). 11 essais répétés nécessaires pour 95% de confiance.

Évaluations GPT OpenAI

SIG

HYP