Page 33 sur 192

ToutHaut signalRécent

7679 articles

<svg aria-hidden="true" data-component="Octicon" height="16" viewBox="0 0 16 16" version="1.1" width="16" data-view-component="true" class="octicon octicon-repo mr-1 tmp-mr-1 color-fg-muted"> <path d="M2 2.5A2.5 2.5 0 0 1 4.5 0h8.75a.75.75 0 0 1 .75.75v12.5a.75.75 0 0 1-.75.75h-2.5a.75.75 0 0 1 0-1.5h1.75v-2h-8a1 1 0 0 0-.714 1.7.75.75 0 1 1-1.072 1.05A2.495 2.495 0 0 1 2 11.5Zm10.5-1h-8a1 1 0 0 0-1 1v6.708A2.486 2.486 0 0 1 4.5 9h8ZM5 12.25a.25.25 0 0 1 .25-.25h3.5a.25.25 0 0 1 .25.25v3.25a.25.25 0 0 1-.4.2l-1.45-1.087a.249.249 0 0 0-.3 0L5.4 15.7a.25.25 0 0 1-.4-.2Z"></path> </svg> <span data-view-component="true" class="text-normal"> microsoft /</span> RD-Agent

Microsoft publie RD-Agent, un système d'IA autonome pour automatiser les processus R&D en data science et ML. L'agent pilote expériences, analyse de données et itérations de modèles sans intervention humaine.

Agents IA Multi-agents Open source

SIG

HYP

arXiv cs.AI·17 juin

Dissecting model behavior through agent trajectories

Étude de l'alignement harness-modèle via 138k trajectoires d'agents. Les auteurs introduisent Simple Strands Agent (SSA), un harness générique testant Claude, Gemini, GPT, Grok, Qwen sur SWE-Pro, SWE-Verified et Terminal-Bench-2. Au-delà des scores pass@1, l'analyse révèle des différences comportementales fines : fréquence d'édition, activité de test, transitions de phase.

Agents IA Benchmarks Génération de code

SIG

HYP

arXiv cs.LG·17 juin

Toward Controllable Catalyst Inverse Design via Large-Scale Autoregressive Pretraining

Modèle génératif basé sur GPT pour la conception inverse de catalyseurs hétérogènes. Préentraîné sur 133 millions de structures, affiné sur 460 000 structures optimisées. Atteint 98% de validité structurelle, 95% de validité d'optimisation, et améliore l'efficacité de criblage de 1,5 à 4 fois pour la découverte de catalyseurs ciblés.

Papers Benchmarks Fine-tuning

SIG

HYP

arXiv cs.CL·17 juin

Environment-Grounded Automated Prompt Optimization for LLM Game Agents

Framework automatisé d'optimisation de prompts pour agents LLM en environnements interactifs. Décompose le pipeline observation-action en deux agents (descripteur et sélection), affine itérativement via boucle évolutive guidée par les retours environnementaux. Sur BabyAI/BALROG : amélioration de 0% à 72,5% sur PutNext sans fine-tuning.

Agents IA Prompt engineering Reinforcement learning

SIG

HYP

arXiv cs.AI·17 juin

DeepInsight: A Unified Evaluation Infrastructure Across the Physical AI Stack

DeepInsight est une infrastructure d'évaluation unifiée pour les systèmes Physical AI, couvrant trois ordres de magnitude d'opérateurs (du décodage de modèles fondamentaux à la simulation physique complète). Elle utilise trois abstractions invariantes (task, resource, result) pour préserver l'hétérogénéité des régimes tout en permettant le diagnostic cross-layer des régressions.

Raisonnement Évaluations Robotique

SIG

HYP

arXiv cs.AI·17 juin

SkillChain-Gym: A Benchmark for Reskilling-Aware Production-Inventory Control under Disruptions

SkillChain-Gym est un benchmark pour la planification de production intégrant la gestion des compétences des travailleurs. L'environnement simule la dégradation des certifications, la formation et les contraintes de capacité. Évaluation de politiques de production, d'adaptation réactive et d'assurance statique sur 60 périodes avec métriques opérationnelles et de résilience.

Benchmarks Reinforcement learning Agents IA

SIG

HYP

arXiv cs.AI·17 juin

WallZero: Mastering the Game of WallGo with Strategic Analysis

WallZero, un agent basé sur AlphaZero, maîtrise WallGo, jeu de stratégie popularisé par la série Netflix The Devil's Plan (2025). Sur un plateau 7×7, l'agent bat des joueurs professionnels de Go avec 1.98x plus de territoire en moyenne. Les auteurs analysent l'équité du jeu et identifient les stratégies clés.

Reinforcement learning Benchmarks Papers

SIG

HYP

arXiv cs.AI·17 juin

DiagFlowBench: Evaluating How Language Models Handle Off-Procedure Inputs in Grounded Diagnostic Dialogue

DiagFlowBench évalue comment les modèles de langage gèrent les requêtes hors-procédure dans le diagnostic industriel. Un dataset de 1 676 conversations multi-tours basées sur 50 flowcharts de diagnostic révèle que les modèles sélectionnent souvent une étape réelle mais inadéquate plutôt que d'halluciner, créant une vulnérabilité : des conseils plausibles mais incorrects.

Benchmarks Évaluations Raisonnement

SIG

HYP

arXiv cs.LG·17 juin

Reconfigurable Computing Challenge: Transformer for Jet Tagging on Versal AI Engines

Implémentation d'un transformer quantifié en entiers pour le tagging de jets sur AMD Versal AI Engine (AIE). Framework logiciel réutilisable convertissant automatiquement des modèles Python en code Vitis pour déploiement en systèmes temps réel contraints. Code open-source disponible.

Vision Benchmarks Open source

SIG

HYP

arXiv cs.CL·17 juin

GameCraft-Bench: Can Agents Build Playable Games End-to-End in a Real Game Engine?

GameCraft-Bench évalue la capacité des agents de code à générer des jeux jouables end-to-end dans Godot. Le benchmark contient 140 tâches sur 15 familles de jeux. Les meilleurs agents atteignent seulement 41,46% de succès, révélant des difficultés à produire des jeux complets avec contenu suffisant et retours visuels cohérents.

Génération de code Agents IA Benchmarks

SIG

HYP

arXiv cs.AI·17 juin

LongWebBench: Evaluating Structural and Functional Webpage Generation in Long-Horizon Settings

LongWebBench est un benchmark évaluant la génération de pages web longues par des modèles vision-langage. Il contient 490 pages réelles pour l'évaluation structurelle et 507 tâches interactives sur 129 pages. Les expériences montrent que la fidélité structurelle se dégrade avec la longueur et que les générations visuellement plausibles échouent souvent à supporter les interactions multi-étapes.

Vision Benchmarks Agents IA

SIG

HYP

arXiv cs.LG·17 juin

Probing, Fusion, and Trustworthiness: A Systematic Evaluation of Foundation Model Representations for Multimodal Cancer Analysis

Évaluation systématique de représentations de modèles de fondation (5 FMs) sur des tâches de pathologie computationnelle utilisant images entières de lames et profils transcriptomiques (cohorts IH-BC, IH-NSCLC). Fusion multimodale améliore les performances quand aucune modalité ne domine. Prédiction conforme montre que le diagnostic correct reste récupérable dans 90% des cas d'erreur.

Vision Benchmarks Sécurité IA

SIG

HYP

arXiv cs.AI·17 juin

FlowRAG: Synergizing Explicit Reasoning via Frequency-Aware Multi-Granularity Graph Flow

FlowRAG améliore la récupération augmentée par graphe (GraphRAG) via un graphe hétérogène multi-granularité (passages, résumés, phrases, entités) et un module de flux pondéré par fréquence. Cela renforce le rappel sémantique et le raisonnement explicite sur les tâches multi-sauts complexes.

RAG Raisonnement Benchmarks

SIG

HYP

Vercel AI Blog·17 juin

Introducing eve

Vercel lance eve, un framework open-source pour construire et déployer des agents en production. eve fournit l'infrastructure prête à l'emploi (gestion des modèles, fallbacks, logging) ; les développeurs définissent uniquement le comportement via des fichiers (agent.ts, instructions.md, tools). Inspiré par Next.js pour le web, eve standardise la construction d'agents comme Next.js l'a fait pour les applications web.

Agents IA Open source Outils

SIG

HYP

arXiv cs.AI·17 juin

SEAGym: An Evaluation Environment for Self-Evolving LLM Agents

SEAGym est un environnement d'évaluation pour mesurer les mises à jour du harnais d'agents LLM auto-évolutifs (prompts, mémoire, outils, boucle interaction). L'étude compare ACE, TF-GRPO et AHE sur Terminal-Bench 2.0 et HLE, révélant que les mises à jour fréquentes ne garantissent pas l'amélioration en validation et que la diversité des données affecte la fiabilité.

Agents IA Reinforcement learning Évaluations

SIG

HYP

arXiv cs.CL·17 juin

When English Isn't the Best Teacher: Source Language Effects in Cross-Lingual In-Context Learning

Étude empirique sur le transfert cross-lingue en In-Context Learning (ICL) couvrant 7 tâches, 6 modèles et langues typologiquement diverses. Les résultats montrent que les attentes basées sur le fine-tuning ne s'appliquent pas systématiquement en régime ICL, et proposent des heuristiques alternatives pour sélectionner les langues sources.

Benchmarks

SIG

HYP

Vercel AI Blog·17 juin

Introducing Vercel Connect

Vercel Connect, en bêta publique, remplace les tokens longs durée stockés par un échange de credentials à l'exécution. Les agents obtiennent des credentials éphémères et limités au contexte de chaque tâche via des connecteurs réutilisables (Slack, GitHub, etc.), éliminant les risques de fuite de tokens permanents.

Agents IA Outils Infrastructure

SIG

HYP

OpenAI Blog·17 juin

Introducing LifeSciBench

OpenAI lance LifeSciBench, un benchmark expert pour évaluer la capacité des systèmes IA à traiter des tâches réelles de recherche en sciences de la vie.

Benchmarks OpenAI Évaluations

SIG

HYP

Vercel AI Blog·17 juin

Vercel Passport is now in Public Beta

Vercel Passport, outil de contrôle d'accès pour déploiements, passe en bêta publique. Centralise l'authentification via Okta, Auth0 ou OIDC. Tarif : 100 $/projet/mois, utilisateurs externes illimités.

Outils Infrastructure

SIG

HYP

Vercel AI Blog·16 juin

Vercel for Enterprise Apps and Agents

Vercel lance une plateforme Enterprise Apps and Agents pour déployer des agents IA en interne en toute sécurité. Vercel Passport authentifie les accès via les fournisseurs d'identité (Okta, Entra, Auth0), tandis qu'une solution de gestion des credentials consolide OAuth, OIDC et l'injection de secrets.

Agents IA Infrastructure Sécurité IA

SIG

HYP

Simon Willison·16 juin

datasette 1.0a34

Datasette 1.0a34 ajoute des outils pour insérer, modifier et supprimer des lignes directement dans l'interface web. Ces fonctionnalités, longtemps attendues, sont disponibles sur les pages de table et de ligne, inspirées par Datasette Agent qui supporte désormais les écritures SQL.

Outils Open source

SIG

HYP

Reddit r/LocalLLaMA·16 juin

Scaling former VibeThinker-1.5B to 3B — now it reaches frontier math & coding performance

VibeThinker-3B atteint 94.3 sur AIME'26, 80.2 sur LiveCodeBench v6 et 96.1% de réussite sur des concours LeetCode inédits. Le modèle démontre que les petits modèles peuvent atteindre des performances de frontier en raisonnement mathématique et codage grâce à des signaux de vérification clairs.

Raisonnement Benchmarks Génération de code

SIG

HYP

The Decoder·16 juin

DeepSeek takes outside money for the first time at a $50 billion valuation

DeepSeek lève 50 milliards de yuans (7,4 milliards USD) lors de son premier tour de financement externe, atteignant une valorisation de 50 milliards USD.

DeepSeek Financements Business

SIG

HYP

arXiv cs.CL·16 juin

Are Online Skill and Memory Modules Always Worth Their Tokens? A Budget-Constrained Study of Web Agents

Étude comparative de modules de mémoire et compétences pour agents web. Sur WebArena et WorkArena, un baseline vanilla avec budget token équivalent égale ou surpasse AWM, ASI et ReasoningBank. Résultats sur Gemini 3 Flash, GPT-4o-mini, Qwen 3.6-27B montrent que les gains apparents disparaissent face à un acteur augmenté du même budget.

Agents IA Benchmarks Raisonnement

SIG

HYP

arXiv cs.CL·16 juin

A Practical Evaluation Method for Long-Form Simultaneous Speech-to-Speech Translation

Nouvelle méthode d'évaluation pratique pour la traduction simultanée parole-à-parole (SimulS2ST) sur longs énoncés continus. Utilise ASR, alignement forcé et embeddings de phrases pour récupérer timestamps et aligner texte cible aux phrases source, puis calcule latence et qualité (YAAL, xCOMET) au niveau phrase. Révèle accumulation substantielle de latence sur longs discours.

Voix Évaluations Benchmarks

SIG

HYP

arXiv cs.CL·16 juin

Can Agents Read the Room? Benchmarking Visual Social Intelligence in Multimodal Simulation

Benchmark AgentViSS évalue l'intelligence sociale visuelle d'agents multimodaux dans des simulations sociales. 240 scénarios, 585 rôles, 2340 instances testent si les MLLMs utilisent indices visuels (expressions, posture, regard) pour guider interactions. Sept modèles évalués montrent écart : expression et gestion de conflits proches saturation, régulation d'interaction et résultats visuels restent difficiles.

Benchmarks Vision Agents IA

SIG

HYP

arXiv cs.AI·16 juin

S1-DeepResearch: Beyond Search, Toward Real-World Long-Horizon Research Agents

S1-DeepResearch propose un paradigme unifié de construction de trajectoires pour les agents de recherche profonde, combinant QA fermée et exploration ouverte. Le modèle 32B atteint des performances SOTA parmi les modèles open-source sur 20 benchmarks couvrant raisonnement complexe, synthèse de connaissances, génération de rapports et compréhension de fichiers.

Agents IA Raisonnement Benchmarks

SIG

HYP

arXiv cs.CL·16 juin

Context Compression Is Not One Thing: Readable Symbolic Re-expression vs. Coherent Summary at Matched Budget

Telegraph English, un format symbolique lisible, réécrit les passages récupérés en déclarations entité-relation structurées pour la compression de contexte. Sur MuSiQue, TwoWiki et HotpotQA, il surpasse trois baselines à budget égal (suppression, troncature, sous-échantillonnage) de 13-20 points F1, et dépasse les résumés en prose cohérente sur le dataset le plus difficile.

RAG Raisonnement Benchmarks

SIG

HYP

arXiv cs.LG·16 juin

QPILOTS: Efficient Test-Time Q-Steering for Flow Policies

QPILOTS optimise les politiques de flow-matching et diffusion en temps d'inférence via Q-steering. La méthode projette les actions bruitées intermédiaires vers des estimations finales avant d'évaluer le critique, évitant l'instabilité numérique. Résultats : 90% de taux de succès sur 50 tâches offline-to-online, et surpasse les approches existantes sur 6 tâches de manipulation avec modèles VLA gelés.

Reinforcement learning Agents IA Raisonnement

SIG

HYP

arXiv cs.AI·16 juin

Towards End-to-End Automation of AI Research

The AI Scientist automatise l'intégralité du cycle de recherche : génération d'idées, code, expériences, analyse de données, rédaction manuscrite et peer review. Un manuscrit généré a passé la première sélection d'un workshop majeur (taux d'acceptation 70%). Le système utilise des foundation models dans une architecture multi-agents.

Agents IA Multi-agents Papers

SIG

HYP

arXiv cs.LG·16 juin

StarOR: Synergizing Tree Search and Test-Time Reinforcement Learning for Optimization Modeling

StarOR couple la recherche arborescente (MCTS) avec l'apprentissage par renforcement au moment de l'inférence pour la modélisation d'optimisation. Le système décompose le processus en quatre étapes, affine un adaptateur LoRA via GRPO à chaque nœud, et utilise un système de récompense multi-facettes sans labels. Résultats SOTA sur cinq benchmarks avec backbone 4B.

Raisonnement Reinforcement learning Fine-tuning

SIG

HYP

arXiv cs.LG·16 juin

Rational Sparse Autoencoder

Les autoencodeurs creux (SAE) pour l'interprétabilité mécaniste utilisent des activations fixes (ReLU, JumpReLU, TopK). Cet article introduit le Rational Sparse Autoencoder (RSAE) qui remplace l'activation par une fonction rationnelle entraînable. Le RSAE améliore la reconstruction et la parcimonie sur trois modèles de langage open-weight sans sacrifier l'interprétabilité.

Papers Évaluations Open source

SIG

HYP

arXiv cs.AI·16 juin

Towards Verifiable Agentic Data Science: Solving Irregular TSQA Via Tool-Grounded Reasoning

IRTS-ToolBench, un benchmark de 1 700 questions sur 10 types de tâches et 13 domaines, évalue comment les LLM et agents IA traitent les séries temporelles irrégulières (asynchrones, valeurs manquantes informatives, fréquences variables). Comble le fossé entre benchmarks TSQA existants (données régulières) et déploiements réels.

Agents IA Benchmarks Raisonnement

SIG

HYP

arXiv cs.LG·16 juin

Exploring Starts Are Not Enough: Counterexamples and a Fix for Monte Carlo Exploring Starts

Étude des propriétés de convergence de Monte Carlo Exploring Starts (MCES) en apprentissage par renforcement tabulaire. Les auteurs construisent des contre-exemples montrant que MCES peut converger vers des solutions sous-optimales, même avec exploration initiale. Une modification basée sur l'ajustement des taux d'apprentissage par fréquence de mise à jour garantit la convergence à l'optimalité.

Reinforcement learning Papers Benchmarks

SIG

HYP

arXiv cs.CL·16 juin

Pepti-Agent: An AI Agent for Peptide Design and Optimization

Pepti-Agent est un framework d'IA pour la conception de peptides thérapeutiques utilisant le Model Context Protocol (MCP). Un contrôleur LLM orchestre des outils indépendants : génération via PeptideGPT, prédiction de propriétés (solubilité, hémolytique, fouling) via ProtBERT, et mutation résidu par résidu. Le système trace chaque décision pour permettre le benchmarking multi-objectif et la validation expérimentale.

Agents IA MCP Raisonnement

SIG

HYP

arXiv cs.CL·16 juin

T-Mem: Memory That Anticipates, Not Archives

T-Mem propose une architecture de mémoire conversationnelle long-terme qui dépasse les limites de similarité lexicale et vectorielle. Le système introduit des « triggers » (déclencheurs) écrits au moment du stockage pour couvrir deux modes de rappel : descriptif (surface features) et associatif (arcs sémantiques latents). T-Mem atteint l'état de l'art sur LoCoMo et LoCoMo-Plus.

Agents IA RAG Benchmarks

SIG

HYP

arXiv cs.CL·16 juin

AthDGC: An Open Diachronic Greek Treebank with Indo-European Parallels

AthDGC est un treebank de dépendances en grec ancien et moderne couvrant 8 périodes (archaïque à moderne) sous schéma PROIEL XML 2.0. Alignement multilingue du Nouveau Testament avec latin, gotique, slavon et arménien. Annotation via Stanford Stanza, alignement phrase via LaBSE, alignement mot via multilingual-BERT. v0.4 en accès ouvert.

Benchmarks Open source Embeddings

SIG

HYP

Hacker News (AI)·15 juin

Prediction and Entropy of Printed English - Claude Shannon (1950) [pdf]

Republication d'un article fondateur de Claude Shannon (1950) sur la prédictibilité et l'entropie de l'anglais écrit. Travail théorique classique en théorie de l'information, base des modèles de langage modernes.

Papers Raisonnement

SIG

HYP

Simon Willison·15 juin

datasette-agent 0.3a0

datasette-agent 0.3a0 introduit execute_write_sql, un nouvel outil permettant aux agents IA de modifier les bases de données avec approbation utiliselle et gestion des permissions. Exemple : insertion de données sur des observations de pélicans avec confirmation avant exécution.

Agents IA Outils Open source

SIG

HYP

Vercel AI Blog·15 juin

Vercel Functions can now run up to 30 minutes

Vercel Functions supporte désormais des exécutions jusqu'à 30 minutes (vs 800 secondes) pour Node.js et Python sur les plans Pro/Enterprise. Fluid Compute facture uniquement le CPU actif, idéal pour les appels LLM, requêtes BD et traitement de documents.

Infrastructure Agents IA Raisonnement

SIG

HYP