Page 40 sur 192

ToutHaut signalRécent

7679 articles

LinTree: Improving LLM Reasoning with Explicitly Structured Search Histories

LinTree améliore le raisonnement des LLM en représentant explicitement la structure arborescente des traces de recherche. Les chercheurs montrent que l'accès brut à l'historique de recherche ne suffit pas à surpasser la recherche heuristique guidée par LLM. Ajouter des pointeurs parents pour expliciter la structure arborescente améliore les performances sur Blocks World, Navigation et Sokoban.

Raisonnement Papers

SIG

HYP

arXiv cs.LG·1 juin

NumLeak: Public Numeric Benchmarks as Latent Labels in Foundation Models

NumLeak mesure la mémorisation de benchmarks publics dans les LLM frontier. Les modèles rappellent les données Fama-French (r=0.97-0.99), chômage US et température NOAA avec haute fidélité. Sur données récentes non vues, le taux de parsing chute à 21-57% mais r reste ~0.99 pour les mois répondus. Une défense prompt-système bloque 99.8% des attaques.

Benchmarks Évaluations Sécurité IA

SIG

HYP

arXiv cs.CL·1 juin

Exploring Autonomous Agentic Data Engineering for Model Specialization

Étude arXiv sur l'ingénierie de données autonome par agents LLM pour la spécialisation de modèles. GPT-5.2 construit un curriculum d'entraînement qui améliore un modèle étudiant de 57,29% via adaptation itérative des données. Formalise une nouvelle tâche évaluant les LLM comme ingénieurs de données autonomes.

Agents IA Fine-tuning Benchmarks

SIG

HYP

arXiv cs.AI·1 juin

Planner-Centric Reinforcement Learning for Deep Research with Structure-Aware Reward

DecomposeR, un framework d'IA pour la recherche approfondie, entraîne un modèle Qwen3-8B via deux étapes de renforcement : planification (graphes acycliques typés) puis exécution. Amélioration de 5,1-8,0 points sur benchmarks long-form grâce à une meilleure décomposition des requêtes et synthèse.

Qwen Reinforcement learning Raisonnement

SIG

HYP

arXiv cs.CL·1 juin

Can LLM Teams Play What? Where? When?

Étude sur les équipes d'LLM jouant à ChGK (quiz de raisonnement collectif). Trois stratégies testées : Vote, Silent Team (capitaine observe réponses), Talkative Team (capitaine observe réponses + justifications). Sur 572 questions 2025, les équipes surpassent les modèles seuls (+20 points). Meilleure équipe : 44,23% accuracy, approchant la performance humaine. La communication des justifications réduit les erreurs.

Multi-agents Raisonnement Benchmarks

SIG

HYP

arXiv cs.AI·1 juin

Generating Graph-like Rules for Knowledge Graph Reasoning via Diffusion Models

GRiD, un framework basé sur les modèles de diffusion, génère des règles graph-like pour le raisonnement sur graphes de connaissances. Combine pré-entraînement supervisé et apprentissage par renforcement pour découvrir des règles complexes (cycles, branches) au-delà des chaînes simples. Évalué sur 6 benchmarks avec code open-source.

Papers Raisonnement Reinforcement learning

SIG

HYP

arXiv cs.AI·1 juin

MAVEN: Improving Generalization in Agentic Tool Calling

MAVEN est un système de raisonnement symbolique léger pour améliorer la généralisation des agents LLM dans les tâches d'appel d'outils. Évalué sur BFCL v3, TauBench, Tau2Bench, AceBench et un nouveau benchmark MAVEN-Bench, il augmente la précision de GPT-OSS-120b de 48% à 71% sans entraînement supplémentaire, avec un coût 10× inférieur aux modèles propriétaires.

Agents IA Raisonnement Benchmarks

SIG

HYP

arXiv cs.LG·1 juin

Supervised Training Rapidly Degrades Early Visual Cortex Alignment Across Biologically Plausible Learning Rules

Des réseaux de neurones non entraînés correspondent mieux au cortex visuel précoce que des réseaux entraînés. Une étude sur 720 images (THINGS) et données fMRI de 3 sujets montre qu'une époque de training réduit l'alignement V1 de 25-90% selon la règle d'apprentissage. La rétropropagation dégrade le plus (Δr = -0.080), tandis que le codage prédictif et STDP préservent mieux l'alignement (Δr ~ -0.04).

Papers Raisonnement Alignement

SIG

HYP

arXiv cs.CL·1 juin

Generating and Refining Dynamic Evaluation Rubrics for LLM-as-a-Judge

Méthode pour générer automatiquement des rubriques d'évaluation fine-grained sans annotation humaine, testée sur quatre benchmarks. Approche sans entraînement initial, puis affinement itératif via signaux de récompense meta-judge. Un générateur 14B affiné surpasse des modèles propriétaires plus grands.

Évaluations Fine-tuning Reinforcement learning

SIG

HYP

arXiv cs.AI·1 juin

Harness Updating Is Not Harness Benefit: Disentangling Evolution Capabilities in Self-Evolving LLM Agents

Étude sur l'auto-évolution des harnesses (prompts, skills, mémoires, outils) dans les agents LLM. Analyse deux capacités : harness-updating (produire des mises à jour utiles) et harness-benefit (en bénéficier). Résultats : harness-updating est indépendant de la capacité de base (Qwen3.5-9B rivalise avec Claude Opus), tandis que harness-benefit suit une courbe non-monotone (modèles mid-tier bénéficient le plus).

Agents IA Prompt engineering Benchmarks

SIG

HYP

arXiv cs.LG·1 juin

DisjunctiveNet: Neural Symbolic Learning via Differentiable Convexified Optimization Layers

DisjunctiveNet propose une méthode neuro-symbolique pour intégrer des contraintes logiques et linéaires mixtes directement dans les réseaux de neurones via des couches d'optimisation différentiables. Utilisant des relaxations convexes hiérarchiques, le framework garantit la satisfaction exacte des règles tout en maintenant la performance prédictive sur des données réelles.

Raisonnement Papers

SIG

HYP

Vercel AI Blog·1 juin

Vercel Blob now supports OIDC authentication

Vercel Blob supporte désormais l'authentification OIDC par défaut pour les nouveaux projets. Les tokens OIDC émis par Vercel sont de courte durée et rotatifs, éliminant le besoin de tokens longs durée. Les fonctions Vercel et la CLI reçoivent automatiquement le token.

Infrastructure Outils

SIG

HYP

Vercel AI Blog·31 mai

Chat SDK adds Lark and Feishu support

Vercel AI Chat SDK ajoute le support de Lark et Feishu via un nouvel adaptateur officiel. Les bots peuvent poster, éditer et supprimer des messages, streamer des réponses via l'API cardkit typewriter de Lark, envoyer des cartes interactives et réagir avec des emojis. La connexion utilise le transport WebSocket de Lark.

Outils Agents IA Génération de code

SIG

HYP

GitHub Trending·31 mai

<svg aria-hidden="true" data-component="Octicon" height="16" viewBox="0 0 16 16" version="1.1" width="16" data-view-component="true" class="octicon octicon-repo mr-1 tmp-mr-1 color-fg-muted"> <path d="M2 2.5A2.5 2.5 0 0 1 4.5 0h8.75a.75.75 0 0 1 .75.75v12.5a.75.75 0 0 1-.75.75h-2.5a.75.75 0 0 1 0-1.5h1.75v-2h-8a1 1 0 0 0-.714 1.7.75.75 0 1 1-1.072 1.05A2.495 2.495 0 0 1 2 11.5Zm10.5-1h-8a1 1 0 0 0-1 1v6.708A2.486 2.486 0 0 1 4.5 9h8ZM5 12.25a.25.25 0 0 1 .25-.25h3.5a.25.25 0 0 1 .25.25v3.25a.25.25 0 0 1-.4.2l-1.45-1.087a.249.249 0 0 0-.3 0L5.4 15.7a.25.25 0 0 1-.4-.2Z"></path> </svg> <span data-view-component="true" class="text-normal"> Comfy-Org /</span> ComfyUI

ComfyUI est une interface graphique modulaire pour les modèles de diffusion, offrant une API et un backend basés sur un système de nœuds et graphes pour la génération d'images.

Génération d'images Open source Outils

SIG

HYP

Reddit r/LocalLLaMA·31 mai

PolyRange: Contamination-resistant offensive-AI benchmark for web targets (that ain't a benchmark, THAT's a benchmark)

PolyRange est un benchmark de cybersécurité IA générant dynamiquement des cibles web fraîches pour chaque évaluation, éliminant la contamination de corpus d'entraînement. L'auteur adresse le consensus des labs (Anthropic, OpenAI, DeepMind) : les benchmarks statiques sont saturés et les défenses réelles manquent. MIT-licensed, indépendant du projet commercial de l'auteur.

Benchmarks Sécurité IA Évaluations

SIG

HYP

Vercel AI Blog·31 mai

MiniMax M3 on AI Gateway

MiniMax M3, premier modèle de MiniMax avec fenêtre contextuelle de 1M tokens et multimodalité native, est désormais disponible sur Vercel AI Gateway. M3 excelle en ingénierie logicielle, utilisation d'outils en ligne de commande et navigation web agentique, optimisé pour la collaboration multi-tours.

Agents IA Génération de code Vision

SIG

HYP

Reddit r/LocalLLaMA·31 mai

mudler/Qwen3.6-35B-A3B-Claude-4.7-Opus-Reasoning-Distilled-APEX-MTP-GGUF just released !

Mudler publie des quantifications APEX GGUF du modèle Qwen3.6-35B-A3B-Claude-4.7-Opus-Reasoning-Distilled avec tête MTP (multi-token prediction) intégrée. Les fichiers activent le décodage spéculatif auto-contenu via llama.cpp sans modèle brouillon séparé. Taille +2,5% vs version non-MTP, tête MTP quantifiée Q8_0 pour précision de draft élevée.

Qwen Génération de code Open source

SIG

HYP

Simon Willison·30 mai

How we contain Claude across products

Anthropic publie une documentation détaillée sur ses techniques de sandboxing pour Claude.ai, Claude Code et Cowork. Utilise gVisor (Claude.ai), Seatbelt/Bubblewrap (Claude Code local), et VMs complètes (Cowork). Inclut process sandboxes, limites filesystem et contrôles d'egress pour empêcher l'exfiltration de credentials.

Claude Claude Code Anthropic

SIG

HYP

Reddit r/LocalLLaMA·30 mai

nvidia/Qwen3.6-35B-A3B-NVFP4 · Hugging Face

NVIDIA a quantifié le modèle Qwen3.6-35B-A3B d'Alibaba en NVFP4 (4 bits) via Model Optimizer. La réduction passe de 16 à 4 bits par paramètre, divisant par 3,06x la mémoire GPU et l'espace disque. Les benchmarks (MMLU Pro, GPQA Diamond, etc.) montrent une dégradation minimale : 85,6→85,0 sur MMLU Pro.

Qwen Fine-tuning Benchmarks

SIG

HYP

Hacker News (AI)·30 mai

OpenRouter raises $113M Series B

OpenRouter lève 113 millions de dollars en Series B. La plateforme d'agrégation d'API LLM renforce son financement pour étendre son offre de modèles et ses capacités d'infrastructure.

OpenAI Business Infrastructure

SIG

HYP

The Decoder·30 mai

Making AI chatbots helpful weakens their ability to simulate human behavior, large-scale study finds

Une étude à grande échelle (208 000 participants, 26 millions de réponses) montre que l'entraînement rendant les modèles de langage utiles affaiblit leur capacité à reproduire le comportement humain. L'effet s'aggrave à chaque génération. Les profils démographiques (persona trick) n'apportent aucun bénéfice significatif.

Alignement Évaluations Papers

SIG

HYP

The Decoder·30 mai

OpenAI's Codex can now operate your Windows PC autonomously, hunting bugs and testing apps on its own

OpenAI déploie Codex sur Windows 11 avec une fonction « Computer Use » permettant à l'IA de contrôler autonomement les programmes, tester des applications et détecter des bugs. L'app ChatGPT mobile permet de lancer et surveiller ces tâches à distance.

OpenAI Génération de code Agents IA

SIG

HYP

ActuIA·29 mai

Anthropic à 965 Md$ : série H de 65 milliards, aucun fonds public européen au tour

Anthropic lève 65 milliards de dollars en série H, portant sa valorisation à 965 milliards. Aucun fonds public européen n'a participé au tour de financement.

Anthropic Financements Business

SIG

HYP

GitHub Trending·29 mai

<svg aria-hidden="true" data-component="Octicon" height="16" viewBox="0 0 16 16" version="1.1" width="16" data-view-component="true" class="octicon octicon-repo mr-1 tmp-mr-1 color-fg-muted"> <path d="M2 2.5A2.5 2.5 0 0 1 4.5 0h8.75a.75.75 0 0 1 .75.75v12.5a.75.75 0 0 1-.75.75h-2.5a.75.75 0 0 1 0-1.5h1.75v-2h-8a1 1 0 0 0-.714 1.7.75.75 0 1 1-1.072 1.05A2.495 2.495 0 0 1 2 11.5Zm10.5-1h-8a1 1 0 0 0-1 1v6.708A2.486 2.486 0 0 1 4.5 9h8ZM5 12.25a.25.25 0 0 1 .25-.25h3.5a.25.25 0 0 1 .25.25v3.25a.25.25 0 0 1-.4.2l-1.45-1.087a.249.249 0 0 0-.3 0L5.4 15.7a.25.25 0 0 1-.4-.2Z"></path> </svg> <span data-view-component="true" class="text-normal"> anthropics /</span> claude-code

Claude Code est un outil de codage agentique en ligne de commande qui comprend votre base de code et exécute des tâches routinières, explique du code complexe et gère les workflows Git via des commandes en langage naturel.

Claude Claude Code Agents IA

SIG

HYP

Vercel AI Blog·29 mai

Function invocations now billed per unit

Vercel passe à une facturation à l'unité pour les invocations de fonction. Nouveau tarif : $0,0000006 par invocation (anciennement $0,60 par million) pour les clients Pro. Le changement prend effet au prochain cycle de facturation.

Infrastructure Business

SIG

HYP

Le Big Data·29 mai

Anthropic dépasse 965 milliards de dollars grâce à sa Série H

Anthropic lève 65 milliards de dollars en Série H, atteignant une valorisation de 965 milliards de dollars. L'une des plus importantes levées de fonds du secteur IA.

Anthropic Financements Business

SIG

HYP

Reddit r/LocalLLaMA·29 mai

Liquid AI releases LFM2.5-8B-A1B

Liquid AI publie LFM2.5-8B-A1B, modèle 8B avec contexte 128K, 38T tokens de pré-entraînement et RL large-scale. Vocabulaire doublé pour langues non-latines. Supporte chaînage d'outils et tâches complexes sur laptop d'entrée de gamme.

Open source Génération de code Agents IA

SIG

HYP

arXiv cs.CL·29 mai

S3Mem: Structured Spatiotemporal Scene-Event Memory for Long-Horizon Interactive Question Answering

S3MEM propose un cadre de mémoire épisodique structurée pour les agents interactifs long-horizon. Le système structure les trajectoires en unités mémoire organisées et utilise une récupération sensible aux ancres pour améliorer la réponse aux questions spatiotemporelles. Évalué sur Crafter, Jericho, SciWorld et ALFWorld, S3MEM surpasse RAG vanilla et Graph-NoReader en précision tout en utilisant moins de tokens.

RAG Agents IA Raisonnement

SIG

HYP

arXiv cs.LG·29 mai

Bridging Chemists and AI: An Expert-Augmented Framework for Interpretable Route Evaluation

Framework hybride ML-expertise pour évaluer les routes de synthèse organique. Modèle DeepSets entraîné sur distance d'édition d'arbres, affiné avec annotations chimistes. Produit scores quantitatifs et catégories explicables (Good/Plausible/Bad). Corrélation Spearman 0.78, précision top-1 60.2% vs 17.5% baseline.

Papers Benchmarks Fine-tuning

SIG

HYP

arXiv cs.AI·29 mai

Rethinking Literature Search Evaluation: Deep Research Helps, and Human Citation Lists Are Not a Ground Truth

Étude de la recherche bibliographique à grande échelle : un pipeline Deep Research augmente le recall de 20% à 80% sur RollingEval-Jun25 (250 articles). Analyse critique des listes de références humaines comme ground truth : seulement 51% jugées modérément pertinentes vs 86-88% pour les meilleurs ré-rankers IA. Les humains citent 2,5x plus leurs collaborateurs directs.

RAG Évaluations Benchmarks

SIG

HYP

arXiv cs.LG·29 mai

One Mask to Rule Them All: On Hidden Facts after Editing and How to Find Them

Les méthodes d'édition de connaissances ROME et MEMIT modifient les poids MLP des transformers. Les auteurs découvrent qu'elles ciblent un sous-ensemble commun de poids via un masque binaire qui annule 80% des édits en entraînement et 70% en test. Le mécanisme supprime plutôt que réécrit les connaissances, expliquant pourquoi les changements ne se propagent pas aux faits connexes.

Papers Raisonnement Sécurité IA

SIG

HYP

arXiv cs.AI·29 mai

Paper Agents, Paper Gains: An Empirical Analysis of DeFi Investment Agents

Analyse empirique de 11 agents DeFi sur Solana : les treasuries retiennent 30M$ de gains papier tandis que les détenteurs de tokens ont perdu 191,7M$. Le top 1% des portefeuilles capture 81,4% des gains. Les valuations token sont déconnectées des fondamentaux (ratios market-cap/AUM > 10 000x). Les rendements médians sont négatifs sur toutes les plateformes.

Agents IA Benchmarks Business

SIG

HYP

arXiv cs.CL·29 mai

Text-Preserving Lossy Text Compression: A Study of Strategic Deletion and LLM Reconstruction

Étude de compression textuelle lossy où un encodeur supprime stratégiquement des parties du texte et un LLM reconstruit le contenu original. Benchmark de 6 stratégies de suppression (uniforme, fréquence, entropie, optimisation LP, hybrides) sur BBC News. WordFreq offre le meilleur rapport coût/performance ; les méthodes sémantiques brillent en compression modérée ; QLoRA fine-tuning rivalise avec Gemini 2.0 Flash.

Benchmarks Raisonnement Fine-tuning

SIG

HYP

arXiv cs.CL·29 mai

How Consistent Are LLM Agents? Measuring Behavioral Reproducibility in Multi-Step Tool-Calling Pipelines

Étude empirique de la reproductibilité comportementale des agents LLM avec tool-calling. Les chercheurs mesurent si un agent sélectionne les mêmes outils, dans le même ordre, avec les mêmes paramètres, lors d'invocations répétées identiques. Focus sur les interfaces structurées avec paramètres typés et effets secondaires.

Agents IA Benchmarks Sécurité IA

SIG

HYP

arXiv cs.AI·29 mai

The Confidence Shortcut: A Reasoning Failure Mode of Masked Diffusion Models

Les modèles de diffusion masqués (MDMs) avec décodage basé sur la confiance échouent sur les tâches de raisonnement complexe. L'entraînement aligné sur la confiance amplifie les erreurs d'un ordre de magnitude sur l'addition multi-chiffres. Le masquage aléatoire préserve mieux les trajectoires logiques nécessaires au raisonnement.

Raisonnement Papers Benchmarks

SIG

HYP

arXiv cs.AI·29 mai

Review Arcade: On the Human Alignment and Gameability of LLM Reviews

Étude empirique sur les revues générées par LLM pour articles scientifiques (données ACL Rolling Review 2025). Résultats : alignement limité entre avis LLM et humains, variation substantielle selon les prompts/modèles. Les auteurs peuvent « gamifier » les revues LLM via révisions itératives, augmentant les scores de 35% des articles testés.

Évaluations Benchmarks Alignement

SIG

HYP

arXiv cs.AI·29 mai

Adopt $\neq$ Adapt: Longitudinal Analyses of LLM Conversations in the Wild

Analyse longitudinale de ~12 000 utilisateurs de Microsoft Bing Copilot montrant que les comportements individuels restent stables dans le temps, contrairement aux tendances au niveau population. Les utilisateurs actifs réussissent mieux et utilisent l'IA pour des tâches complexes. WildChat-4.8M sur-représente les utilisateurs expérimentés.

Évaluations Benchmarks

SIG

HYP

arXiv cs.CL·29 mai

Aryabhata 2: Scaling Reinforcement Learning for Advanced STEM Reasoning

Aryabhata 2 est un modèle de langage spécialisé en raisonnement STEM entraîné par renforcement sur GPT-OSS-20B. Développé par PhysicsWallah, il surpasse son modèle de base sur les examens JEE/NEET tout en réduisant les tokens de sortie de 64%. Évalué sur AIME, HMMT, MMLU-Pro et GPQA.

Reinforcement learning Raisonnement Benchmarks

SIG

HYP

arXiv cs.CL·29 mai

OmniRetrieval: Unified Retrieval across Heterogeneous Knowledge Sources

OmniRetrieval est un framework qui unifie la récupération d'information sur des sources hétérogènes (texte non structuré, tables relationnelles, graphes de connaissances). Il traduit les requêtes en langage naturel en requêtes natives pour chaque source, testé sur 13 datasets et 309 bases de connaissances.

RAG Recherche vectorielle Papers

SIG

HYP

Simon Willison·29 mai

datasette 1.0a31

Datasette 1.0a31 ajoute deux fonctionnalités majeures : l'exécution de requêtes d'écriture (INSERT/UPDATE/DELETE) et la sauvegarde de requêtes stockées (privées ou partagées). Les permissions contrôlent l'accès aux opérations sensibles comme CREATE TABLE.

Outils Open source

SIG

HYP