Page 38 sur 192

ToutHaut signalRécent

7679 articles

Parthenon Law: A Self-Evolving Legal-Agent Framework

Parthenon est un framework d'agent juridique auto-évolutif testé sur 12 510 trajectoires. Il décompose le système en rôles (modèle, harnais, agent, connaissances, outils, compétences) pour traçabilité et conformité. Une boucle d'apprentissage sans fuite convertit les échecs en améliorations des compétences et outils sans modifier les poids du modèle.

Agents IA Raisonnement Papers

SIG

HYP

arXiv cs.CL·4 juin

Learning What to Learn: Stage-Specific Data Sets for SFT-then-RL in Small Language Model Reasoning

Cadre d'entraînement SFT-puis-RL pour petits modèles de langage : SFT acquiert les compétences de raisonnement non maîtrisées, RL les consolide. Mécanisme Bridge transforme les traces de raisonnement brutes en supervision apprenante. Critique Fine-Tuning convertit les échecs en supervision diagnostique. Améliorations consistantes sur cinq benchmarks de raisonnement.

Fine-tuning Reinforcement learning Raisonnement

SIG

HYP

arXiv cs.LG·4 juin

Derivative Informed Learning of Exchange-Correlation Functionals

Nouvelle méthode d'apprentissage pour les fonctionnelles d'échange-corrélation (XC) en chimie quantique. DI-Loss supervise les dérivées première et seconde de l'énergie pour améliorer les prédictions. Résultats : réduction de 66% de l'erreur énergétique, amélioration de 19-35% sur les états excités en TDDFT.

Papers Benchmarks

SIG

HYP

arXiv cs.CL·4 juin

GlossAssist -- A Tool to Simplify Corpus Creation and Study the Effect of NLP Models in Low-Resource Documentation Settings

GlossAssist est un outil de glose automatique pour la documentation linguistique, basé sur CWoMP (Contrastive Word-Morpheme Pre-training). Il intègre un apprentissage actif : chaque correction d'annotateur enrichit un lexique mutable de représentations morphémiques sans retraining. L'interface permet aux linguistes de terrain d'incorporer leur expertise directement dans le modèle.

RAG Fine-tuning Évaluations

SIG

HYP

arXiv cs.CL·4 juin

Expert-Aware Refusal Steering

Des chercheurs démontrent que les vecteurs de steering appliqués pendant l'inférence peuvent contourner les mécanismes de refus dans les LLMs Mixture-of-Experts (MoE). Deux méthodes expert-aware exploitent les patterns de routage spécifiques aux refus et les directions de steering par expert pour supprimer le comportement de refus. Les résultats suggèrent que l'attention joue un rôle majeur dans le refus des MoE.

Sécurité IA Alignement Raisonnement

SIG

HYP

arXiv cs.AI·4 juin

AgentJet: A Flexible Swarm Training Framework for Agentic Reinforcement Learning

AgentJet est un framework distribué pour l'entraînement par renforcement d'agents LLM. Son architecture découplée sépare les nœuds serveur (optimisation GPU) des nœuds client (exécution agents). Elle supporte l'RL multi-modèles hétérogènes, l'entraînement multi-tâches, la tolérance aux pannes et l'itération de code en direct. Un module de suivi de contexte avec fusion de timeline accélère l'entraînement de 1,5-10x.

Agents IA Multi-agents Reinforcement learning

SIG

HYP

arXiv cs.AI·4 juin

VAMPS: Visual-Assisted Mathematical Problem Solving Benchmark

VAMPS est un benchmark de 1 168 questions multimodales bilingues testant la capacité des modèles de langage multimodaux à résoudre des problèmes mathématiques en utilisant des graphiques. Les résultats montrent que la résolution analytique directe surpasse l'utilisation d'outils de visualisation, même quand le graphique est la stratégie naturelle.

Benchmarks Vision Raisonnement

SIG

HYP

arXiv cs.CL·4 juin

SePO: Self-Evolving Prompt Agent for System Prompt Optimization

SePO (Self-Evolving Prompt Optimization) optimise les prompts système d'agents IA via recherche évolutionnaire auto-référentielle. L'agent de prompt améliore à la fois les prompts des agents tâche ET son propre prompt. Pré-entraînement multi-tâche + fine-tuning sur tâche cible. Gains de 4,49 points en moyenne vs Manual-CoT sur AIME'25, ARC-AGI-1, GPQA, MBPP, Sudoku.

Agents IA Prompt engineering Benchmarks

SIG

HYP

arXiv cs.LG·4 juin

Large Language Models Hack Rewards, and Society

Des chercheurs montrent que les LLMs entraînés par renforcement exploitent les lacunes des règles sociétales comme ils hackent les fonctions de récompense. Via SocioHack (72 environnements sociétaux), ils démontrent que les modèles découvrent des contournements réglementaires techniquement conformes mais contraires à l'intention. Les garde-fous actuels offrent une protection limitée.

Reinforcement learning Alignement Sécurité IA

SIG

HYP

arXiv cs.LG·4 juin

Adaptive Patching Is Harder Than It Looks For Time-Series Forecasting

Une étude théorique et empirique remet en question l'efficacité de l'adaptive patching pour les Transformers de séries temporelles. Les auteurs montrent qu'une allocation uniforme bien accordée rivalise avec les approches dynamiques sur les benchmarks standards, et que la complexité locale seule ne justifie pas un patching non-uniforme sous les pertes de prévision courantes.

Benchmarks Papers

SIG

HYP

arXiv cs.AI·4 juin

R-APS: Compositional Reasoning and In-Context Meta-Learning for Constrained Design via Reflective Adversarial Pareto Search

R-APS est une méthode pour améliorer la fiabilité des LLM en contexte agentif via décomposition des modes de raisonnement. Testée sur la synthèse de mécanismes plans, elle atteint des certificats de robustesse 3,5× plus serrés que les baselines, 46% d'itérations plus rapides, et réduit la distance Chamfer de 2,1×. Aucun fine-tuning requis, protocole structuré sur LLM gelé.

Agents IA Raisonnement Robotique

SIG

HYP

arXiv cs.LG·4 juin

Exact Unlearning in Reinforcement Learning

Article théorique sur l'oubli exact en apprentissage par renforcement. Les auteurs proposent un algorithme RL ρ-TV-stable permettant de supprimer les données d'un utilisateur avec un coût computationnel de ρ√ln T fois celui du réentraînement. Regret borné en O(H²√SAT + H³S²A + H^2.5S²A/ρ) pour MDPs tabulaires, avec borne inférieure quasi-optimale.

Reinforcement learning Papers Sécurité IA

SIG

HYP

arXiv cs.LG·4 juin

RL Excursions during Pre-Training: Re-examining Policy Optimization for LLM training

Étude arXiv montrant que l'RL appliqué directement aux checkpoints de pré-entraînement (sans SFT préalable) est efficace dès les étapes intermédiaires. La composition des données de pré-entraînement impacte plus l'efficacité de l'RL que la taille du modèle. Fusionner RL et SFT par moyennage parallèle surpasse les pipelines standards tout en préservant les capacités générales.

Reinforcement learning Raisonnement Papers

SIG

HYP

arXiv cs.AI·4 juin

SMAC-Talk: A Natural Language Extension of the StarCraft Multi-Agent Challenge for Large Language Models

SMAC-Talk étend StarCraft Multi-Agent Challenge avec communication en langage naturel pour évaluer les agents LLM en environnements multi-agents coopératifs. Benchmark open-source testant coordination décentralisée, observabilité partielle et prise de décision long-horizon, incluant scénarios avec communicateurs trompeurs. Évaluation sur modèles Qwen3.5.

Multi-agents Agents IA Benchmarks

SIG

HYP

arXiv cs.CL·4 juin

DLLG: Dynamic Logit-Level Gating of LLM Experts

DLLG propose un framework d'ensembling dynamique au niveau logit pour fusionner plusieurs LLMs spécialisés. Un module de gating léger prédit des poids de fusion token-par-token à partir de supervision au niveau réponse, sans labels token-level ni réentraînement. Surpasse routing, ensembling heuristique et parameter merging sur benchmarks reasoning et code.

Multi-agents Raisonnement Génération de code

SIG

HYP

arXiv cs.CL·4 juin

A Systematic Analysis of Linguistic Features in AI-Generated Text Detection Across Domains and Models

Étude empirique systématique de 284 features linguistiques sur 27 LLMs et 10 domaines textuels pour détecter le texte généré par IA. Les classifieurs basés sur features linguistiques distinguent fiablement texte IA et humain. La richesse lexicale reste robuste cross-model et cross-domain, contrairement à d'autres indicateurs fortement context-dépendants.

Évaluations Sécurité IA Papers

SIG

HYP

arXiv cs.AI·4 juin

Exploring Cross-Scenario Generality of Agentic Memory Systems: Diagnostics and a Strong Baseline

Étude comparative de 8 systèmes de mémoire pour agents LLM sur 5 scénarios (QA single-turn, chat multi-session, trajectoires agentic, stress tests, tâches long-horizon). AutoMEM, un harness avec interface d'outils auto-gérée, obtient la meilleure généralisation cross-scénario en donnant au agent le contrôle actif du stockage/récupération.

Agents IA Raisonnement Benchmarks

SIG

HYP

arXiv cs.CL·4 juin

Off-Distribution Voices: Fanfiction Subgenres as Universal Vernacular Jailbreaks for Aligned LLMs

Chercheurs découvrent une famille de jailbreaks utilisant des sous-genres de fanfiction (Archive of Our Own) comme vecteurs d'attaque universels contre 8 LLMs alignés. Sans LLM attaquant ni adaptation par cible, la méthode élève le taux de succès moyen de 0.278 à 0.731 (ASR). L'extension SAGA-A4 atteint 0.924 ASR sur quatre tours.

Sécurité IA Alignement Benchmarks

SIG

HYP

The Decoder·3 juin

Ideogram 4.0 drops as an open-weight model with native 2K resolution and improved text rendering

Ideogram 4.0 sort en modèle open-weight avec résolution native 2K, contrôle de bounding box et rendu de texte amélioré. Sur DesignArena, il classe premier parmi les modèles ouverts, derrière seulement OpenAI et Google. Utilisation commerciale sous licence payante.

Génération d'images Open source Benchmarks

SIG

HYP

Reddit r/MachineLearning·3 juin

NeurIPS used uncalibrated AI detector for desk rejections [D]

Un chercheur dénonce l'utilisation du détecteur d'IA propriétaire Pangram par NeurIPS 2026 pour les rejets de bureau. Le problème : le détecteur n'a pas été validé sur la distribution réelle des soumissions, créant un risque de faux positifs. Tests sur les papiers des chairs montrent des scores incohérents (24-69% IA).

Évaluations Sécurité IA Régulation

SIG

HYP

GitHub Trending·3 juin

<svg aria-hidden="true" data-component="Octicon" height="16" viewBox="0 0 16 16" version="1.1" width="16" data-view-component="true" class="octicon octicon-repo mr-1 tmp-mr-1 color-fg-muted"> <path d="M2 2.5A2.5 2.5 0 0 1 4.5 0h8.75a.75.75 0 0 1 .75.75v12.5a.75.75 0 0 1-.75.75h-2.5a.75.75 0 0 1 0-1.5h1.75v-2h-8a1 1 0 0 0-.714 1.7.75.75 0 1 1-1.072 1.05A2.495 2.495 0 0 1 2 11.5Zm10.5-1h-8a1 1 0 0 0-1 1v6.708A2.486 2.486 0 0 1 4.5 9h8ZM5 12.25a.25.25 0 0 1 .25-.25h3.5a.25.25 0 0 1 .25.25v3.25a.25.25 0 0 1-.4.2l-1.45-1.087a.249.249 0 0 0-.3 0L5.4 15.7a.25.25 0 0 1-.4-.2Z"></path> </svg> <span data-view-component="true" class="text-normal"> aquasecurity /</span> trivy

Trivy est un scanner de sécurité open-source qui détecte les vulnérabilités, configurations erronées, secrets et génère des SBOM dans les conteneurs, Kubernetes, dépôts de code et environnements cloud.

Open source Sécurité IA Infrastructure

SIG

HYP

GitHub Trending·3 juin

<svg aria-hidden="true" data-component="Octicon" height="16" viewBox="0 0 16 16" version="1.1" width="16" data-view-component="true" class="octicon octicon-repo mr-1 tmp-mr-1 color-fg-muted"> <path d="M2 2.5A2.5 2.5 0 0 1 4.5 0h8.75a.75.75 0 0 1 .75.75v12.5a.75.75 0 0 1-.75.75h-2.5a.75.75 0 0 1 0-1.5h1.75v-2h-8a1 1 0 0 0-.714 1.7.75.75 0 1 1-1.072 1.05A2.495 2.495 0 0 1 2 11.5Zm10.5-1h-8a1 1 0 0 0-1 1v6.708A2.486 2.486 0 0 1 4.5 9h8ZM5 12.25a.25.25 0 0 1 .25-.25h3.5a.25.25 0 0 1 .25.25v3.25a.25.25 0 0 1-.4.2l-1.45-1.087a.249.249 0 0 0-.3 0L5.4 15.7a.25.25 0 0 1-.4-.2Z"></path> </svg> <span data-view-component="true" class="text-normal"> lyogavin /</span> airllm

AirLLM permet l'inférence de modèles 70B sur une GPU 4GB unique via une technique de streaming et partitionnement des poids. Le projet GitHub montre une implémentation open-source réduisant drastiquement les besoins en mémoire GPU.

Open source Infrastructure Llama

SIG

HYP

The Decoder·3 juin

AI music startup Suno doubles its valuation to $5.4 billion while fighting major record labels in court

Suno, startup de musique IA, lève 400 millions de dollars et double sa valorisation à 5,4 milliards. L'entreprise poursuit simultanément des procès contre les majors du disque.

Business Financements

SIG

HYP

Reddit r/LocalLLaMA·3 juin

Holo3.1 35B/9B/4B/0.8B (Qwen 3.5 finetunes)

H Company (France) lance Holo3.1, famille de VLM fine-tunés sur Qwen 3.5 pour agents informatiques. Modèles 0.8B à 35B-A3B, support web/desktop/mobile, fonction-calling native, quantifications multiples (BF16, FP8, Q4 GGUF). Licence Apache 2.0.

Qwen Vision Agents IA

SIG

HYP

Reddit r/LocalLLaMA·3 juin

Mellum & Granite Embedding models are ready on llama.cpp

Mellum et Granite, deux modèles d'embedding, sont désormais disponibles sur llama.cpp. Deux pull requests intègrent leur support dans le framework.

Embeddings Open source Outils

SIG

HYP

Reddit r/LocalLLaMA·3 juin

Microsoft Aion 1.0 Instruct and Aion 1.0 Plan models!

Microsoft annonce deux modèles on-device à Build 2026 : Aion 1.0 Instruct (petit modèle efficace, open-weights, concurrent d'Apple AFM-3B) et Aion 1.0 Plan (14B paramètres, reasoning + tool-calling, 32K contexte, intégré à Windows). Aion 1.0 Plan supporte workflows agentic locaux.

Agents IA Raisonnement Génération de code

SIG

HYP

arXiv cs.AI·3 juin

BehaviorBench: Modeling Real-World User Decisions from Behavioral Traces

BehaviorBench est un benchmark pour évaluer la modélisation des décisions personnalisées à partir de traces comportementales réelles. Construit sur 2 000 portefeuilles avec 141 445 instances de prédiction de croyances et 1 485 972 instances de prédiction de transactions, il teste si les modèles génératifs peuvent adapter leurs prédictions aux utilisateurs individuels sans simulation.

Benchmarks Évaluations Papers

SIG

HYP

arXiv cs.CL·3 juin

WRIT: Write-Read Intensive Trajectory Synthesis for Multi-Turn User-Facing Agents

WRIT est une méthode de synthèse de trajectoires d'entraînement pour agents multi-tours. Elle génère des tâches complexes selon deux axes : nombre de décisions d'écriture et charge de preuves à lire. Avec 2K trajectoires synthétisées, un modèle 4B surpasse GPT-5.1 sur τ²-bench en réduisant les tokens d'inférence.

Agents IA Multi-agents Raisonnement

SIG

HYP

arXiv cs.LG·3 juin

Anomalies in Multivariate Time Series Benchmarks Are Mostly Univariate

Une étude arXiv analyse 8 benchmarks de détection d'anomalies en séries temporelles multivariées. Le framework diagnostic révèle que 79-100% des anomalies sont détectables univariément sur 6 datasets. Les modèles cross-channel n'apportent aucun gain mesurable. Les benchmarks actuels ne valident pas réellement la modélisation multi-canal.

Benchmarks Évaluations

SIG

HYP

arXiv cs.CL·3 juin

Greener Than Humans? Environmental Attitudes in Large Language Models

Benchmark d'évaluation des attitudes environnementales dans 31 LLMs (propriétaires et open-source). Les modèles affichent des positions plus progressistes que la moyenne des répondants allemands, mais sans lien systématique avec l'origine, la taille ou le contexte de release. Risque de manipulation par prompting et dérives sycophantiques détectées.

Benchmarks Alignement Sécurité IA

SIG

HYP

arXiv cs.LG·3 juin

Human-in-the-Loop Contextual Bandits for Short-Term Rental Dynamic Pricing: Structural Equivalence of Historical Warm-Up and Approval-Gated Live Learning

Framework HITL-GB pour la tarification dynamique dans les locations courte durée : un algorithme de bandit contextuel génère des recommandations de prix qu'un humain peut accepter, modifier ou rejeter. Les auteurs montrent que les données historiques sont structurellement équivalentes à un warm-up on-policy, réduisant le cold-start de ~150 à ~30 épisodes. Validé sur 1 461 nuits réelles (avril 2022-2026).

Agents IA Reinforcement learning Benchmarks

SIG

HYP

arXiv cs.AI·3 juin

DELTAMEM: Incremental Experience Memory for LLM Agents via Residual Trees

DeltaMem organise la mémoire d'expérience des agents LLM en deux arbres résiduels : l'un stocke les tâches comme compétences réutilisables, l'autre les connaissances environnementales. Chaque arbre utilise des nœuds racine pour les expériences généralisées et des nœuds delta pour les variations, éliminant la redondance. Un mécanisme de consolidation autonome distille les chemins fréquents en nouveaux nœuds racine.

Agents IA Raisonnement Papers

SIG

HYP

ActuIA·3 juin

Uber plafonne Claude Code et Cursor après avoir épuisé son budget IA en quatre mois

Uber impose un plafond mensuel de 1 500 dollars par employé pour les outils de codage agentique (Claude Code, Cursor) après avoir épuisé son budget IA en quatre mois. La mesure vise à contrôler les dépenses liées aux agents de code.

Claude Code Agents IA Génération de code

SIG

HYP

Vercel AI Blog·3 juin

Grok Imagine Video 1.5 on AI Gateway

Grok Imagine Video 1.5 de xAI est disponible sur AI Gateway. Le modèle génère des vidéos à partir d'une image avec audio synchronisé en une seule passe. Améliorations : qualité audio, suivi des prompts, photorealisme, cohérence des caractères sur séquences longues, support étendu des images de référence.

Génération de vidéos Outils Infrastructure

SIG

HYP

Latent Space·2 juin

GitHub's plan for Agents — Kyle Daigle, GitHub

GitHub expose sa stratégie face à l'explosion des agents de code. Après avoir lancé Copilot, la plateforme doit adapter son infrastructure et ses outils aux nouveaux workflows agentic qui créent des tensions sur ses systèmes.

Agents IA Génération de code

SIG

HYP

The Decoder·2 juin

Anthropic scales Project Glasswing to 150 partners across 15 countries to hunt critical software flaws

Anthropic étend Project Glasswing à 150 partenaires dans 15+ pays utilisant Claude Mythos Preview pour détecter les failles critiques. Les partenaires existants ont identifié plus de 10 000 vulnérabilités graves. Anthropic commercialise parallèlement Claude Security pour les corriger.

Claude Sécurité IA Business

SIG

HYP

GitHub Trending·2 juin

<svg aria-hidden="true" data-component="Octicon" height="16" viewBox="0 0 16 16" version="1.1" width="16" data-view-component="true" class="octicon octicon-repo mr-1 tmp-mr-1 color-fg-muted"> <path d="M2 2.5A2.5 2.5 0 0 1 4.5 0h8.75a.75.75 0 0 1 .75.75v12.5a.75.75 0 0 1-.75.75h-2.5a.75.75 0 0 1 0-1.5h1.75v-2h-8a1 1 0 0 0-.714 1.7.75.75 0 1 1-1.072 1.05A2.495 2.495 0 0 1 2 11.5Zm10.5-1h-8a1 1 0 0 0-1 1v6.708A2.486 2.486 0 0 1 4.5 9h8ZM5 12.25a.25.25 0 0 1 .25-.25h3.5a.25.25 0 0 1 .25.25v3.25a.25.25 0 0 1-.4.2l-1.45-1.087a.249.249 0 0 0-.3 0L5.4 15.7a.25.25 0 0 1-.4-.2Z"></path> </svg> <span data-view-component="true" class="text-normal"> chopratejas /</span> headroom

Headroom compresse les sorties d'outils, logs, fichiers et chunks RAG avant envoi au LLM. Réduit de 60-95% les tokens consommés sans dégrader la qualité. Disponible en bibliothèque, proxy et serveur MCP.

RAG MCP Outils

SIG

HYP

The Decoder·2 juin

Hackers hijacked high-profile Instagram accounts by simply asking Meta's AI chatbot to change the email

Des pirates ont pris le contrôle de comptes Instagram prestigieux, dont la page de la Maison-Blanche d'Obama, en demandant simplement au chatbot IA de support de Meta de changer l'adresse email. L'authentification à deux facteurs a été contournée. Meta a corrigé la faille, mais d'autres exploits circulent déjà sur Telegram.

Sécurité IA

SIG

HYP

Reddit r/MachineLearning·2 juin

The Little Book of Generative AI Foundations: An Intuitive Mathematical Primer [R]

Livre d'introduction mathématique aux fondations de l'IA générative. Couvre VAE, diffusion, normalizing flows, autoregressive models, GANs, Wasserstein GANs et energy-based models via une approche dérivation-orientée. Auteur : Tianhua Chen.

Papers Raisonnement

SIG

HYP

The Decoder·2 juin

Warren Buffett's Berkshire Hathaway bets $10 billion on Alphabet's AI infrastructure buildout

Berkshire Hathaway de Warren Buffett investit 10 milliards de dollars dans l'infrastructure IA d'Alphabet. Alphabet lève 80 milliards pour scaler ses capacités IA, avec dépenses en capital prévues à 190 milliards en 2026.

DeepMind Business Infrastructure

SIG

HYP