Page 27 sur 139

ToutHaut signalRécent
5530 articles
Reddit r/MachineLearning·

The famous METR AI time horizons graph contains numerous severe errors [D]

Nathan Witkin (NYU Stern) critique sévèrement le graphique METR sur les horizons temporels de l'IA. Les erreurs incluent : baselines humaines non mesurées mais estimées, benchmarkers payés à l'heure (incitation à traîner), échantillon biaisé vers les pairs des auteurs, et ignorance de l'avantage de familiarité (5-18x plus rapide). Witkin conclut que le graphique contient trop d'erreurs cumulatives pour être sauvé.

BenchmarksÉvaluationsSécurité IA
SIG
75
HYP
45
Reddit r/MachineLearning·

We gave an LLM a structural graph of a codebase before exploring. It used 54% MORE context than without one. Paper + explanation inside [R]

Étude contrôlée sur codebase TypeScript (25 sections, 3,250 fichiers) : un LLM (Kimi K2.6) équipé d'un graphe structurel (Blueprint : Universal Ctags + ast-grep + BM25) a consommé 54% plus de tokens d'entrée (63,541 vs 41,327) mais a exploré plus profondément (6 tours vs 5). Le graphe coûte ~6,500 tokens et augmente la confiance de navigation du modèle.

Génération de codeRAGBenchmarks
SIG
75
HYP
25
Reddit r/LocalLLaMA·

The reason small-model agent stacks aren't the default has nothing to do with whether they work

Les petits modèles spécialisés (Gemma 4 31B à 86.4% sur tau2-bench, Qwen 27B surpassant des modèles 397B) dominent désormais les benchmarks d'agents. Pourtant l'industrie continue d'utiliser des modèles frontière coûteux : les labs de frontier gagnent à la facturation par token, créant un désalignement économique entre performance technique et adoption.

Agents IABenchmarksQwen
SIG
75
HYP
25
arXiv cs.AI·

Design and Report Benchmarks for Knowledge Work

Article arXiv proposant une méthodologie pour concevoir des benchmarks d'IA adaptés au travail de connaissance (coding, recherche, santé). Les auteurs critiquent les évaluations actuelles qui ne reflètent pas les conditions réelles et proposent un cadre en 3 étapes : définir l'activité, spécifier le contexte (outils, rôles, contraintes), scorer le produit final. Analyse de 3 cas : GDPval, OfficeQA Pro, APEX-SWE.

BenchmarksAgents IAGénération de code
SIG
75
HYP
15
arXiv cs.LG·

Certification from Examples is Hard for Circuits and Transformers under Minimal Overparametrization

Étude théorique montrant que la certification exacte de circuits de seuil (depth ≥2) et de Transformers log-précision devient exponentiellement difficile avec une légère surparamétrisation. Ajouter une seule porte logique ou un surcoût architectural constant suffit à rendre les certificats exponentiels en dimension d'entrée. Validation empirique sur l'addition binaire.

PapersRaisonnementSécurité IA
SIG
75
HYP
15
arXiv cs.LG·

MedExpMem: Adapting Experience Memory for Differential Diagnosis

MedExpMem est un framework de mémoire d'expérience permettant aux modèles de vision-langage médicaux d'accumuler une expertise en diagnostic différentiel. Contrairement à la RAG, il mémorise les expériences discriminantes issues des erreurs diagnostiques passées sous forme de notes différentielles appairées. Évalué sur 11 sous-spécialités radiologiques, il améliore la précision jusqu'à 7,0% sur plusieurs modèles.

VisionRAGRaisonnement
SIG
75
HYP
15
arXiv cs.LG·

Transcoders Trace Visual Grounding and Hallucinations in Vision-Language Models

Des chercheurs utilisent les Transcoders pour interpréter comment les modèles vision-langage transforment les images en texte. Appliqué à Gemma 3-4B-IT, le framework décompose le modèle en chemins computationnels reliant les patches d'image à la génération de tokens. Les attributions des Transcoders surpassent les SAE pour identifier les hallucinations (AUC 0.68).

VisionÉvaluationsGemini
SIG
75
HYP
15
arXiv cs.LG·

The Implicit Bias of Depth: From Neural Collapse to Softmax Codes

Étude théorique montrant que la profondeur des réseaux de neurones induit un biais implicite vers des solutions de faible rang, alternatives au neural collapse. Analyse des dynamiques d'entraînement du modèle UFM (unconstrained feature model) sans régularisation, révélant comment la profondeur favorise les softmax codes plutôt que les géométries structurées classiques.

PapersRaisonnementBenchmarks
SIG
75
HYP
15
GitHub Trending·

<svg aria-hidden="true" data-component="Octicon" height="16" viewBox="0 0 16 16" version="1.1" width="16" data-view-component="true" class="octicon octicon-repo mr-1 tmp-mr-1 color-fg-muted"> <path d="M2 2.5A2.5 2.5 0 0 1 4.5 0h8.75a.75.75 0 0 1 .75.75v12.5a.75.75 0 0 1-.75.75h-2.5a.75.75 0 0 1 0-1.5h1.75v-2h-8a1 1 0 0 0-.714 1.7.75.75 0 1 1-1.072 1.05A2.495 2.495 0 0 1 2 11.5Zm10.5-1h-8a1 1 0 0 0-1 1v6.708A2.486 2.486 0 0 1 4.5 9h8ZM5 12.25a.25.25 0 0 1 .25-.25h3.5a.25.25 0 0 1 .25.25v3.25a.25.25 0 0 1-.4.2l-1.45-1.087a.249.249 0 0 0-.3 0L5.4 15.7a.25.25 0 0 1-.4-.2Z"></path> </svg> <span data-view-component="true" class="text-normal"> github /</span> copilot-sdk

GitHub publie un SDK multi-plateforme pour intégrer l'agent Copilot dans des applications et services tiers. Permet aux développeurs d'accéder aux capacités d'IA de Copilot via API standardisée.

Agents IAGénération de codeOutils
SIG
75
HYP
25
GitHub Trending·

<svg aria-hidden="true" data-component="Octicon" height="16" viewBox="0 0 16 16" version="1.1" width="16" data-view-component="true" class="octicon octicon-repo mr-1 tmp-mr-1 color-fg-muted"> <path d="M2 2.5A2.5 2.5 0 0 1 4.5 0h8.75a.75.75 0 0 1 .75.75v12.5a.75.75 0 0 1-.75.75h-2.5a.75.75 0 0 1 0-1.5h1.75v-2h-8a1 1 0 0 0-.714 1.7.75.75 0 1 1-1.072 1.05A2.495 2.495 0 0 1 2 11.5Zm10.5-1h-8a1 1 0 0 0-1 1v6.708A2.486 2.486 0 0 1 4.5 9h8ZM5 12.25a.25.25 0 0 1 .25-.25h3.5a.25.25 0 0 1 .25.25v3.25a.25.25 0 0 1-.4.2l-1.45-1.087a.249.249 0 0 0-.3 0L5.4 15.7a.25.25 0 0 1-.4-.2Z"></path> </svg> <span data-view-component="true" class="text-normal"> microsoft /</span> agent-governance-toolkit

Microsoft publie un toolkit de gouvernance pour agents IA autonomes. Inclut application de politiques, identité zero-trust, sandboxing d'exécution et ingénierie de fiabilité. Couvre les 10/10 risques OWASP Agentic Top 10.

Agents IASécurité IAOutils
SIG
75
HYP
25
GitHub Trending·

<svg aria-hidden="true" data-component="Octicon" height="16" viewBox="0 0 16 16" version="1.1" width="16" data-view-component="true" class="octicon octicon-repo mr-1 tmp-mr-1 color-fg-muted"> <path d="M2 2.5A2.5 2.5 0 0 1 4.5 0h8.75a.75.75 0 0 1 .75.75v12.5a.75.75 0 0 1-.75.75h-2.5a.75.75 0 0 1 0-1.5h1.75v-2h-8a1 1 0 0 0-.714 1.7.75.75 0 1 1-1.072 1.05A2.495 2.495 0 0 1 2 11.5Zm10.5-1h-8a1 1 0 0 0-1 1v6.708A2.486 2.486 0 0 1 4.5 9h8ZM5 12.25a.25.25 0 0 1 .25-.25h3.5a.25.25 0 0 1 .25.25v3.25a.25.25 0 0 1-.4.2l-1.45-1.087a.249.249 0 0 0-.3 0L5.4 15.7a.25.25 0 0 1-.4-.2Z"></path> </svg> <span data-view-component="true" class="text-normal"> google-research /</span> timesfm

TimesFM est un modèle fondation préentraîné développé par Google Research pour la prévision de séries temporelles. Le repo GitHub propose une implémentation open-source de ce modèle spécialisé.

DeepMindOpen sourceBenchmarks
SIG
75
HYP
20
Simon Willison·

FTC to Require Cox Media Group, Two Other Firms to Pay Nearly $1 Million to Settle Charges They Deceived Customers About “Active Listening” AI-Powered Marketing Service

La FTC condamne Cox Media Group et deux autres entreprises à payer près d'1 million de dollars pour avoir trompé les clients sur un service marketing IA appelé « Active Listening ». Le service prétendait écouter les conversations via les appareils intelligents pour cibler les publicités, mais n'utilisait en réalité aucune donnée vocale.

RégulationSécurité IABusiness
SIG
75
HYP
25
arXiv cs.LG·

Value-Gradient Hypothesis of RL for LLMs

Étude théorique de pourquoi les méthodes RL sans critique (PPO, GRPO) améliorent les LLM. Les auteurs montrent que les mises à jour d'acteur sont de type value-gradient en espérance, et que l'autodifférenciation à travers l'attention produit des costates empiriques approximant le signal de valeur. Décomposition de l'impact RL en signal value-gradient et marge de récompense atteignable.

Reinforcement learningRaisonnementPapers
SIG
75
HYP
15
arXiv cs.CL·

FlyRoute: Self-Evolving Agent Profiling via Data Flywheel for Adaptive Task Routing

FlyRoute est un framework d'auto-évolution de profils d'agents qui améliore le routage de requêtes en entreprise. Via un mécanisme de flywheel, il collecte des preuves de capacités depuis le trafic réel, distille des descriptions apprises et les injecte dans un routeur LLM avec des succès récupérés par BM25. Sur un dataset propriétaire, FlyRoute passe de 72,57% (zero-shot) à 89,83% de précision après 7,211 requêtes.

Agents IAMulti-agentsPrompt engineering
SIG
75
HYP
25
arXiv cs.CL·

Psy-Chronicle:A Structured Pipeline for Synthesizing Long-Horizon Campus Psychological Counseling Dialogues

Psy-Chronicle est un framework de génération de données pour synthétiser des dialogues de conseil psychologique sur long horizon. Les auteurs créent CPCD, un dataset chinois de 90 000 dialogues couvrant 100 profils d'étudiants sur un semestre, avec un benchmark évaluant la mémoire long-horizon et le raisonnement causal. Code et données open-sourcés.

PapersBenchmarksOpen source
SIG
75
HYP
25
arXiv cs.CL·

Faithful-MR1: Faithful Multimodal Reasoning via Anchoring and Reinforcing Visual Attention

Faithful-MR1 est un framework d'entraînement pour MLLMs qui améliore le raisonnement multimodal via apprentissage par renforcement. Il ancre l'attention visuelle directement sur les régions d'image (pas via descriptions textuelles) et renforce l'utilisation fidèle de cette attention par intervention contrefactuelle. Résultats sur Qwen2.5-VL-Instruct 3B/7B avec moins de données.

Reinforcement learningVisionRaisonnement
SIG
75
HYP
25
arXiv cs.LG·

Calibration, Uncertainty Communication, and Deployment Readiness in CKD Risk Prediction: A Framework Evaluation Study

Étude comparative de 5 classifieurs (régression logistique, random forest, XGBoost, SVM, naive Bayes) sur prédiction du risque de maladie rénale chronique. Tous atteignent AUROC 1.00 en interne (UCI, 400 patients), mais s'effondrent sur MIMIC-IV externe (AUROC 0.48-0.58). Calibration et couverture conforme dégradées drastiquement. Aucun modèle ne satisfait les critères de déploiement clinique.

ÉvaluationsSécurité IA
SIG
75
HYP
15