Page 51 sur 144

ToutHaut signalRécent
5744 articles
arXiv cs.AI·

Vector Linking via Cross-Model Local Isometric Consistency

Méthode pour établir des correspondances entre vecteurs d'embeddings produits par différents encodeurs. Exploite la cohérence géométrique locale des encodeurs contrastifs entraînés indépendamment : les distances courtes sont préservées à un facteur d'échelle près. Utilise un hachage géométrique itératif basé sur des ancres appairées pour récupérer les liens vectoriels. Code disponible.

EmbeddingsRecherche vectorielleBenchmarks
SIG
72
HYP
15
arXiv cs.AI·

HADT: A Heterogeneous Multi-Agent Differential Transformer for Autonomous Earth Observation Satellite Cluster

Nouvelle architecture transformer pour la gestion autonome des ressources dans des constellations satellites hétérogènes (optiques et SAR). Utilise le reinforcement learning sans modèle pour la prise de décision en temps réel lors de missions d'observation terrestre. Démontre améliorations significatives et transferabilité sur différentes tailles de constellations.

Multi-agentsReinforcement learningRaisonnement
SIG
72
HYP
15
arXiv cs.AI·

A Persona-Based Evaluation Framework for Pluralistic Alignment in Generative AI

Cadre d'évaluation basé sur des personas pour l'alignement pluraliste des IA génératives. Remplace les benchmarks monolithiques par une variété de profils cognitifs synthétiques représentant diverses perspectives humaines. Révèle une dégradation systématique de la cohérence des personas sous inférence séquentielle, suggérant le besoin de mécanismes de régulation dynamiques.

AlignementÉvaluationsBenchmarks
SIG
72
HYP
28
arXiv cs.AI·

COMPASS: Cognitive MCTS-Guided Process Alignment for Safe Search Agents

COMPASS est un framework d'alignement de sécurité pour agents de recherche LLM multi-étapes. Il combine l'exploration d'arbres cognitifs (CTE) pour synthétiser des trajectoires d'attaque et l'alignement introspectif (ISA) pour superviser les actions intermédiaires risquées. Résultats : meilleur compromis sécurité-utilité avec moins de données d'entraînement.

Agents IASécurité IAAlignement
SIG
72
HYP
25
arXiv cs.CL·

Counterfactual Graph for Multi-Agent LLM Calibration

Les systèmes multi-agents LLM supposent que l'accord entre agents indique la fiabilité. Les auteurs montrent que la communication entre agents crée des défaillances corrélées et des faux consensus. Ils proposent CAGE-CAL, un cadre de calibration basé sur des graphes contrefactuels, qui compare les dépendances observées post-communication avec un scénario sans communication pour ajuster la confiance.

Multi-agentsAgents IARaisonnement
SIG
72
HYP
18
arXiv cs.CL·

Knowledge Graph-Enhanced Zero-Shot Topic Classification: A Multi-Strategy Comparative Study

Étude comparative de classification de sujets multi-label en zero-shot utilisant des graphes de connaissances extraits des documents. Framework testé sur 15 LLMs et 8 datasets : la variante keyword-enhanced surpasse la baseline, l'augmentation par graphe aide les petits modèles mais nuit aux grands, et le self-consistency decoding augmente les coûts sans amélioration.

RAGBenchmarksPapers
SIG
72
HYP
15
Reddit r/LocalLLaMA·

I built mlx-Chronos — a community benchmark leaderboard for local LLM engines on Apple Silicon (oMLX, Rapid-MLX, mlx-lm, Ollama)

mlx-Chronos est un outil CLI open-source et un leaderboard communautaire pour comparer les moteurs d'inférence MLX sur Apple Silicon (oMLX, Rapid-MLX, mlx-lm, Ollama). Il mesure TTFT, throughput, RAM et état thermique avec méthodologie standardisée. Leaderboard actuellement alimenté par un M2 8GB, cherche résultats M3/M4.

Open sourceBenchmarksInfrastructure
SIG
72
HYP
25
Reddit r/LocalLLaMA·

Speed difference between Windows 11 and Linux with llama.cpp: a myth when using medium and large MoE models

Benchmark llama.cpp comparant Windows 11 et Linux (Ubuntu 26.04) sur GPU Nvidia (RTX 5080 + 2× RTX 5060 Ti). Aucune différence significative de performance : Qwen 3.5 122B atteint PP 300/TG 28 (Windows) vs PP 290/TG 28.5 (Linux) ; Qwen 3.5 397B : PP 140/TG 16 vs PP 150/TG 15.2. Tests répétés 4 fois avec llama.cpp récent incluant optimisation VRAM.

LlamaQwenBenchmarks
SIG
72
HYP
15
The Decoder·

Anthropic study finds men use AI coding agents more than twice as often as women in social science research

Une étude Anthropic révèle que les chercheurs aux noms typiquement masculins utilisent les agents de codage IA plus de deux fois plus souvent que ceux aux noms féminins, à discipline et niveau de carrière égaux. Les économistes en tête (39%), les chercheurs en éducation à 4%. L'écart de genre pour les agents de codage dépasse celui de l'IA générale.

AnthropicAgents IAGénération de code
SIG
72
HYP
25
Reddit r/MachineLearning·

I built mlx-Chronos — a community benchmark leaderboard for local LLM engines on Apple Silicon (oMLX, Rapid-MLX, mlx-lm, Ollama) [P]

mlx-Chronos est un outil CLI open-source et leaderboard communautaire pour benchmarker les moteurs d'inférence LLM locaux sur Apple Silicon (oMLX, Rapid-MLX, mlx-lm, Ollama). Mesure TTFT, throughput, RAM, et état thermique avec méthodologie standardisée. Actuellement peuplé uniquement par résultats M2 8GB.

Open sourceBenchmarksInfrastructure
SIG
72
HYP
25
The Decoder·

AI search agents often confirm what they already know instead of actually researching the web

Les agents de recherche IA comme GPT-5.4 et Kimi K2.6 confirment surtout leurs connaissances d'entraînement au lieu de vraiment explorer le web. Des chercheurs de l'Institut de technologie de Harbin ont démontré cela avec LiveBrowseComp, un benchmark basé sur des événements des 90 derniers jours. Sans accès à la mémoire d'entraînement, les performances s'effondrent.

BenchmarksAgents IAGPT
SIG
72
HYP
35
Simon Willison·

Running Python ASGI apps in the browser via Pyodide + a service worker

Simon Willison a utilisé Claude Opus 4.8 via Claude Code pour implémenter l'exécution d'applications Python ASGI dans le navigateur via Pyodide et Service Workers. Cette approche remplace la précédente basée sur Web Workers, permettant l'exécution de scripts JavaScript et corrigeant les limitations de Datasette Lite. Des démos fonctionnelles sont disponibles.

Claude CodeGénération de codeOutils
SIG
72
HYP
25
Reddit r/MachineLearning·

What I learned building a debugger for PyTorch training loops and how it changed how I think about failure diagnosis [D]

Développeur a créé NeuralDBG, un debugger PyTorch qui détecte automatiquement les défaillances d'entraînement (gradients qui s'évanouissent/explosent, anomalies de données). Insight clé : les défaillances sont localisées par couche, pas globales. Monitoring efficace : transitions de normes de gradient par couche plutôt que histogrammes bruts. Outil open-source sur PyPI.

OutilsGénération de codeOpen source
SIG
72
HYP
28
arXiv cs.AI·

Diagnosing Harmful Continuation in Answer-Correct Long-CoT Training Traces

Étude sur les traces long-CoT utilisées pour l'entraînement supervisé des LLM. Les chercheurs identifient une « continuation nuisible » : quand le raisonnement continue après que la réponse soit suffisamment justifiée. Supprimer ces continuations améliore les résultats du fine-tuning. Ils proposent HCC (Harmful Continuation Cut), un proxy léger pour détecter ces limites.

RaisonnementFine-tuningPapers
SIG
72
HYP
15
arXiv cs.AI·

BEAMS: Benchmarking and Evaluating AI for Modeling and Simulation

BEAMS établit des benchmarks pour évaluer les outils IA en modélisation et simulation. Le projet open-source sd ai teste plusieurs LLMs sur des tâches comme la traduction causale, l'itération de modèles et le raisonnement causal. Les résultats montrent que les outils IA performent mieux en discussion qualitative qu'en raisonnement causal et correction d'erreurs quantitatives.

BenchmarksÉvaluationsRaisonnement
SIG
72
HYP
18
arXiv cs.CL·

Micro-Macro Retrieval: Reducing Long-Form Hallucination in Large Language Models

M2R (Micro-Macro Retrieval) est un framework retrieve-while-generate qui réduit les hallucinations dans la génération longue des LLM. Il combine une récupération macro (preuves externes) et micro (informations clés du raisonnement) pour maintenir la proximité entre données factuelles et sorties. Entraîné par reinforcement learning avec récompenses basées sur des règles.

RAGReinforcement learning
SIG
72
HYP
28
arXiv cs.CL·

Bosses, Kings, and the Commons: Cooperation Under Power Asymmetry in LLM Societies

SovSim, un framework de simulation multi-agent, évalue comment 11 modèles LLM gèrent les ressources communes sous structures de pouvoir asymétriques. Résultat : l'introduction d'un agent avec pouvoir disproportionné (boss/roi) provoque une dégradation de 87,3% du taux de survie et des effondrements de coopération comparé aux paramètres symétriques.

Multi-agentsAgents IABenchmarks
SIG
72
HYP
25
arXiv cs.AI·

Behavior-Aware Auxiliary Corrections for Off-Policy Temporal-Difference Prediction

Article théorique sur la stabilisation de l'apprentissage par différence temporelle hors-politique avec approximation de fonction. Propose BA-TDC et BA-TDRC, remplaçant la matrice auxiliaire de TDC par la matrice de Bellman comportementale. Analyse linéaire avec convergence prouvée sous condition de stabilité Hurwitz; expériences sur chaînes de Markov et contres-exemples classiques.

Reinforcement learningPapersBenchmarks
SIG
72
HYP
08
arXiv cs.AI·

Behavior-Induced Mirror-Prox Temporal-Difference Learning for Faster Off-Policy Prediction

STHTD-MP, une nouvelle méthode de temporal-difference off-policy, remplace la métrique de covariance par la matrice de Bellman induite par la politique de comportement dans la formulation primal-dual. Analyse de convergence formelle et comparaison spectrale avec GTD2-MP montrent des gains potentiels sur benchmarks (Random Walk, Boyan Chain).

Reinforcement learningPapersBenchmarks
SIG
72
HYP
08
arXiv cs.AI·

The Importance of Out-of-Band Metadata for Safe Autonomous Agents: The Redpanda Agentic Data Plane

Redpanda propose une architecture de plan de données pour agents IA autonomes utilisant des canaux de métadonnées hors-bande. Ces canaux appliquent les politiques de sécurité, les classifications de données et les contraintes comportementales en dehors du chemin de lecture/écriture de l'agent, empêchant les hallucinations et manipulations. Démonstration avec un système multi-agent de rééquilibrage de portefeuille.

Agents IAMulti-agentsSécurité IA
SIG
72
HYP
28
arXiv cs.AI·

The Cognitive Categorical Transformer: Category-Theoretic Inductive Biases for Language Modeling

Le Cognitive Categorical Transformer (CCT), modèle de 306M paramètres basé sur GPT-2 Small, intègre des composants inspirés de la théorie des catégories et des sciences cognitives. Sur WikiText-103, CCT atteint 21.27 PPL contre 24.19 pour GPT-2 Small, soit une réduction de 12% (2.92 PPL). Les ablations montrent que le simplicial message passing représente 84% de cette amélioration.

GPTPapersBenchmarks
SIG
72
HYP
25