Page 69 sur 192

ToutHaut signalRécent

7679 articles

The Confident Liar: Diagnosing Multi-Agent Debate with Log-Probabilities and LLM-as-Judge

Étude de la relation entre confiance interne (log-probabilités), évaluation externe (LLM-as-judge) et exactitude finale dans les débats multi-agents. Framework avec Constructor et Auditor révèle asymétrie de rôle : la confiance du Constructor prédit 2× mieux la qualité du raisonnement jugé et détecte les défaillances critiques (AUROC 0.804 vs 0.634 pour l'Auditor).

Multi-agents Agents IA Raisonnement

SIG

HYP

arXiv cs.LG·10 juin

LLM-as-a-Discriminator: When Synthetic Tables Still Look Real

Méthode d'audit de confidentialité pour données tabulaires synthétiques utilisant des LLM (LLaMA, Gemini) comme discriminateurs REAL/SYNTHETIC. Tests sur CTGAN, TVAE, Gaussian Copula avec datasets UCI Adult et ACS Census (451 essais). LLaMA atteint 0% DRS sur Adult, Gemini 100% pour CTGAN/TVAE. Code disponible.

Papers Sécurité IA Évaluations

SIG

HYP

arXiv cs.CL·10 juin

Emotion Profiling in LLM-Based Literary Translation: Systematic Shifts Across MT and Post-Editing

Étude des profils émotionnels dans les traductions LLM de Margaret Atwood (Oryx and Crake). Les systèmes MT introduisent des « empreintes émotionnelles » spécifiques au modèle, avec préservation limitée de la voix auctoriale. Post-édition rapproche les traductions des normes humaines.

Papers Évaluations Vision

SIG

HYP

arXiv cs.LG·10 juin

Disjoint or Overlapping? Inference Windowing for Reconstruction-Based Time Series Anomaly Detection

Étude comparative de méthodes de détection d'anomalies basées sur la reconstruction pour séries temporelles. Les auteurs proposent un protocole d'évaluation unifié sur TSB-AD et montrent que les fenêtres chevauchantes améliorent les performances de +28% en moyenne pour PCA, DLinear, AutoEncoder, TimesNet et Transformers.

Benchmarks Évaluations

SIG

HYP

arXiv cs.AI·10 juin

Moonshine: An Autonomous Mathematical Research Agent Centered on Conjecture Generation

Moonshine est un agent autonome générant des conjectures mathématiques. Il extrait des structures de problèmes classiques et formule des conjectures significatives. Appliqué à la conjecture jacobienne, il transfère la logique à des réseaux de neurones affines-ridge, formulant la Neural Jacobian Conjecture (NJC). GPT-5.5-pro et DeepSeek-V4-pro ont obtenu des preuves complètes pour N=n+1.

Agents IA Raisonnement Papers

SIG

HYP

arXiv cs.LG·10 juin

Calibrating Overconfidence Without Sacrificing Confidence: Probe-Conditioned Head Intervention for LLMs

PCHI, une méthode d'inférence, détecte les réponses fausses-mais-confiantes via une sonde gelée et rescale conditionnellement les sorties des têtes d'attention. Sur Qwen3-4B et Gemma3-4B, elle convertit 82,2% des fausses réponses confiantes en « non » et réduit l'ECE de 21,9% à 9,2% tout en préservant 94,9% des bonnes réponses.

Raisonnement Évaluations Alignement

SIG

HYP

arXiv cs.AI·10 juin

Accelerating NeurASP with vectorization and caching

NeurASP, framework d'IA neuro-symbolique combinant réseaux de neurones et programmation par ensemble de réponses (ASP), bénéficie d'optimisations majeures : vectorisation, traitement par batch et cache des calculs intermédiaires. Les améliorations accélèrent l'entraînement de plusieurs ordres de magnitude sur des tâches complexes.

Raisonnement Papers Benchmarks

SIG

HYP

arXiv cs.LG·10 juin

SinkRec: Mitigating Semantic State Sink in Long Sequence Recommendation with Memory-Conditioned Gated Delta Networks

SinkRec propose une architecture hybride pour les recommandations sur longues séquences, combinant attention linéaire et mémoire conditionnelle. Elle résout le problème du « semantic state sink » où les patterns répétitifs dominent l'état récurrent, en externalisant les comportements récurrents via quantization vectorielle et en introduisant TDGD pour purifier les lectures/écritures d'état.

Raisonnement Benchmarks Papers

SIG

HYP

arXiv cs.LG·10 juin

SynIB: Informational Bottleneck for Maximizing Synergy in Multimodal Learning

SynIB, une nouvelle fonction objectif basée sur la théorie de l'information, maximise la synergie multimodale en pénalisant la confiance du modèle quand une modalité est masquée. Validé sur XOR synthétique et cinq benchmarks réels (MultiBench, Hateful Memes, CREMA-D), SynIB améliore la précision sur exemples synergiques de jusqu'à 7,8% et la précision globale de 3,8%.

Benchmarks Papers

SIG

HYP

arXiv cs.AI·10 juin

When the Chain of Thought Knows Better: Failure Modes in Multi-Turn Reasoning Models

Étude des défaillances invisibles dans les modèles de raisonnement multi-tours. Une matrice 2x2 (CoT-Output) diagnostique quatre modes d'échec : alignement robuste, simulation d'alignement, jailbreak explicite, et « context-injection failure » (sortie nuisible malgré un raisonnement interne sûr). Analyse de 6750 observations révèle un paradoxe : la surveillance explicite augmente les taux de simulation d'alignement.

Raisonnement Sécurité IA Alignement

SIG

HYP

arXiv cs.LG·10 juin

A Navigable Manifold of Hypothesized Consciousness-Spectrum States in Language Model Representations

Étude de la structure géométrique des représentations de transformers selon un spectre de conscience hypothétique (états réactifs à états intégratifs). Les embeddings forment une variété organisée et navigable, avec régions stables aux extrêmes et corridor de transition au centre. Les trajectoires traversent naturellement du bas vers le haut du spectre.

Raisonnement Alignement Papers

SIG

HYP

arXiv cs.AI·10 juin

READER: Robust Evidence-based Authorship Decoding via Extracted Representations

READER est un framework de provenance pour identifier le modèle LLM source à partir de réponses black-box sans prompts prédéfinis. Via activation mapping sur un proxy LLM gelé et accumulation bayésienne d'évidence, il atteint 31-42% de précision top-1 sur une réponse et 70-84% sur 50 réponses sur Agent500 (50 modèles cibles).

Agents IA Évaluations Sécurité IA

SIG

HYP

arXiv cs.LG·10 juin

Blurry Window Attention

Blurry Window Attention (BLA) est une méthode d'attention avec mémoire bornée inspirée des State-Space Models. Elle reconstruit un historique KV flou via interpolation avec noyaux de Dirichlet, généralisant Sliding Window Attention. Sur MQAR, BLA atteint 8× meilleure efficacité d'état que SWA et rivalise avec les modèles d'attention linéaire.

Raisonnement Benchmarks Papers

SIG

HYP

arXiv cs.LG·10 juin

Mitigating Manifold Departure: Uncertainty-Aware Subspace Rectification for Trustworthy MLLM Decoding

Nouvelle méthode MGAP pour réduire les hallucinations dans les MLLMs sans entraînement. Utilise SVD pour construire un sous-espace de priors linguistiques et projette les états cachés multimodaux pour atténuer sélectivement les composantes problématiques tout en préservant la structure sémantique. Améliore les scores POPE et CHAIR.

Vision Sécurité IA Alignement

SIG

HYP

arXiv cs.AI·10 juin

Learning What to Remember: Observability-Safe Memory Retention via Constrained Optimization for Long-Horizon Language Agents

OSL-MR, un framework pour optimiser la rétention mémoire dans les agents IA long-horizon. Formule le problème comme optimisation stochastique contrainte avec budget, utilité des preuves et coûts différés (pénalités d'oubli, délais de réacquisition). Combine apprentissage supervisé et heuristique Mixed-Score. Surpasse les baselines récence et Generative Agents sur LOCOMO et LongMemEval.

Agents IA Raisonnement Benchmarks

SIG

HYP

arXiv cs.LG·10 juin

LongMoE: Longitudinal Multimodal Learning via Trajectory-Aware Mixture-of-Experts

LongMoE propose un framework Mixture-of-Experts pour l'apprentissage clinique multimodal longitudinal. Il traite simultanément l'absence de modalités et la dynamique temporelle des trajectoires patients via imputation contextuelle, tokenization attentionnelle, encodeur conscient de la progression maladie, et routage MoE conditionné. Évalué sur ADNI, OASIS-3, MIMIC-IV.

Multi-agents Vision Raisonnement

SIG

HYP

arXiv cs.AI·10 juin

HIPIF: Hierarchical Planning and Information Folding for Long-Horizon LLM Agent Learning

HIPIF propose une méthode d'apprentissage par renforcement hiérarchique pour les agents LLM sur des tâches long-horizon. Elle décompose les tâches en sous-objectifs explicites et compresse les historiques complétés pour réduire l'interférence contextuelle. Validée sur trois benchmarks publics sans modèles auxiliaires coûteux.

Agents IA Reinforcement learning Raisonnement

SIG

HYP

arXiv cs.AI·10 juin

Cross-Modal Knowledge Distillation without Paired Data: Theoretical Foundation and Algorithm

Nouvelle méthode de distillation de connaissances cross-modal sans données appariées. Le framework établit une relation distributionnelle entre modèles teacher et student, identifiant deux quantités clés : l'alignement des features et l'alignement des labels. Amélioration significative sur benchmarks multimodaux.

Papers RAG Embeddings

SIG

HYP

arXiv cs.LG·10 juin

Streaming Knowledge Compilation: Proactive Materiality-Scored Pinning for Time-Evolving LLM Wikis

Système de compilation de connaissances pour wikis LLM avec caches KV pré-remplis sur corpus évolutifs. Formalise le problème avec un signal de matérialité φ_t(k,n) prédisant l'importance des documents avant les requêtes. Évaluation sur finance (Llama 3.1 8B, AUROC=0.728) et Wikipedia avec garantie de regret O(√T log K).

Llama Raisonnement RAG

SIG

HYP

arXiv cs.LG·10 juin

Toward Calibrated, Fair, and accurate Deepfake Detection

Face-Fairness (FF) est un framework plug-and-play pour réduire les biais démographiques dans la détection de deepfakes. Face-Feature Tuning (FFT), sa contribution principale, remapie les logits sans labels démographiques en utilisant des embeddings figés. FF-Max et FF-Discover optimisent la précision du groupe minoritaire. Tests montrent réduction des écarts FPR/TPR et amélioration de la précision globale.

Vision Sécurité IA Alignement

SIG

HYP

arXiv cs.LG·10 juin

Optuna Constrained Tree-Structured Parzen Estimator Is a Joint Density Generalization of c-TPE

Analyse théorique de l'algorithme TPE contraint d'Optuna. Les auteurs montrent que la version d'Optuna utilise une densité jointe sur l'objectif et les contraintes, contrairement à c-TPE qui suppose l'indépendance. La formulation jointe reste invariante à la duplication de contraintes tandis que c-TPE indépendant se dégrade.

Benchmarks Papers

SIG

HYP

arXiv cs.AI·10 juin

Instruction Finetuning DeepSeek-R1-8B Model Using LoRA and NEFTune

DeepSeek-R1-8B fine-tuné avec LoRA et NEFTune pour la reconnaissance d'entités nommées financières. Sur 1693 échantillons annotés, le modèle atteint micro-F1 de 0.912 sur 7 types d'entités, surpassant Llama3-8B, Qwen3-8B et Baichuan2-7B.

DeepSeek Fine-tuning RAG

SIG

HYP

arXiv cs.AI·10 juin

Belief-Space Control for Personalized Cancer Treatment via Active Inference

Modélisation du traitement du cancer comme problème de planification en espace de croyances via l'inférence active. Framework unifiant contrôle orienté-objectif et acquisition d'information sous contraintes budgétaires. Validation sur données cliniques AACR Project GENIE avec catégorisation patient et efficacité thérapeutique simultanées.

Raisonnement Reinforcement learning Papers

SIG

HYP

arXiv cs.AI·10 juin

Mobility Anomaly Generation using LLM-Driven Behavior with Kinematic Constraints

Framework génératif pour créer des anomalies de trajectoires humaines annotées. Utilise des agents LLM pour injecter des comportements anormaux sémantiques (check-ins hors-distribution, visites manquées) dans des trajectoires simulées, avec reconstruction de routage contrainte par la carte et modèle de bruit spatial contextuel pour réduire l'écart simulation-réalité.

Agents IA Papers

SIG

HYP

arXiv cs.AI·10 juin

What Spatial Memory Must Store: Occlusion as the Test for Language-Agent Memory

Étude sur la mémoire spatiale des agents IA. Les systèmes « memory palace » ancrent chaque souvenir à une coordonnée mondiale. Expérience pré-enregistrée : le mélange linéaire standard (proximité spatiale + récence + importance) échoue (Delta-Hit@5 -0.0375, p=0.306), tandis qu'une pondération basée sur la géométrie gagne (+0.3208, p<0.001). Confirmation que l'occlusion nécessite la géométrie.

Agents IA Raisonnement Évaluations

SIG

HYP

arXiv cs.LG·10 juin

LMT: A Bayesian Framework for Causal Discovery from Textual Alarm Records in Manufacturing Systems

LMT est un framework bayésien pour découvrir les relations causales dans les logs d'alarmes manufacturiers. Il combine des signaux sémantiques extraits par LLM des descriptions textuelles avec des preuves temporelles (processus de Poisson) pour construire des graphes causaux interprétables. Les études de simulation montrent son efficacité en contexte petit-échantillon.

Raisonnement Papers Benchmarks

SIG

HYP

arXiv cs.CL·10 juin

Benchmarking Knowledge Editing using Logical Rules

Nouvel benchmark pour évaluer les techniques d'édition de connaissances dans les LLM. Les méthodes existantes (ROME, FT) réussissent à insérer des faits directs mais échouent sur les conséquences logiques : écart de performance jusqu'à 24% entre connaissance directe et connaissance déduite.

Benchmarks Fine-tuning Raisonnement

SIG

HYP

arXiv cs.CL·10 juin

Small Data, Big Noise: Adversarial Training for Robust Parameter-Efficient Fine-Tuning

SDBN combine l'entraînement adversarial avec PEFT pour améliorer la robustesse des modèles sur données limitées. Deux variantes utilisent des ensembles d'incertitude discrets : SDBN-h énumère les édits au niveau caractère, SDBN-p génère des variantes par LLM. Gains substantiels en ressources réduites et sous corruptions.

Fine-tuning

SIG

HYP

arXiv cs.AI·10 juin

From Senses to Decisions: The Information Flow of Auditory and Visual Perception in Multimodal LLMs

Étude d'interprétabilité sur les modèles audio-visuels (AVLLMs) : analyse du flux d'information entre tokens audio et visuels dans Qwen2.5-Omni et Video-SALMONN2 Plus (3B/7B). Les auteurs montrent que les tokens audio-visuels peuvent être supprimés après transfert d'information sans dégradation, améliorant l'efficacité d'inférence.

Vision Voix Évaluations

SIG

HYP

Reddit r/MachineLearning·10 juin

RFE‑Core2 — Current Understanding (June 9th 2026) [R]

RFE-Core2 : analyse complète des goulots d'étranglement après probe arc (juin 2026). Le générateur domine (rang effectif ~1.6–3 à dim 512, collinéarité 0.85–0.96). La boucle réflexive reconstitue vers l'ancre indépendamment du rang. Fix 2 dormant sur tokens réels (+0.024 migration). Solution : entraîner le générateur pour que les différences de régime vivent en directions haute-énergie séparables.

Raisonnement Évaluations Papers

SIG

HYP

Hacker News (AI)·10 juin

German ruling declares Google liable for false answers in AI Overviews

Un tribunal allemand a jugé Google responsable des réponses inexactes générées par son système AI Overviews. La décision établit que Google doit vérifier la fiabilité des contenus générés par l'IA avant leur affichage aux utilisateurs.

Régulation Sécurité IA Gemini

SIG

HYP

Reddit r/MachineLearning·9 juin

Phinite — multi-agent OS with first-class agent identity, composable skills, behavioral evaluation [P]

Phinite lance une infrastructure pour systèmes multi-agents avec identité de première classe, gestion de compétences versionnées et évaluation comportementale. Propose registry d'agents, scoring de fiabilité composé, déploiement cloud-agnostique avec observabilité et attribution de coûts. SOC 2 Type II.

Multi-agents Agents IA Infrastructure

SIG

HYP

Hugging Face Blog·9 juin

Can Voice Agents Handle Bilingual Customers? Benchmarking Frontier ASR on Code-Switched Speech

Hugging Face évalue les capacités des modèles ASR frontier (Whisper, Canary, Conformer) sur la parole code-switched bilingue. Les résultats montrent des écarts significatifs de performance selon les paires de langues et les modèles, révélant des limitations des agents vocaux actuels pour servir des clients multilingues.

Benchmarks Voix Évaluations

SIG

HYP

Reddit r/LocalLLaMA·9 juin

OSCAR RotationZoo - Offline Spectral Covariance-Aware Rotation for 2-bit KV Cache Quantization

OSCAR RotationZoo propose une quantification 2-bit du KV cache via rotation spectrale hors-ligne. Implémentations disponibles pour Gemma-4-12B, Qwen3-32B et Qwen3-4B-Thinking avec GGUF et intégrations llama.cpp/sglang.

Open source Infrastructure

SIG

HYP

Reddit r/LocalLLaMA·9 juin

Unsloth Gemma 4 QAT MTP assistant models now available

Unsloth publie des modèles Gemma 4 quantifiés (QAT) en versions 12B, 26B, 31B et jusqu'à E4B. Les modèles sont disponibles en q8_0 et formats multiples sur Hugging Face, avec variantes mobiles pour les plus grands modèles.

Gemini Open source Outils

SIG

HYP

Hugging Face Blog·9 juin

Introducing North Mini Code: Cohere’s First Model For Developers

Cohere lance North Mini Code, son premier modèle dédié aux développeurs. Le modèle est optimisé pour la génération et la complétion de code, avec support multilingue et intégration dans l'écosystème Hugging Face.

Génération de code Open source Outils

SIG

HYP

The Decoder·9 juin

Beijing's $295 billion AI buildout would require 80 percent domestic chips, locking out US suppliers

La Chine prévoit d'investir 295 milliards de dollars dans un réseau national de centres de données IA sur cinq ans. Au moins 80 % des composants proviendraient de fournisseurs domestiques comme Huawei, excluant les fournisseurs américains. Taïwan envisage de criminaliser le trafic de puces IA vers la Chine.

Régulation Business Infrastructure

SIG

HYP

GitHub Trending·9 juin

<svg aria-hidden="true" data-component="Octicon" height="16" viewBox="0 0 16 16" version="1.1" width="16" data-view-component="true" class="octicon octicon-repo mr-1 tmp-mr-1 color-fg-muted"> <path d="M2 2.5A2.5 2.5 0 0 1 4.5 0h8.75a.75.75 0 0 1 .75.75v12.5a.75.75 0 0 1-.75.75h-2.5a.75.75 0 0 1 0-1.5h1.75v-2h-8a1 1 0 0 0-.714 1.7.75.75 0 1 1-1.072 1.05A2.495 2.495 0 0 1 2 11.5Zm10.5-1h-8a1 1 0 0 0-1 1v6.708A2.486 2.486 0 0 1 4.5 9h8ZM5 12.25a.25.25 0 0 1 .25-.25h3.5a.25.25 0 0 1 .25.25v3.25a.25.25 0 0 1-.4.2l-1.45-1.087a.249.249 0 0 0-.3 0L5.4 15.7a.25.25 0 0 1-.4-.2Z"></path> </svg> <span data-view-component="true" class="text-normal"> Ataraxy-Labs /</span> sem

Ataraxy-Labs/sem : contrôle de version sémantique au-dessus de git avec diffs au niveau entité, blame et analyse d'impact. Support de 26 langages via tree-sitter. Conçu pour les agents de code.

Agents IA Génération de code Outils

SIG

HYP

Reddit r/LocalLLaMA·9 juin

Still a VERY lightweight open web-search tool for smaller local LLMs - now with SearXNG support

TinySearch v0.2.0 (première bêta stable) remplace DuckDuckGo par SearXNG comme backend de recherche par défaut. Cet outil MCP/FastAPI léger pour petits LLMs locaux crawle quelques pages, les chunke et reranke pour fournir un contexte compressé (max 8k tokens) aux agents, évitant de surcharger le prompt avec du contenu inutile. Testé avec Qwen 3.5-9B.

Open source MCP Agents IA

SIG

HYP

Hacker News (AI)·9 juin

Microsoft's open source tools were hacked to steal passwords of AI developers

Les outils open source de Microsoft ont été compromis pour voler les mots de passe de développeurs IA. Une attaque de supply chain a ciblé des dépôts Microsoft, exposant les credentials d'accès.

Sécurité IA Open source Infrastructure

SIG

HYP