Page 66 sur 192

ToutHaut signalRécent

7679 articles

Bernstein-Schur Kernels: Random Features by Sketched Modulation and Radial Randomization

Kernels de Bernstein-Schur : construction de random features combinant sketching de modulation finie et randomisation radiale via échelle de Bernstein-Widder. Dimension de features Dm sans coût O(d²) de la modulation exacte. Garanties de variance exacte et bornes d'opérateur contrôlées par dimension intrinsèque, avec applications au kernel ridge regression.

Papers Benchmarks Embeddings

SIG

HYP

arXiv cs.CL·12 juin

sebis at CRF Filling 2026: A Two-Stage Local LLM Pipeline for Medical CRF Filling

Pipeline local à deux étages utilisant MedGemma-27B pour l'extraction d'informations cliniques structurées à partir de notes EHR non structurées. Séparation classification binaire / extraction de valeurs, sans appels API externes ni fine-tuning. Macro-F1 de 0,55 sur le test CRF 2026, 2e place parmi les soumissions open-source locales.

Benchmarks Fine-tuning RAG

SIG

HYP

arXiv cs.CL·12 juin

NTS-CoT: Mitigating Hallucinations in LLM-based News Timeline Summarization with Chain-of-Thought Reasoning

NTS-CoT, un framework basé sur Chain-of-Thought, réduit les hallucinations dans la résumé de chronologies d'actualités. Trois modules (Element-CoT, Date Selection, Causal-CoT) capturent les éléments essentiels, sélectionnent les timestamps et inférent les relations causales. Évaluation sur trois benchmarks TLS avec amélioration mesurable.

Raisonnement Papers Évaluations

SIG

HYP

arXiv cs.CL·12 juin

PRISM: Prosody-Integrated Multi-Agent Reasoning Framework for Empathetic Spoken Dialogue

PRISM est un framework multi-agent pour le dialogue parlé empathique qui découple perception vocale, génération de réponse et synthèse vocale. Il introduit un mécanisme de traduction prosody-to-language pour stabiliser le raisonnement des LLM et intègre des outils de connaissance externes. Résultats : amélioration de l'empathie, de l'adéquation prosodique et de la qualité des réponses.

Multi-agents Voix Agents IA

SIG

HYP

arXiv cs.AI·12 juin

The Hidden Power of Scaling Factor in LoRA Optimization

Étude théorique et empirique du facteur d'échelle α en LoRA. Les auteurs montrent que α domine l'optimisation bien plus que le learning rate, via un framework Signal-Drift. Ils découvrent une loi de racine carrée reliant α au rang et proposent LoRA-α pour améliorer les performances et simplifier l'ajustement d'hyperparamètres.

Fine-tuning Raisonnement Papers

SIG

HYP

arXiv cs.AI·12 juin

HarnessBridge: Learnable Bidirectional Controller for LLM Agent Harness

HarnessBridge est un contrôleur d'interface agent-environnement appris par projection bidirectionnelle. Le module projette les observations brutes en états compacts et convertit les actions proposées en transitions exécutables. Entraîné sur Terminal-Bench 2.0 et SWE-bench Verified, il égale les harnesses spécialisés tout en réduisant l'usage de tokens et la longueur des trajectoires.

Agents IA Raisonnement Génération de code

SIG

HYP

arXiv cs.CL·12 juin

MemRefine: LLM-Guided Compression for Long-Term Agent Memory

MemRefine compresse la mémoire d'agents LLM sur interactions longues en utilisant un juge LLM pour décider de fusionner, supprimer ou conserver les entrées selon leur contenu factuel, pas juste la similarité. Testé sur plusieurs benchmarks de conversations longues, le système respecte les budgets mémoire tout en préservant les performances.

Agents IA Raisonnement

SIG

HYP

arXiv cs.CL·12 juin

HyPE: Category-Aware Hypergraph Encoding with Persistent Edge Embeddings for Persona-Grounded Dialogue

HyPE propose un encodeur hypergraphe pour les systèmes de dialogue avec persona. La méthode structure les attributs de persona en hypergraphes catégorisés et utilise HyperGCN avec des embeddings de bords persistants (PEE). Évaluation sur PersonaChat montre des gains constants sur GPT-2, LLaMA-3.2-3B et Qwen2.5-3B.

Agents IA Benchmarks Papers

SIG

HYP

arXiv cs.AI·12 juin

Teach-and-Repeat: Accurately Extracting Operational Knowledge from Mobile Screen Demonstrations to Empower GUI Agents

Teach VLM extrait la connaissance opérationnelle de démonstrations mobiles en analysant les transitions visuelles et génère des instructions en langage naturel. Le paradigme Teach-and-Repeat utilise cette connaissance pour guider des agents d'exécution GUI. Évaluation sur Android World montre des améliorations de Task Success Rate.

Agents IA Vision Génération de code

SIG

HYP

arXiv cs.AI·12 juin

Constructing Evaluation Datasets for Procedural Reasoning: Balancing Naturalness, Grounding, and Multi-Hop Coverage

Étude sur la génération de datasets d'évaluation pour le raisonnement procédural. Trois stratégies comparées : génération stricte depuis modèles TMK (Task-Method-Knowledge), génération basée transcripts avec filtrage TMK post-hoc, et génération TMK-aware. Sur 690 paires question-réponse et 23 sujets, la génération stricte atteint 96,5% de questions ancrées et 92,6% utilisables.

Évaluations Raisonnement Benchmarks

SIG

HYP

arXiv cs.CL·12 juin

NaturalFlow: Reducing Disruptive Pauses for Natural Speech Flow in Simultaneous Speech-to-Speech Translation

NaturalFlow optimise la traduction simultanée parole-à-parole en réduisant les pauses entre chunks pour améliorer la fluidité acoustique. Le framework exploite des signaux internes (diversité linguistique, variabilité temporelle) pour équilibrer latence basse et naturalité du discours, validé sur benchmarks court et long terme.

Voix Papers Benchmarks

SIG

HYP

arXiv cs.CL·12 juin

G-Long: Graph-Enhanced Memory Management for Efficient Long-Term Dialogue Agents

G-Long est un framework utilisant des graphes et un petit modèle de langage fine-tuné pour gérer efficacement la mémoire long-terme dans les dialogues. Il extrait des triplets structurés et utilise un mécanisme de scoring d'importance basé sur l'attention d'un T5 pour identifier les souvenirs saillants. Gains : +9.8% en qualité de réponse (MSC), +40.8% en rappel de récupération (LME).

Agents IA RAG Raisonnement

SIG

HYP

arXiv cs.AI·12 juin

WISE: A Long-Horizon Agent in Minecraft with Why-Which Reasoning

WISE est un agent Minecraft long-horizon utilisant un graphe d'événements causaux pour augmenter la mémoire épisodique. Le framework couple le raisonnement causal (why-which) à la mémoire spatiotemporelle, permettant la réordonnance opportuniste de sous-tâches et une exploration multi-échelle. Amélioration significative sur tâches creuses nécessitant adaptation décisionnelle.

Agents IA Raisonnement Reinforcement learning

SIG

HYP

arXiv cs.CL·12 juin

LLMs Can Better Capture Human Judgments--With the Right Prompts

Des techniques de prompting simples améliorent la capacité des LLM à capturer les jugements humains. Sur 144 scénarios moraux (US) et 38 croyances morales (32 pays), demander aux modèles de rapporter écarts-types et proportions de réponses récupère mieux la distribution complète des réponses humaines. Les LLM suivent aussi les taux de confusion humaine, bien que leur calibrage d'erreur reste faible.

Prompt engineering Évaluations Alignement

SIG

HYP

arXiv cs.AI·12 juin

Zero-source LLM Hallucination Detection with Human-like Criteria Probing

HCPD, une méthode de détection d'hallucinations sans accès aux internals du modèle ou références externes. Un agent LLM décompose adaptativement son jugement en critères pondérés et interprétables, aligné par supervision faible sur la cohérence sémantique. Code disponible.

Llama Agents IA Évaluations

SIG

HYP

arXiv cs.AI·12 juin

The Theory of Mind Utility: Formal Specification of a Mentalizing Mechanism

Théorie formelle de l'inférence d'états épistémiques : ToM-U formalise le calcul des croyances d'autrui via des graphes typés (Local Epistemic World Models) représentant agents, états et relations épistémiques. Trois procédures d'inférence et une fonction de résidu capturent les traces d'échecs de mentalisation, sans présupposer les états de croyance.

Raisonnement Papers

SIG

HYP

arXiv cs.AI·12 juin

Definitional alignment before capability alignment: a Design-Science framework for adjudicating claims about AGI

Article proposant DAF-AGI, un cadre de gouvernance pour évaluer les définitions concurrentes d'AGI. Analyse cinq familles de mesure (performance, capacités, psychométrie, acquisition de compétences, économie) et teste la claim que les systèmes génératifs actuels constituent AGI. Seule l'approche basée sur la performance certifie cette claim sur données 2024-2025.

Raisonnement Évaluations Alignement

SIG

HYP

arXiv cs.AI·12 juin

PRISMR: Overcoming Parse Collapse in Multimodal Listwise Ranking via Parameterized Representation Internalization

PRISMR résout le « parse collapse » dans le ranking listwise multimodal avec LMMs. Le problème : les décodeurs autorégressifs omettent silencieusement des candidats et terminent prématurément sur listes longues. Solution : un hypernetwork léger génère des poids LoRA spécifiques aux items, synthétisés en adaptateur instance-spécifique. Benchmark multimodal review-ranking créé.

Vision Raisonnement Fine-tuning

SIG

HYP

arXiv cs.AI·12 juin

Multi-Modal Agents for Power Distribution Defect Detection: An Evaluation of Foundation Models

Framework multi-modal pour la détection de défauts dans les réseaux électriques utilisant des modèles fondamentaux. Évaluation systématique de trois capacités : perception (identification d'équipements et description de défauts), raisonnement (diagnostic et planification de maintenance), utilisation d'outils (exécution autonome). Dataset spécifique au domaine et benchmark développés.

Agents IA Vision Raisonnement

SIG

HYP

arXiv cs.CL·12 juin

GENIE: A Fine-Grained Measure for Novelty

GENIE est une métrique d'évaluation fine-grained pour mesurer la nouveauté des réponses de LLM selon des caractéristiques spécifiques à la tâche. Les auteurs montrent que les métriques holistiques échouent à capturer la multi-dimensionnalité de la nouveauté et utilisent GENIE pour évaluer l'efficacité des méthodes d'amélioration de la créativité.

Évaluations Benchmarks

SIG

HYP

arXiv cs.CL·12 juin

Detect, Remask, Repair: Diffusion Editing for Faithful Summarization of Evolving Contexts

Méthode de réparation localisée pour résumés obsolètes : DETECT-REMASK-REPAIR utilise la diffusion masquée pour identifier et corriger les affirmations non soutenues dans un résumé existant, sans régénération complète. Benchmark StreamSum introduit. Tests sur DialogSum montrent amélioration de fidélité et réparation en <0.5s.

Papers Benchmarks Raisonnement

SIG

HYP

arXiv cs.CL·12 juin

X-MADAM-RAG: Diagnosing and Handling Chinese-English Evidence Conflict in Retrieval-Augmented Generation

X-MADAM-RAG diagnostique les conflits entre preuves chinoise et anglaise dans les systèmes RAG. Sur le benchmark X-RAMDocs-ZHEN (300 exemples), le pipeline atteint 96,67% de précision stricte avec Qwen2.5-7B-Instruct, mais échoue sur des variantes naturalisées (30% de précision), révélant que l'extraction au niveau document reste le goulot d'étranglement.

RAG Benchmarks Évaluations

SIG

HYP

arXiv cs.AI·12 juin

MLUBench: A Benchmark for Lifelong Unlearning Evaluation in MLLMs

MLUBench est un benchmark large-scale pour évaluer l'oubli continu dans les modèles multimodaux (MLLMs). Le benchmark contient 127 entités sur 9 classes. Les auteurs montrent que les méthodes existantes souffrent de dégradation cumulative et proposent LUMoE pour préserver l'alignement multimodal lors de l'oubli séquentiel.

Benchmarks Sécurité IA Papers

SIG

HYP

arXiv cs.CL·12 juin

Agent-based models for the evolution of morphological alternation patterns

Simulation multi-agents de l'émergence des alternances morphologiques (ex: go/went en anglais). Les formes alternatives se propagent par adoption probabiliste entre agents. Évaluation via LLM « Historical Linguist » comparant morphologies réelles, déguisées et évoluées. Réseaux sans échelle et adoption Bernoulli favorisent la plausibilité.

Agents IA Multi-agents Papers

SIG

HYP

arXiv cs.AI·12 juin

Strategic Decision Support for AI Agents

Cadre d'optimisation pour les agents IA : minimiser les appels au support humain tout en contrôlant les erreurs de décision autonome non assistée. Algorithme en ligne adaptatif avec exploration randomisée, testé sur collecte d'information, collaboration humain-IA et utilisation d'outils.

Agents IA Alignement Raisonnement

SIG

HYP

arXiv cs.CL·12 juin

PiDA: Phonetically-Informed Data Augmentation for Robust Vietnamese Speech Translation

Étude des erreurs ASR en traduction vocale vietnamienne. Les auteurs catégorisent les erreurs de substitution par cause phonétique et proposent PiDA (Phonetically-Informed Data Augmentation), qui augmente les données d'entraînement avec des corruptions phonétiquement similaires. Fine-tuning sur FLEURS Vietnamese-English améliore la traduction d'outputs ASR erronés (+2.04 BLEU).

Benchmarks Papers

SIG

HYP

arXiv cs.CL·12 juin

MentalMARBERT: Domain-Adaptive Pre-training and Two-Stage Fine-Tuning for Arabic Mental Health Disorders Detection

Étude proposant MentalMARBERT, un modèle BERT adapté au domaine pour détecter les troubles mentaux dans les textes arabes. Framework deux phases : adaptation de domaine (DAPT/TAPT) sur 50 670 tweets annotés, puis fine-tuning hiérarchique avec LoRA. Macro-F1 de 0.861, accuracy 0.877.

Fine-tuning Benchmarks Sécurité IA

SIG

HYP

arXiv cs.CL·12 juin

Constrained Semantic Decompression in LLMs through Persian Proverb-Conditioned Story Generation

Étude sur la génération d'histoires conditionnées par des proverbes persans. Les chercheurs introduisent PAND (Proverb Aligned Narrative Dataset) et identifient un « écart de décompression » : les LLM produisent du texte fluide mais échouent à préserver la structure morale et causale des proverbes. Le raisonnement explicite et l'affinement itératif réduisent partiellement ces erreurs.

Papers Raisonnement Évaluations

SIG

HYP

arXiv cs.AI·12 juin

TrajGenAgent: A Hierarchical LLM Agent for Human Mobility Trajectory Generation

TrajGenAgent est un framework d'agent LLM hiérarchique pour générer des trajectoires de mobilité humaine réalistes sans fine-tuning. Un orchestrateur LLM synthétise des chaînes d'activités via in-context learning, puis un workflow déterministe les ancre via récupération POI personnalisée, sélection de localisation et estimation de durée. Évaluation par détection d'anomalies sur données de benchmark.

Agents IA Prompt engineering Raisonnement

SIG

HYP

arXiv cs.CL·12 juin

Helping Figures Tell their Story! Paper-Grounded Video Generation Explaining Complex Scientific Figures

Nouvel article arXiv présentant MINARD, un système de génération vidéo qui transforme les figures scientifiques en vidéos narratives avec annotations régionales. Le pipeline génère des narrations ancrées au papier et les aligne séquentiellement aux régions de la figure. Benchmark FigTalk inclus avec métriques d'ancrage au niveau composant.

Génération de vidéos Vision Benchmarks

SIG

HYP

arXiv cs.CL·12 juin

EDEN: A Large-Scale Corpus of Clinical Notes for Italian

EDEN est un corpus de 4 millions de notes cliniques anonymisées provenant des services d'urgence italiens. 6 000 notes ont été annotées manuellement par des experts cliniques via un formulaire structuré de 132 items couvrant dyspnée et perte de conscience. Benchmark de remplissage de formulaires avec baselines Gemma-27B et MedGemma-27B.

Benchmarks Open source RAG

SIG

HYP

Reddit r/LocalLLaMA·12 juin

Some contrived tests comparing the accuracy of different Gemma and Qwen quantizations

Comparaison empirique de quantifications Gemma et Qwen sur trois tâches (arithmétique, dates présidentielles, attention). Gemma-4-31B-Q4_K_S atteint 83,8% en arithmétique et 87% en attention. Qwen3.6-27B-Q4_K_S obtient 95,5% en arithmétique et 100% en présidents. Les résultats montrent l'impact majeur du modèle et du schéma de quantification sur la précision.

Gemini Qwen Évaluations

SIG

HYP

Reddit r/LocalLLaMA·12 juin

PSA: Test your "threads" argument in llama.cpp (+80% performance in my case)

Benchmark llama.cpp sur CPU Intel 250K Plus : optimiser l'argument --threads améliore les performances de +80% (49 → 88 tok/s). 16 threads optimal vs 6 threads (P-cores uniquement). Avec 18 cores, baisse de performance sans throttling détecté.

Llama Génération de code Infrastructure

SIG

HYP

Reddit r/LocalLLaMA·11 juin

Step-3.7-Flash on AMD: ROCm corrupts long context past ~94k, and thinking needs a hard token budget

Step-3.7-Flash sur AMD/ROCm corrompt le contexte long au-delà de ~94k tokens. Le mode reasoning est actif par défaut et consomme 2000+ tokens sans budget défini, causant des réponses vides. Solution : limiter le contexte à 90k, fixer thinking_budget_tokens à 256 via llama.cpp, ignorer enable_thinking:false et reasoning_effort.

Raisonnement Open source Infrastructure

SIG

HYP

Reddit r/LocalLLaMA·11 juin

xdna-top: unified NPU+iGPU terminal monitor for Strix Halo (Ryzen AI Max) — finally see the NPU work

xdna-top est un moniteur terminal unifié pour Ryzen AI Max (Strix Halo) affichant l'activité NPU et iGPU en temps réel. L'outil montre les compteurs de soumission/complétion NPU et la puissance iGPU via une interface TUI à 5 Hz, avec mode JSON pour logging.

Outils Open source Infrastructure

SIG

HYP

ActuIA·11 juin

Machine unlearning : Google Research valide un test d'audit, mais pas encore sur les LLMs

Google Research présente à AISTATS 2026 un test statistique pour auditer le machine unlearning (effacement ciblé de données). La méthode est validée sur modèles classiques mais pas encore sur LLMs, soulevant des questions sur l'applicabilité aux grands modèles de langage.

DeepMind Sécurité IA Évaluations

SIG

HYP

GitHub Trending·11 juin

<svg aria-hidden="true" data-component="Octicon" height="16" viewBox="0 0 16 16" version="1.1" width="16" data-view-component="true" class="octicon octicon-repo mr-1 tmp-mr-1 color-fg-muted"> <path d="M2 2.5A2.5 2.5 0 0 1 4.5 0h8.75a.75.75 0 0 1 .75.75v12.5a.75.75 0 0 1-.75.75h-2.5a.75.75 0 0 1 0-1.5h1.75v-2h-8a1 1 0 0 0-.714 1.7.75.75 0 1 1-1.072 1.05A2.495 2.495 0 0 1 2 11.5Zm10.5-1h-8a1 1 0 0 0-1 1v6.708A2.486 2.486 0 0 1 4.5 9h8ZM5 12.25a.25.25 0 0 1 .25-.25h3.5a.25.25 0 0 1 .25.25v3.25a.25.25 0 0 1-.4.2l-1.45-1.087a.249.249 0 0 0-.3 0L5.4 15.7a.25.25 0 0 1-.4-.2Z"></path> </svg> <span data-view-component="true" class="text-normal"> NVIDIA /</span> SkillSpector

SkillSpector est un scanner de sécurité open-source NVIDIA pour les compétences d'agents IA. Il détecte les vulnérabilités, les patterns malveillants et les risques de sécurité dans les outils et fonctions utilisés par les agents.

Agents IA Sécurité IA Open source

SIG

HYP

Le Big Data·11 juin

Partenariat TCS et Anthropic : 50 000 employés auront accès à Claude

TCS conclut un partenariat mondial avec Anthropic. 50 000 employés du géant indien des services informatiques auront accès à Claude pour leurs activités professionnelles.

Claude Anthropic Business

SIG

HYP

Le Big Data·11 juin

Minerva mise sur OpenAI et lève 20 millions de dollars pour sa plateforme de marketing IA

Minerva lève 20 millions de dollars et s'associe à OpenAI pour sa plateforme de marketing IA. La startup déploie les modèles d'OpenAI dans ses outils destinés aux équipes marketing.

OpenAI Business Financements

SIG

HYP

arXiv cs.AI·11 juin

Automating Geometry-Intensive Compliance Checking in BIM: Graph-Based Semantic Reasoning Framework

SGR-BIM, un système de raisonnement basé graphes, automatise la vérification de conformité géométrique dans la modélisation BIM. Validé sur 679 requêtes de codes de sécurité incendie, il atteint 84,3% de précision (+8,6% vs baselines single-agent) en construisant dynamiquement un graphe de connaissances multi-modal alignant intent utilisateur, sémantique réglementaire et géométrie BIM.

Raisonnement Agents IA Benchmarks

SIG

HYP