Page 72 sur 192

ToutHaut signalRécent

7679 articles

TA-RAG: Tone-Aware Retrieval-Augmented Generation for Peer-Support Health Communication

TA-RAG est un framework RAG léger basé sur des prompts qui intègre le contrôle du ton dans les pipelines RAG sans fine-tuning. Il opérationnalise le ton via quatre composants : réécriture sans stigma, ajustement de lisibilité, adaptation au destinataire et reformulation empathique. Évalué sur des données HIV peer-support (HOLA, NAPWHA), il améliore la qualité communicationnelle tout en préservant le contenu.

RAG Prompt engineering Sécurité IA

SIG

HYP

arXiv cs.CL·8 juin

Signal-Driven Observation for Long-Horizon Web Agents

Les agents web sur long horizon consomment des milliers de tokens à chaque étape (DOM brut, arbres d'accessibilité), dégradant le contexte. Signal-Driven Observation (SDO) découple observation et action : une sous-requête lit le DOM complet mais retourne uniquement les éléments pertinents, réinvoquée seulement si un détecteur léger se déclenche (transitions URL, éléments interactifs, échecs d'action).

Agents IA Raisonnement Papers

SIG

HYP

arXiv cs.CL·8 juin

CRAFT: A Unified Counterfactual Reasoning Framework for Tabular Question Answering and Fact Verification

CRAFT est un framework de raisonnement contrefactuel unifié pour le question-answering tabulaire et la vérification de faits. La méthode reformule ces tâches en processus de vérification bidirectionnel, construisant explicitement des énoncés déclaratifs et leurs variantes contrefactuelles. Résultats : améliorations sur WikiTQ et TabFact, réduction des écarts de performance entre LLMs.

Raisonnement Benchmarks Papers

SIG

HYP

arXiv cs.LG·8 juin

GRASP: Geometry-aware Residual Alignment for Scalable Pretraining Data Attribution

GRASP est une méthode d'attribution de données qui modélise les interactions entre sous-ensembles d'entraînement via une pénalité géométrique quadratique, dépassant les approches additives isolées. Évaluée sur du préentraînement à grande échelle, elle double la corrélation de rang pour la fidélité contrefactuelle et réduit les coûts de construction d'artefacts d'un ordre de magnitude.

Papers Benchmarks Fine-tuning

SIG

HYP

arXiv cs.CL·8 juin

Are Large Language Models Suitable for Graph Computation? Progress and Prospects

Étude systématique de l'utilisation des LLM pour le calcul sur graphes. Les auteurs proposent une taxonomie basée sur deux paradigmes : LLM comme exécuteur (résolution directe) et LLM comme planificateur (décomposition et invocation d'outils externes). Conclusion : fiables pour tâches simples et petite échelle, peu fiables pour tâches complexes et exigeant de la précision.

Raisonnement Agents IA Benchmarks

SIG

HYP

arXiv cs.LG·8 juin

The Geometry of Last-Layer Model Stealing

Étude géométrique des conditions permettant de voler la couche finale d'un transformer. L'auteur démontre qu'une copie parfaite du dernier étage est possible sous certaines conditions, mais que les couches cachées ne peuvent pas être entièrement rétro-ingéniérées à partir des seules sorties.

Papers Sécurité IA Raisonnement

SIG

HYP

arXiv cs.CL·8 juin

EASE-TTT: Evidence-Aligned Selective Test-Time Training for Long-Context Question Answering

EASE-TTT combine la récupération de preuves et l'adaptation au test-time pour améliorer la QA sur long contexte. La méthode convertit les chunks de preuves en supervision d'attention douce, guidant l'adaptation des paramètres d'attention côté requête. Testée sur 6 tâches LongBench avec 3 petits modèles, elle surpasse les baselines de récupération et qTTT.

RAG Raisonnement Benchmarks

SIG

HYP

arXiv cs.LG·8 juin

Hearing the Unspoken: Language Model Priors for Acoustic Adversarial Attacks

Une nouvelle attaque adversariale « Semantic Gambit » exploite les priors de modèles de langage pour contourner les contraintes causales des systèmes ASR temps réel. En augmentant l'adversaire avec du contexte prédictif LLM, les chercheurs élèvent le Word Error Rate à 35,6% — trois fois supérieur à l'état de l'art.

Sécurité IA Voix Raisonnement

SIG

HYP

arXiv cs.CL·8 juin

Auditing Training Data in Domain-adapted LLMs: LoRA-MINT

LoRA-MINT est une méthode d'audit pour détecter si des données individuelles ont été utilisées dans l'entraînement de LLMs fine-tunés via LoRA. Testée sur 4 modèles et 3 benchmarks, elle atteint une précision de 0,77 à 0,92 pour identifier l'exposition de données, surpassant les baselines existantes.

Fine-tuning Sécurité IA Évaluations

SIG

HYP

arXiv cs.LG·8 juin

PandaAI: A Practical Agent CQ2 for Neuro-symbolic Data Analysis And Integrated Decision-Making in Quantitative Finance

PandaAI est un agent neuro-symbolique basé LLM pour l'analyse financière quantitative. Fine-tuné sur données financières et intégré dans une architecture modulaire fermée, il combine raisonnement LLM avec rigueur financière. Sur données CSI 300 : +18,2% Rank IC, -25,7% drawdown max vs modèles SOTA.

Agents IA Fine-tuning Raisonnement

SIG

HYP

arXiv cs.CL·8 juin

Tree-of-Experience: A Structured Experience-Management Solution for Self-Evolving Agents under Low-Repetition and Implicit-Reward Environments

Nouvel article sur la gestion structurée d'expérience pour agents LLM en environnements à récompenses implicites. Présente FinEvolveBench, un benchmark de prédiction de sentiment financier avec retours retardés et bruyants, et Tree-of-Experience (ToE), une méthode d'organisation et validation d'expérience qui surpasse les baselines sans mémoire.

Agents IA Reinforcement learning Benchmarks

SIG

HYP

arXiv cs.LG·8 juin

A Rolling-Window Framework for Churn Prediction and Behavioral Driver Identification

Framework de prédiction de churn client utilisant des fenêtres temporelles glissantes de 30 jours. Sur données réelles non-contractuelles : modèle feature-based atteint 87,6% accuracy et ROC-AUC 0,94 ; modèle séquentiel obtient 96,1% recall. Robustesse confirmée sur données futures (accuracy >83%, ROC-AUC >0,91) sans réentraînement.

Benchmarks Papers

SIG

HYP

arXiv cs.AI·8 juin

CARVE-Q: Quantum-Proposed, Classically Certified Interactive Driving Repair

CARVE-Q propose une architecture de certification pour réparer les manœuvres de conduite autonome rejetées. Un algorithme quantique (Grover) réduit la recherche dans le treillis de réparation multi-agents de O(M) à O(√M) requêtes, tandis que l'autorité de sécurité reste classique. Validation sur 65 536 assignations avec 100% respect du droit de passage.

Raisonnement Robotique Sécurité IA

SIG

HYP

arXiv cs.AI·8 juin

DiBS: Diffusion-Informed Branch Selection

DiBS combine un solveur symbolique complet avec un modèle de diffusion pour guider la sélection de branches dans la résolution de Sudoku. Sur le benchmark Royle 17-clue, l'approche réduit significativement le coût de recherche (nœuds, retours arrière, percentiles long-tail) comparée aux heuristiques classiques.

Raisonnement Papers Benchmarks

SIG

HYP

arXiv cs.LG·8 juin

Modeling Nonlinear Feature Interactions with Product-Unit Residual Networks

Les chercheurs proposent PURe (Product-Unit Residual Networks), des réseaux intégrant des unités multiplicatives et connexions résiduelles pour modéliser explicitement les interactions non-linéaires entre features. Évaluation sur benchmarks synthétiques et données réelles montre meilleure robustesse au bruit, efficacité en régime low-data, et interprétabilité améliorée via SHAP comparé aux MLPs standards.

Papers Raisonnement

SIG

HYP

arXiv cs.AI·8 juin

Accelerated Fourier SAT (AFSAT): Fully Realising a GPU-based Symmetric Pseudo-Boolean SAT Solver

AFSAT est un solveur GPU pour la satisfiabilité pseudo-booléenne basé sur la recherche locale continue. Implémenté en JAX, il utilise la composition de fonctions pures, la vectorisation automatique et la compilation JIT pour paralléliser massivement la recherche sur des batches. Améliore stabilité numérique, performance et efficacité mémoire par rapport au prototype FastFourierSAT.

Benchmarks Infrastructure Papers

SIG

HYP

arXiv cs.LG·8 juin

TorchKM: A GPU-Oriented Library for Kernel Learning and Model Selection

TorchKM est une bibliothèque open-source pour machines à noyaux (SVM, régression logistique à noyau, régression quantile) avec accélération GPU. API scikit-learn, optimisation d'algèbre linéaire GPU, et réutilisation intelligente des opérations matricielles. Code disponible sur GitHub, installation PyPI.

Open source Outils Infrastructure

SIG

HYP

arXiv cs.AI·8 juin

OpenSkill: Open-World Self-Evolution for LLM Agents

OpenSkill propose un framework pour l'auto-évolution d'agents LLM en environnement ouvert, sans supervision de tâche cible. L'agent acquiert connaissances et signaux de vérification depuis documentation/web, synthétise des compétences transférables, et les affine via des tâches virtuelles auto-construites. Résultats sur 3 benchmarks montrent meilleure performance que baselines avec transfert cross-modèle.

Agents IA Reinforcement learning Papers

SIG

HYP

arXiv cs.AI·8 juin

Workflow-to-Skill: Skill Creation via Routing-Workflow-Semantics-Attachments Decomposition

Papier arXiv proposant W2S, un framework pour construire automatiquement des Skills (procédures encodées) pour agents LLM à partir de traces d'interaction hétérogènes. Introduit RWSA, une représentation intermédiaire décomposant Skills en structure Workflow, Semantics et Attachments. Sur 70 Skills, W2S améliore la cohérence de rejeu comportemental de 10.5% vs baselines textuelles.

Agents IA Raisonnement Papers

SIG

HYP

arXiv cs.LG·8 juin

Uncertainty-Aware LLM-Guided Policy Shaping for Sparse-Reward Reinforcement Learning

ULPS intègre un LLM calibré dans la boucle d'entraînement RL pour guider la politique via trajectoires symboliques A* et dropout MC. Sur MiniGridUnlockPickup, le framework améliore la précision de 9%, réduit les interactions environnementales et augmente la récompense AUC comparé aux baselines non guidées.

Reinforcement learning Raisonnement Agents IA

SIG

HYP

arXiv cs.AI·8 juin

Quantum-Inspired Trace-Augmented Evidence Selection for Reasoning over Structured Hypothesis Spaces

Les LLM échouent sur les tâches juridiques exigeant une sélection rigoureuse des preuves. EP-HUBO traite la sélection de fragments de raisonnement (CoT) comme un problème d'optimisation combinatoire binaire d'ordre supérieur, pondéré par pertinence/spécificité/distinctivité. Testé sur benchmarks légaux avec recuit simulé et hardware quantique Dirac-3.

Raisonnement Benchmarks Papers

SIG

HYP

arXiv cs.AI·8 juin

Hierarchical Semantic-Constrained Heterogeneous Graph for Audio-Visual Event Localization

Méthode HSCHG pour la localisation d'événements audio-visuels en vocabulaire ouvert. Construit un graphe hétérogène hiérarchique en espace euclidien avec nœuds de segments et vidéo, applique une fusion multi-modale sélective et projette les représentations en espace hyperbolique avec régularisation d'implication hiérarchique. Surpasse les méthodes existantes sur le benchmark OV-AVEL.

Vision Voix Benchmarks

SIG

HYP

arXiv cs.LG·8 juin

Capturing non-Markovian dynamics in non-equilibrium stochastic systems using flow matching

Méthode de flow matching pour modéliser les distributions de flux dans les systèmes stochastiques de particules, capturant les effets non-Markoviens et non-Gaussiens ignorés par les équations hydrodynamiques classiques (Dean-Kawasaki régularisée). Validation sur le problème du premier temps de passage de Kramers.

Papers Benchmarks Reinforcement learning

SIG

HYP

arXiv cs.LG·8 juin

Gaussian Process Latent Factor Regression for Low-Data, High-Dimensional Output Problems

Nouvelle méthode GPLFR combinant processus gaussiens et décodage linéaire-gaussien pour prédire des sorties haute-dimensionnelle à partir de peu d'exemples. Marginalisation analytique des poids du décodeur couple compression et prédiction en un seul objectif. Application : premier émulateur spatialement résolu de modèles climatiques globaux pour exoplanètes rocheuses.

Papers Benchmarks

SIG

HYP

arXiv cs.LG·8 juin

WAV: Multi-Resolution Block Residual Routing for Deep Decoder-Only Transformers

WAV v1 améliore le routage des connexions résiduelles dans les Transformers profonds en ajoutant des bases directionnelles (phase et split) aux résumés de blocs. Sur TinyStories et Text8, la méthode réduit la perte de validation à 48 couches (0.4738 vs 0.4960) avec paramètres négligeables.

Raisonnement Benchmarks Papers

SIG

HYP

arXiv cs.LG·8 juin

Multi-Scale Feature Attention Network for Polymer Classification using THz Dual-Comb Spectroscopy

Réseau de neurones MSFAN pour classifier 12 types de polymères à partir de spectroscopie THz Dual-Comb. Architecture avec attention multi-échelle et convolutions parallèles atteint 85,2% de précision, surpassant les modèles existants pour le tri des plastiques recyclés.

Vision Benchmarks

SIG

HYP

arXiv cs.CL·8 juin

Contrastive Training with LLM-generated Near-Misses for Robust Code-Switching Speech Recognition

Méthode de contrastive training pour améliorer la reconnaissance vocale en code-switching (alternance entre langues). Les auteurs identifient les régions critiques, génèrent des contre-exemples acoustiquement plausibles via LLM, puis affinent Whisper-small avec LoRA. Résultats : réduction >2% des erreurs sur CS-FLEURS et ViMedCSS.

Voix Fine-tuning Reinforcement learning

SIG

HYP

arXiv cs.CL·8 juin

TRACE: Trajectory Reasoning through Adaptive Cross-Step Evidence Aggregation for LLM Agents

TRACE est un framework de monitoring pour trajectoires d'agents LLM long-horizon. Il utilise une boucle TIJ (Triage-Inspect-Judge) pour identifier les régions à haut signal, inspecter les actions tout en accumulant les preuves, et synthétiser un verdict au niveau trajectoire. Évalué sur SHADE-Arena : F1=0.713, recall=0.844.

Agents IA Sécurité IA Raisonnement

SIG

HYP

arXiv cs.AI·8 juin

Detecting and Mitigating Bias by Treating Fairness as a Symmetry Operation

Papier formalisant le biais comme rupture de symétrie : un classifieur est équitable si ses prédictions restent invariantes quand on change un attribut sensible (genre, race) à mérite constant. Régularisation par perte pour restaurer la symétrie. Résultats : 90% de réduction des violations, coût en précision ~5% sur 4 datasets synthétiques.

Alignement Sécurité IA Papers

SIG

HYP

arXiv cs.AI·8 juin

SafeGene: Reusable Adapters for Transferable Safety Alignment

SafeGene propose des adaptateurs de sécurité réutilisables pour préserver l'alignement de sécurité lors du fine-tuning de LLMs open-weight. Le module découple la sécurité des mises à jour spécifiques aux tâches via des vecteurs de sécurité transférables et une recalibration par couche. Expériences sur plusieurs familles de modèles montrent réduction des réponses nuisibles sans perte de performance.

Sécurité IA Alignement Fine-tuning

SIG

HYP

arXiv cs.AI·8 juin

Attack Selection in Agentic AI Control Evaluations Meaningfully Decreases Safety

Une étude arXiv montre que les évaluations de contrôle IA sous-estiment les risques en ignorant la sélection stratégique d'attaques. Sur BashArena et LinuxArena, une politique d'attaque optimisée réduit la sécurité mesurée de 20-28 points de pourcentage à budget d'audit 1%, sans changer la capacité d'attaque sous-jacente.

Agents IA Sécurité IA Évaluations

SIG

HYP

arXiv cs.AI·8 juin

Position: Don't Just "Fix it in Post": A Science of AI Must Study Training Dynamics

Article de position argumentant qu'une science rigoureuse de l'IA doit étudier les dynamiques d'entraînement plutôt que d'analyser les modèles post-hoc. Propose d'étendre les lois d'échelle au-delà de la perte pour prédire capacités, biais et comportements de sécurité. Examine progrès en interprétabilité mécaniste, équité et biais de simplicité.

Papers Raisonnement Sécurité IA

SIG

HYP

arXiv cs.LG·8 juin

Are you sure? A Comprehensive and Comprehensible Survey of Uncertainty Quantification in Symbolic Regression

Premier survey sur la quantification d'incertitude (UQ) en régression symbolique. Examine trois approches : fréquentiste, bayésienne et sélection de modèles. L'UQ reste sous-explorée malgré son importance pour la fiabilité et l'adoption en décision réelle.

Papers Benchmarks Évaluations

SIG

HYP

Reddit r/LocalLLaMA·8 juin

Galaxy Z Fold6 as a local inference node — llama.cpp/Vulkan, homelab telemetry, SHA-256 model verification

Développeur crée Pocket Node, une app Android exécutant llama.cpp sur Galaxy Z Fold6. Charge SmolLM3 Q4_0 (1.1B params) via backend Vulkan, vérifie SHA-256 du modèle, expose API compatible OpenAI sur Tailscale, intègre monitoring homelab. Limites : contexte réduit, pas de RAG, thermique élevée en usage prolongé.

Llama Génération de code Open source

SIG

HYP

Reddit r/LocalLLaMA·7 juin

I built a PyTorch MoE/MoD training framework with custom CUDA kernels [Apache 2.0]

Framework PyTorch open-source pour entraîner des LLM avec architectures MoE/MoD, kernels CUDA personnalisés (2-7x plus rapide que PyTorch vanilla sur T4), support jusqu'à 64 experts, orchestrateur adaptatif avec 20+ métriques, configs 500K-300B paramètres. Apache 2.0, démo Colab incluse.

Open source Génération de code Infrastructure

SIG

HYP

Reddit r/LocalLLaMA·7 juin

Control a 3D avatar with language instead of buttons

Contrôle d'avatar 3D par langage naturel via programasweights, qui compile des descriptions en anglais en programmes d'action exécutés localement. Supporte séquences complexes (« marcher en agitant la main, puis sauter ») sans boutons prédéfinis. Code partiellement ouvert, application visée aux jeux vidéo.

Génération de code Agents IA Open source

SIG

HYP

Reddit r/LocalLLaMA·7 juin

llama.cpp Gemma4 MTP support merged!

Le support MTP (Multi-Token Prediction) pour Gemma4 a été fusionné dans llama.cpp. Cette optimisation permet une génération de tokens plus rapide en prédisant plusieurs tokens simultanément.

Llama Open source Génération de code

SIG

HYP

Reddit r/LocalLLaMA·7 juin

Qwen 3.6 27B KV cache quant benchmarks: 75 pairs, q8/q6/q5/q4, KVarN, Turbo/TCQ

Benchmark complet de quantification KV cache pour Qwen 3.6 27B : 75 paires testées avec q8/q6/q5/q4, KVarN, Turbo/TCQ. Résultats détaillés et analyse disponibles. BeeLlama.cpp (fork llama.cpp) utilisé comme moteur d'inférence.

Qwen Benchmarks Open source

SIG

HYP

The Decoder·7 juin

ChatGPT's new Lockdown Mode lets you disable web access and more to protect sensitive data from prompt injection

OpenAI lance Lockdown Mode pour ChatGPT, désactivant l'accès web, Deep Research et Agent Mode pour réduire les risques d'exfiltration de données par injection de prompts. Le mode bloque l'étape finale de l'attaque mais ne résout pas complètement le problème.

OpenAI Sécurité IA Agents IA

SIG

HYP

The Decoder·7 juin

Researchers pinpoint why larger language models pick up skills that small ones miss

Une étude compare des modèles de 4M à 4B paramètres et révèle que les petits modèles échouent sur les tâches rares car les tâches fréquentes écrasent continuellement leurs apprentissages. Une solution pratique : augmenter la fréquence de la tâche cible dans les données d'entraînement plutôt que d'agrandir le modèle.

Benchmarks Raisonnement

SIG

HYP