Page 49 sur 144

ToutHaut signalRécent
5739 articles
arXiv cs.AI·

On Wednesdays, We Ask Questions: Optimizing "Active Listening" in Automated Legal Triage and Referral

FETCH, un classifier pour le triage juridique automatisé, génère des questions de suivi via un ensemble économique de LLMs. L'étude montre que les modèles bon marché performent bien en classification, mais la génération de questions en langage clair de qualité requiert GPT-4 ou supérieur. Le prompt engineering seul ne suffit pas ; les évaluations LLM-as-judge divergent des évaluations humaines.

GPTOpenAIPrompt engineering
SIG
72
HYP
15
arXiv cs.AI·

Model-Native Computing Architecture: Envisioning Future System Architecture Through the Lens of Computer Architecture

Papier de synthèse proposant l'Intelligent Computing Architecture Model (ICAM), un cadre à 6 couches pour l'informatique model-native. Mappe les concepts d'architecture informatique classique aux systèmes LLM (gestion de cache, contexte, agents). Introduit trois lois de conception : Semantic Locality Law, Context Budget Law, Agent Speedup Law. Distingue plan d'exécution probabiliste et plan de contrôle déterministe.

Agents IAMulti-agentsRaisonnement
SIG
72
HYP
25
arXiv cs.CL·

TCAR-Gen: Temporal Graph Retrieval with Evidence Fusion for Knowledge-Grounded Generation

TCAR-Gen combine des réseaux de neurones graphiques, la fusion d'evidence temporelle et le raisonnement chain-of-trees pour la génération augmentée par récupération. Sur le benchmark Victorian Crime Diaries, atteint 0.3738 Recall@5, surpassant Vanilla RAG, Temporal RAG et GraphRAG. Tests cross-model sur GPT-OSS 20B à TinyLlama 1.1B montrent robustesse à petite échelle.

RAGRaisonnementBenchmarks
SIG
72
HYP
18
arXiv cs.LG·

A Pre-Training Analogue of Grokking in Language Models: Tracing Delayed Grammatical Generalization

Étude de la généralisation retardée (grokking) lors du pré-entraînement de modèles de langage. Via un cadre basé sur l'exposition et les paires minimales BLiMP, les auteurs observent une généralisation différée sur cinq phénomènes grammaticaux. Les vecteurs de concepts grammaticaux deviennent plus prédictifs après généralisation et occupent un sous-espace de dimension supérieure.

PapersRaisonnementÉvaluations
SIG
72
HYP
18
arXiv cs.LG·

Foundation-Preserving Adaptation via Generalized Rayleigh-Quotient Optimization

FoLoRA, un framework d'optimisation conscient de l'oubli, adapte les modèles de fondation via quotient de Rayleigh généralisé. Il équilibre performance sur tâche cible et préservation des capacités préentraînées en pénalisant les directions d'adaptation à faible utilité relative à l'oubli. Testé sur adaptation mathématique, code et suivi d'instructions.

Fine-tuningPapersAlignement
SIG
72
HYP
15
arXiv cs.AI·

Weak Critics Make Strong Learners: On-Policy Critique Distillation for Scalable Oversight

Méthode OPCD pour améliorer les grands modèles via critiques faibles. Au lieu d'utiliser des superviseurs faibles comme annotateurs, on les emploie comme critiques pour guider les révisions. La distillation progressive filtre les critiques de qualité et les intègre au modèle fort via signaux d'auto-enseignement adaptatifs. Résultats sur benchmarks de raisonnement et alignement.

RaisonnementAlignementReinforcement learning
SIG
72
HYP
25
arXiv cs.CL·

Cognitive-Linguistic Indicators of Depression in Online Communities: Analysed by DistilBERT and Holographic Reduced Representation

Étude combinant features linguistiques cognitives (pronoms première personne, mots absolutistes, émotions négatives) avec embeddings DistilBERT et Holographic Reduced Representation pour détecter la dépression dans des posts Reddit. Le modèle hybride atteint F1=0.94 vs 0.80 pour TF-IDF baseline, AUC=0.981.

EmbeddingsBenchmarksPapers
SIG
72
HYP
15
arXiv cs.LG·

Accurate Large-sample Uncertainty Quantification using Stochastic Gradient Markov Chain Monte Carlo

Nouvel article arXiv proposant des approximations discrètes pour SG(L)D avec et sans momentum, permettant des prédictions précises de la covariance stationnaire et du temps d'autocorrélation intégré. Bornes d'erreur non-asymptotiques pour l'ajustement pratique et la quantification d'incertitude, validées sur modèles mal spécifiés et grands batch sizes.

Reinforcement learningBenchmarksPapers
SIG
72
HYP
15
arXiv cs.LG·

InfoAtlas: A Foundation Model for Zero-Shot Statistical Dependence Estimate

InfoAtlas est un modèle fondation capable d'estimer l'information mutuelle entre variables haute-dimensionnelles en une seule passe forward, sans optimisation itérative. Préentraîné sur données synthétiques, il atteint 100× d'accélération par rapport aux estimateurs neuraux classiques tout en maintenant la précision et généralise à des scénarios réels complexes.

PapersBenchmarksRaisonnement
SIG
72
HYP
28
arXiv cs.LG·

Large-scale Uncertainty Quantification for Latent Variable Models Using Subsampling Markov Chain Monte Carlo

Théorie asymptotique pour SGLD-Gibbs, combinant dynamique de Langevin stochastique et mises à jour Gibbs pour l'inférence bayésienne dans les modèles à variables latentes. Les auteurs dérivent des limites de diffusion-saut et proposent un guide de tuning d'hyperparamètres garantissant une quantification d'incertitude statistiquement valide.

Reinforcement learningRaisonnementÉvaluations
SIG
72
HYP
15
arXiv cs.CL·

AEyeDE: An Attention-Based Attribution Framework for AI-Generated Text Detection

AEyeDE propose une méthode de détection de texte généré par IA basée sur les matrices d'attention d'un modèle Transformer proxy. Un CNN léger apprend à distinguer les patterns d'attention entre texte humain et IA-généré. La méthode surpasse les baselines texte-seul et montre une robustesse en transfert cross-dataset et face aux perturbations orthographiques.

PapersSécurité IAÉvaluations
SIG
72
HYP
18
arXiv cs.AI·

VESTA: Visual Exploration with Statistical Tool Agents

VESTA est un framework d'agents statistiques équipant les VLMs d'une boîte à outils exploratoire dynamique pour affiner les modèles quantitatifs. Évalué sur DAWN (benchmark de modélisation de distributions et séries temporelles), VESTA surpasse les systèmes antérieurs, notamment sur tâches complexes en astronomie (fonctions de masse initiale, signaux d'ondes gravitationnelles).

Agents IAVisionRaisonnement
SIG
72
HYP
18
arXiv cs.AI·

CAST: Non-Privileged Clipped Asymmetric Self-Teaching with Advantage Flipping for GRPO

CAST est une méthode d'auto-distillation sans réponse de référence pour GRPO (Group Relative Policy Optimization). Elle utilise un auto-enseignant sans gradient pour façonner les avantages au niveau des tokens selon la correction des trajectoires, avec inversion bidirectionnelle des signaux et avantages bornés pour les groupes à variance zéro. Améliore le raisonnement mathématique.

Reinforcement learningRaisonnementGénération de code
SIG
72
HYP
18
arXiv cs.AI·

Acting with AI: An Interaction-Based Framework for Agentic Tort Liability

Un cadre juridique pour la responsabilité civile des systèmes IA agentiques. L'article propose trois catégories d'interaction (dérive autonome, outil pur, planification collaborative) et utilise les logs d'interaction comme preuve pour déterminer où la responsabilité s'attache. Introduit un standard « Agent Raisonnable » basé sur la vérification de contraintes et la traçabilité.

Agents IARégulationSécurité IA
SIG
72
HYP
15
arXiv cs.CL·

Toward Robust In-Context Learning: Leveraging Out-of-distribution Proxies for Target Inaccessible Demonstration Retrieval

DOPA, un framework de recherche de démonstrations, utilise un proxy OOD pour approximer le domaine cible inaccessible et guide la récupération de démonstrations pertinentes. Une contrainte de diversité basée sur la distance de Mahalanobis assure la variété des exemples sélectionnés. Résultats positifs sur plusieurs LLMs et tâches en contexte de distribution shift sévère.

Prompt engineeringBenchmarksPapers
SIG
72
HYP
18
arXiv cs.CL·

lmfaoooo at SemEval-2026 Task 1: Humor Is an Audience. Preference Modeling for Constrained Humor Generation

Système de génération d'humour pour SemEval-2026 Task-1 (MWAHAHA) utilisant une stratégie « générer-beaucoup → sélectionner-meilleur ». Génération de candidats diversifiés via prompting multi-étapes et ensemble de modèles, puis sélection via un modèle de préférence entraîné sur 2.5K jugements humains appariés. Classement 1er en anglais et chinois, 2e en espagnol.

Prompt engineeringÉvaluationsBenchmarks
SIG
72
HYP
25
arXiv cs.LG·

Rethinking the Role of Temperature in Large Language Model Distillation

Étude arXiv sur le rôle de la température dans la distillation de LLM. Les auteurs montrent que la divergence KL avant (FKL) surpasse la divergence KL inverse (RKL) à températures élevées, contrairement aux conclusions empiriques antérieures qui omettaient ce paramètre. La température enrichit FKL avec des signaux de tokens non-dominants tandis qu'elle rescale seulement les gradients RKL.

Fine-tuningPapersBenchmarks
SIG
72
HYP
18
arXiv cs.AI·

Deliberative Curation: A Protocol for Multi-Agent Knowledge Bases

Protocole de gouvernance pour bases de connaissances multi-agents combinant cycle de vie formalisé, vote délibératif pondéré par réputation (Beta Reputation + EigenTrust) et sanctions graduées. Évaluation sur 100 agents, 7 archétypes comportementaux : 0.826 vs 0.791 de précision face à l'adversité modérée (p<0.001). Le masquage vote commit-reveal apporte +8.2-8.6pp.

Multi-agentsAgents IABenchmarks
SIG
72
HYP
15
arXiv cs.CL·

Isolating LLM Lexical Bias: A Curation-Free Triangulated Metric for Preference-Stage Learning

Nouvelle métrique automatisée (Triangulated Preference Shift score) pour mesurer les biais lexicaux introduits lors de l'apprentissage par préférence (RLHF) dans les LLM, sans annotation manuelle. Analyse sur 6 familles de modèles révèle une tendance vers un « langage de prestige » (suremploi de « delve », « furthermore »).

Reinforcement learningAlignementÉvaluations
SIG
72
HYP
18
arXiv cs.AI·

Product-Aware Deep Autoencoders for Robust Process Monitoring in Multi-Product Cyber-Physical Systems

Article académique proposant des autoencodeurs sensibles aux produits pour la détection d'anomalies dans les systèmes cyber-physiques multi-produits. Les modèles globaux traditionnels créent des « angles morts » où les attaques peuvent passer inaperçues. Tests sur Tennessee Eastman Process : le modèle produit-aware détecte 100% des scénarios d'attaque contre 22.2% pour le modèle global.

BenchmarksSécurité IAÉvaluations
SIG
72
HYP
15
arXiv cs.LG·

When Softmax Fails at the Top: Extreme Value Corrections for InfoNCE

InfoNCE, l'objectif standard du contrastive learning, repose sur une hypothèse statistique mal alignée avec les embeddings normalisés modernes. Les auteurs proposent WEINCE, une modification simple utilisant la théorie des valeurs extrêmes et des statistiques batch en ligne pour corriger les logits softmax, sans paramètres supplémentaires. Améliorations consistantes sur 5 benchmarks vision.

PapersBenchmarksEmbeddings
SIG
72
HYP
15
arXiv cs.CL·

BOUTEF: A Multilingual Corpus for FakeNews in North Africa -- Language as a Weapon

BOUTEF est un corpus multilingue de 2 pays (Algérie, Tunisie) couvrant fausses nouvelles, narratifs authentiques, commentaires et débunkage. Inclut MSA, dialectes algérien/tunisien, arabizi, français, anglais et code-switching. Analyse révèle que les fausses nouvelles utilisent narratifs émotionnels et cadrage sensationnaliste, tandis que le débunkage adopte un style factuel.

PapersBenchmarksSécurité IA
SIG
72
HYP
18
arXiv cs.LG·

Adversarially Robust Control of Conditional Value-at-Risk via Rockafellar-Uryasev Conformal Inference

Cadre en ligne sans hypothèse distributive pour contrôler la Conditional Value-at-Risk (CVaR) en environnements non-stationnaires et adversariels. Combine inférence conforme, apprentissage en ligne et représentation variationnelle de Rockafellar-Uryasev. Garanties de sécurité prouvées pour risques de queue non-linéaires. Applications : gestion de portefeuille et atténuation de toxicité LLM.

PapersSécurité IARaisonnement
SIG
72
HYP
15
Reddit r/MachineLearning·

How much of MLE-Bench's gains are the algorithm vs. better models + more search? [R]

MLE-Bench affiche 80% de gains en deux ans, mais une nouvelle étude (FML-Bench) révèle que peu provient du progrès algorithmique réel. À budget de steps égal et modèles identiques, l'algorithme AIDE de deux ans égale les systèmes modernes de recherche agent/évolutionnaire. FML-Bench unifie l'agent d'édition de code, la définition des steps et les splits val/test pour évaluer l'efficacité algorithmique.

BenchmarksAgents IAÉvaluations
SIG
72
HYP
25