Page 63 sur 147

ToutHaut signalRécent
5869 articles
arXiv cs.AI·

Parallel LLM Reasoning for Bias-Resilient, Robust Conceptual Abstraction

Étude proposant un cadre de traitement parallèle par chunks pour analyser les longs documents avec les LLM. Le texte est divisé en segments sémantiques traités indépendamment, puis consolidés avec ancrage explicite aux preuves. Résultats : réduction de 84% des erreurs d'omission, augmentation de 130% de la traçabilité, réduction de 91% des affirmations non fondées.

RaisonnementÉvaluationsPrompt engineering
SIG
72
HYP
25
arXiv cs.AI·

Teaching AI Through Benchmark Construction: QuestBench as a Course-Based Practice for Accountable Knowledge Work

Des étudiants construisent QuestBench, un benchmark de 256 questions en sciences humaines et sociales, pour évaluer les systèmes de recherche profonde. Les tests révèlent que GPT-4.5 atteint 57,58% de réussite tandis que la moyenne est 16,85%, exposant des défaillances cachées dans 13 systèmes évalués. Cette pratique pédagogique enseigne aux étudiants à juger la qualité des réponses IA.

BenchmarksÉvaluationsGPT
SIG
72
HYP
25
arXiv cs.AI·

Mind the Sim-to-Real Gap & Think Like a Scientist

Article théorique sur l'équilibre entre simulateurs pré-entraînés et expériences réelles en planification séquentielle. Décompose l'erreur du simulateur en décalage calibration-déploiement et résidu paramétrique. Propose Fisher-SEP, une politique expérimentale qui minimise la variance prédictive. Cas d'étude : chaîne logistique de distributeurs et dépistage du VIH.

Reinforcement learningRaisonnementPapers
SIG
72
HYP
15
arXiv cs.AI·

GraphDiffMed: Knowledge-Constrained Differential Attention with Pharmacological Graph Priors for Medication Recommendation

GraphDiffMed propose un cadre de recommandation médicamenteuse basé sur l'attention différentielle dual-scale et des contraintes pharmacologiques. Testé sur MIMIC-III, le modèle filtre le bruit intra-visite et inter-visite tout en intégrant les interactions médicamenteuses, surpassant les baselines existantes en qualité et sécurité.

BenchmarksPapersSécurité IA
SIG
72
HYP
18
arXiv cs.CL·

GHI: Graphormer over Conditioned Hypergraph Incidence for Aspect-Based Sentiment Analysis

GHI est un framework basé sur Graphormer pour l'analyse de sentiment basée sur les aspects (ABSA). Il utilise une structure hypergraphe bipartite pour représenter les relations entre tokens et hyperedges, intégrant des signaux linguistiques et sémantiques. Avec 247M paramètres, GHI surpasse DeBERTa sur six benchmarks SemEval et approche les performances de Flan-T5 11B sur ISE.

PapersBenchmarksRaisonnement
SIG
72
HYP
18
arXiv cs.LG·

I-SAFE: Wasserstein Coherence Metrics for Structural Auditing of Scientific AI Models

I-SAFE est un framework d'audit post-hoc pour modèles IA scientifiques basé sur la métrique de cohérence Wasserstein (WCM). Il évalue si les prédictions d'un modèle reflètent la structure du domaine ou exploitent des raccourcis statistiques. Testé sur la prédiction d'interactions drogue-cible (DeepConvDTI, DeepDTA, TAPB), il révèle des profils de réponse distribués distincts invisibles aux métriques de précision.

ÉvaluationsSécurité IAAlignement
SIG
72
HYP
15
arXiv cs.LG·

Alike Parts: A Feature-Informed Approach to Local and Global Prototype Explanations

Nouvelle méthode de prototypes explicables intégrant l'importance des features à deux niveaux : « alike parts » pour les explications locales (met en avant les features partagées entre instance et prototype) et sélection globale augmentée pour promouvoir la diversité des attributions. Tests sur 6 benchmarks montrent maintien ou amélioration de la fidélité du modèle.

ÉvaluationsPapers
SIG
72
HYP
15
arXiv cs.LG·

Leveraging Self-Paced Curriculum Learning for Enhanced Modality Balance in Multimodal Conversational Emotion Recognition

Cadre Self-Paced Curriculum Learning (SPCL) pour la reconnaissance d'émotions multimodales en conversations. Mesureur de difficulté dual (niveau énoncé et conversation) guide l'apprentissage des cas faciles aux difficiles. Tests sur IEMOCAP (+1.2% à +6.6% F1) et MELD (+10.4%) montrent amélioration de l'équilibre modalité.

RaisonnementBenchmarks
SIG
72
HYP
18
arXiv cs.LG·

Discovering Entity-Conditioned Lag Heterogeneity: A Lag-Gated Neural Audit Framework for Panel Time Series

AC-GATE, un modèle neural avec gate adaptatif, découvre comment différentes entités (pays) réagissent à des signaux historiques sur des horizons temporels variables dans les séries temporelles en panel. Le framework sépare calibration prédictive et découverte de lags, validé sur données synthétiques avec lags connus et deux panels réels au niveau pays.

BenchmarksPapers
SIG
72
HYP
15
arXiv cs.LG·

DualOptim+: Bridging Shared and Decoupled Optimizer States for Better Machine Unlearning in Large Language Models

DualOptim+ est un framework d'optimisation pour l'oubli machine dans les LLM. Il utilise des états de base partagés et des états delta découplés pour équilibrer les objectifs d'oubli et de rétention. Une variante 8bit réduit la mémoire. Tests sur l'oubli fictif/réel, l'alignement de sécurité et l'apprentissage multi-tâche.

Fine-tuningSécurité IAAlignement
SIG
72
HYP
18
arXiv cs.LG·

A Reproducible Log-Driven AutoML Framework for Interpretable Pipeline Optimization in Healthcare Risk Prediction

yvsoucom-iterkit, un framework AutoML déterministe et log-driven, optimise les pipelines de prédiction de risque médical via 18 000+ configurations. Sur Pima et Stroke, l'augmentation (0.454), le choix du modèle (0.198) et la gestion du déséquilibre (0.101-0.406) sont les drivers clés. Ensembles atteignent F1 0.89-0.94 avec robustesse cross-seed (variabilité 0.023-0.026).

BenchmarksÉvaluationsFine-tuning
SIG
72
HYP
18
arXiv cs.AI·

SOLAR: A Self-Optimizing Open-Ended Autonomous Agent for Lifelong Learning and Continual Adaptation

SOLAR est un agent autonome utilisant la méta-apprentissage au niveau des paramètres pour s'adapter continuellement à des flux de données non-stationnaires. Il combine apprentissage par renforcement multi-niveaux et mémoire épisodique pour équilibrer plasticité et stabilité, surpassant les baselines sur des tâches de raisonnement commun, mathématique, médical, codage, social et logique.

Agents IAReinforcement learningRaisonnement
SIG
72
HYP
35
arXiv cs.AI·

Interaction Locality in Hierarchical Recursive Reasoning

Cadre d'analyse pour mesurer si le flux d'information reste localisé ou traverse les frontières sémantiques dans le raisonnement spatial. Appliqué à HRM et TRM (modèles hiérarchiques récursifs) sur Maze-Hard, Sudoku Extreme et ARC-AGI. L'activation patching révèle que les états récurrents de haut niveau écrivent localement, accumulant progressivement une structure globale.

RaisonnementÉvaluationsPapers
SIG
72
HYP
15
arXiv cs.CL·

LatentOmni: Rethinking Omni-Modal Understanding via Unified Audio-Visual Latent Reasoning

LatentOmni propose un cadre de raisonnement audio-visuel utilisant un espace latent unifié au lieu de chaînes de pensée textuelles explicites. Le modèle intercale le raisonnement textuel avec des états latents audio-visuels, introduit OSPE pour la cohérence temporelle, et s'appuie sur LatentOmni-Instruct-35K (35K trajectoires annotées). Surpasse les baselines textuelles sur les benchmarks audio-visuels.

RaisonnementPapers
SIG
72
HYP
28
arXiv cs.AI·

Personality Engineering with AI Agents: A New Methodology for Negotiation Research

Des chercheurs proposent une méthodologie appelée « personality engineering » utilisant des agents IA pour tester rigoureusement les théories de négociation. Les agents IA paramètrent précisément les personnalités des négociateurs selon deux dimensions (chaleur et dominance) du circumplex interpersonnel, permettant des expériences contrôlées impossibles avec des humains.

Agents IAPapersRaisonnement
SIG
72
HYP
25
arXiv cs.CL·

Claim-Selective Certification for High-Risk Medical Retrieval-Augmented Generation

Système de certification sélective par réclamation pour RAG médical haute-risque. Chaque réponse est décomposée en affirmations vérifiables, évaluées contre les preuves récupérées et mappées à {complet, partiel, conflit, abstention}. Sur le protocole de certification faible-label, UCCR=0.0000, PAU=1.0000, précision PAU=0.9901, précision action=0.9204 (dev, n=314) et 0.8997 (test, n=319).

RAGÉvaluationsSécurité IA
SIG
72
HYP
15
arXiv cs.LG·

Correcting Class Imbalance in Prior-Data Fitted Networks for Tabular Classification

Les réseaux pré-entraînés sur données (PFN) excellent sur la classification tabulaire mais souffrent du déséquilibre de classes. Cette étude adapte des techniques classiques (thresholding, downsampling) aux PFN, montrant que le thresholding surperforme grâce à la calibration des PFN, tandis que le downsampling offre un bon compromis avec coût computationnel réduit.

BenchmarksÉvaluations
SIG
72
HYP
15
Reddit r/LocalLLaMA·

Honesty in a small model drops from 35% to 0% by changing the tone of the prompt. Sharing the findings.

Un article publié sur arXiv montre que l'honnêteté de petits modèles open-source chute de 35% à 0% en changeant le ton de la requête. Face à des problèmes de codage impossibles, les modèles admettent l'impossibilité 33% du temps en langage neutre, mais 0% sous pression. L'analyse interne révèle que chaque ton laisse une signature distincte dans les couches profondes du réseau.

PapersAlignementSécurité IA
SIG
72
HYP
35
Reddit r/LocalLLaMA·

LlamaStation v0.9 — llama.cpp GUI for Windows with multi-backend support, TurboQuant, MTP and more

LlamaStation v0.9 est une interface graphique Windows pour llama.cpp avec support multi-backend (TurboQuant, MTP, AtomicChat, BeeLlama). Lance llama-server directement sans couche intermédiaire, offre contrôle complet des paramètres, mesure VRAM en temps réel, profils par modèle, mode voix hors ligne (XTTS v2 + faster-whisper), mode headless et mise à jour automatique.

LlamaOutilsOpen source
SIG
72
HYP
35
arXiv cs.LG·

Less Data, Faster Training: repeating smaller datasets speeds up learning via sampling biases

Répéter un petit dataset lors de l'entraînement accélère l'apprentissage comparé à un grand dataset, via des biais d'échantillonnage qui favorisent la croissance couche par couche. L'effet est observé sur tâches algorithmiques, architectures et optimiseurs variés. Les auteurs proposent analyse théorique et interventions empiriques.

PapersRaisonnementReinforcement learning
SIG
72
HYP
18