Page 80 sur 149

ToutHaut signalRécent
5944 articles
arXiv cs.CL·

Rethinking 1-bit Optimization Leveraging Pre-trained Large Language Models

Nouvelle méthode de quantification 1-bit pour LLM exploitant les modèles pré-entraînés. Utilise un entraînement progressif cohérent (forward/backward) avec initialisation binary-aware et compensation dual-scaling pour convertir les poids en représentation binarisée. Réduit coûts d'entraînement et dégradation de précision comparé aux approches existantes.

Fine-tuningBenchmarksInfrastructure
SIG
72
HYP
18
arXiv cs.CL·

When TableQA Meets Noise: A Dual Denoising Framework for Complex Questions and Large-scale Tables

EnoTab est un framework de débruitage dual pour le TableQA (question-answering sur tables). Il décompose les questions complexes en unités sémantiques minimales et élagage les tables volumineuses via un arbre de preuves explicite, avec mécanisme de rollback pour gérer les états anormaux. Résultats probants sur questions complexes et tables à grande échelle.

RaisonnementRAGBenchmarks
SIG
72
HYP
18
arXiv cs.AI·

Concise and Logically Consistent Conformal Sets for Neuro-Symbolic Concept-Based Models

COCOCO, un framework post-hoc, intègre la Conformal Prediction aux modèles neuro-symboliques basés sur concepts (NeSy-CBMs) pour améliorer la fiabilité. Il conformalise concepts et labels conjointement via une étape de révision déduction-abduction, garantissant cohérence, couverture et concision sans hypothèse distributionnelle. Testé sur 8 datasets.

RaisonnementSécurité IAAlignement
SIG
72
HYP
18
arXiv cs.AI·

Multi-Party Multi-Objective Optimization as Consensus Search: Runtime Analysis of Cross-Party Recombination

Étude théorique des algorithmes évolutionnaires multi-objectifs pour l'optimisation multi-parties (MPMOP). Sur le benchmark MP-JCG, une mutation guidée par les gains requiert Θ(n²) évaluations pour franchir une région critique, tandis que CPR-NSGA-II atteint O(n log n) via recombination cross-party. Analyse de runtime sur BPBOMST (problème d'arbre couvrant minimum multi-parties) avec bornes paramétrées.

Multi-agentsBenchmarksPapers
SIG
72
HYP
08
arXiv cs.AI·

QQJ: Quantifying Qualitative Judgment for Scalable and Human-Aligned Evaluation of Generative AI

QQJ est un framework d'évaluation pour l'IA générative qui combine rubrics multi-dimensionnels conçus par experts et calibrage d'LLM évaluateurs sur un petit ensemble d'annotations de haute qualité. Testé sur génération de texte et images, QQJ montre meilleure alignement avec le jugement humain que les métriques automatiques traditionnelles et les évaluateurs LLM non structurés.

ÉvaluationsBenchmarksAlignement
SIG
72
HYP
28
arXiv cs.CL·

Evaluating Language Models' Evaluations of Games

Étude arXiv évaluant comment les modèles de langage et de raisonnement jugent les jeux de plateau. Sur 100+ jeux et 450 jugements humains, les modèles de raisonnement s'alignent mieux aux humains que les LLM classiques pour évaluer l'équité et le plaisir des jeux. Paradoxe : plus les modèles approchent l'optimalité théorique des jeux, moins ils correspondent aux préférences humaines.

RaisonnementÉvaluationsBenchmarks
SIG
72
HYP
15
arXiv cs.CL·

Unlocking the Potential of Diffusion Language Models through Template Infilling

Template Infilling (TI) est une méthode de conditioning pour les Diffusion Language Models qui aligne des ancres structurelles sur l'ensemble de l'espace de réponse, remplaçant le prefix prompting. Évaluée sur raisonnement mathématique, génération de code et planification, TI améliore les performances de 9,40% et accélère la génération multi-token.

Prompt engineeringGénération de codeRaisonnement
SIG
72
HYP
28
arXiv cs.AI·

Peak-Detector: Explainable Peak Detection via Instruction-Tuned Large Language Models in Physiological Sign

Peak-Detector utilise des LLMs instruction-tuned pour détecter les pics dans les signaux physiologiques (ECG, PPG, BCG, BSG) avec explainabilité. Une technique de « peak-representation » compresse les séries temporelles en préservant les événements critiques. Le modèle est optimisé via fine-tuning supervisé puis reinforcement learning multi-objectif, testé sur 7 datasets (6 publics + 1 cohorte réelle).

RaisonnementFine-tuningReinforcement learning
SIG
72
HYP
25
arXiv cs.AI·

Interaction-Breaking Adversarial Learning Framework for Robust Multi-Agent Reinforcement Learning

Nouvelle méthode IBAL pour renforcer la robustesse du MARL face aux perturbations d'interactions inter-agents. Le framework utilise une approche théorique de l'information pour construire des attaques qui dégradent la coordination en perturbant observations et actions, puis entraîne les agents à rester fiables. Amélioration démontrée sur baselines existants et scénarios d'agents manquants.

Multi-agentsReinforcement learning
SIG
72
HYP
18
arXiv cs.AI·

Reasoning Before Diagnosis: Physician-Inspired Structured Thinking for ECG Classification

CardioThink, un framework MLLM inspiré par la pratique médicale, structure le diagnostic ECG en étapes explicites (rythme, conduction, morphologie, impression) pour améliorer l'interprétabilité. L'optimisation Structured Set Policy Optimization (SSPO) aligne le raisonnement clinique sans annotations manuelles, surpassant les approches directes sur plusieurs benchmarks ECG.

RaisonnementVisionReinforcement learning
SIG
72
HYP
28
arXiv cs.AI·

Fixed External Cameras as Common Prior Maps for Active 3D Scene Graph Generation

Framework RGB pour la génération active de graphes de scènes 3D (3DSG) utilisant des caméras externes fixes comme cartes de contexte préalable. Le système fusionne observations de caméras embarquées et externes dans un pipeline unique, guidant le robot vers les régions d'incertitude sémantique élevée. Une seule caméra externe augmente le rappel d'objets initial de +79%.

VisionRobotiqueAgents IA
SIG
72
HYP
18
arXiv cs.AI·

Response-free item difficulty modelling for multiple-choice items with fine-tuned transformers: Component-wise representation and multi-task learning

Modélisation de la difficulté d'items sans réponses pour questions à choix multiples via transformers fine-tunés. Approche end-to-end sur le texte des items éliminant l'ingénierie manuelle des features. Variante multi-tâche avec objectif auxiliaire QA améliore significativement les petits échantillons.

Fine-tuningBenchmarks
SIG
72
HYP
15
arXiv cs.AI·

Balancing Knowledge Distillation for Imbalance Learning with Bilevel Optimization

BiKD propose un framework bilevel pour équilibrer dynamiquement les pertes hard et soft en distillation de connaissance sur données déséquilibrées. Un réseau de génération de poids produit des pondérations adaptatives par échantillon, guidé par un ensemble de validation équilibré. Expériences sur CIFAR-10/100 long-tailed montrent des gains sur les méthodes récentes.

Fine-tuningBenchmarksPapers
SIG
72
HYP
15
arXiv cs.CL·

GraphMind: Theorem Selection and Conclusion Generation Framework with Dynamic GNN for LLM Reasoning

GraphMind combine GNN et LLM pour le raisonnement multi-étapes en mathématiques. Le framework modélise le processus de raisonnement comme un graphe hétérogène évolutif où nœuds (conditions, théorèmes, conclusions) et arêtes (dépendances logiques) permettent la sélection dynamique de théorèmes et la génération itérative de conclusions. Résultats améliorés sur benchmarks QA.

RaisonnementAgents IABenchmarks
SIG
72
HYP
28
arXiv cs.AI·

CAREBench: Evaluating LLMs' Emotion Understanding by Assessing Cognitive Appraisal Reasoning

CAREBench est un benchmark évaluant la compréhension émotionnelle des LLMs via le raisonnement d'appraisal cognitif. Testé sur 6 modèles avec annotations complètes de chaînes inférentielles (perspectives première/troisième personne), il révèle que les modèles forts égalent les humains sur certaines tâches mais échouent sur le raisonnement d'appraisal et la reconnaissance d'émotions positives.

BenchmarksÉvaluationsRaisonnement
SIG
72
HYP
25
arXiv cs.AI·

From Imitation to Interaction: Mastering Game of Schnapsen with Shallow Reinforcement Learning

Des agents de réseaux de neurones peu profonds maîtrisent le jeu de cartes Schnapsen via apprentissage par renforcement. RLBot, entraîné par mises à jour Monte Carlo asynchrones, surpasse MLPBot (imitation supervisée) et bat significativement RdeepBot, un baseline basé sur la recherche. La combinaison d'une fonction de valeur apprise avec une recherche plus profonde en jeu améliore les performances.

Reinforcement learningBenchmarksPapers
SIG
72
HYP
15
arXiv cs.AI·

Distinguishable Deletion: Unifying Knowledge Erasure and Refusal for Large Language Model Unlearning

Distinguishable Deletion (D²) unifie suppression de connaissance et refus pour l'oubli des LLM. La méthode utilise un index énergétique pour effacer les connaissances indésirables dans les représentations latentes plutôt que des tokens spécifiques, évitant la suppression biaisée et la réémergence de contenu nuisible. Energy-based Unlearning Alignment (EUA) applique ce mécanisme à l'entraînement et l'inférence.

Sécurité IAAlignementPapers
SIG
72
HYP
25
arXiv cs.AI·

Vision Inference Former: Sustaining Visual Consistency in Multimodal Large Language Models

Vision Inference Former (VIF) est un module architectural léger qui améliore la cohérence visuelle dans les modèles multimodaux. Il injecte continuellement les sémantiques visuelles pendant la génération pour contrer l'affaiblissement de l'alignement vision-langage sur de longues séquences. Testé sur 14 benchmarks (raisonnement, OCR, tableaux), VIF améliore les performances avec surcharge minimale.

VisionMulti-agentsAlignement
SIG
72
HYP
25
arXiv cs.AI·

Optimising CSRNet with parameter-free attention mechanisms for crowd counting in public transport

Optimisation de CSRNet avec des mécanismes d'attention sans paramètres pour compter les foules dans les transports publics. Évaluation de modules PFCA, SA et SimAM sur le dataset ShanghaiTech. PFCASA (combinaison novel PFCA+SA) surpasse les approches paramétrées tout en réduisant la taille du modèle, applicable aux systèmes embarqués.

VisionBenchmarksInfrastructure
SIG
72
HYP
25
arXiv cs.CL·

Probing Multimodal Large Language Models on Cognitive Biases in Chinese Short-Video Misinformation

Étude évaluant 8 modèles multimodaux (Gemini-2.5-Pro, o3, etc.) sur leur robustesse face aux biais cognitifs dans des vidéos courtes chinoises contenant de la désinformation. Dataset de 200 vidéos annotées manuellement couvrant 4 domaines sanitaires. Gemini-2.5-Pro obtient 71.5/100, o3 35.2. Les modèles sont vulnérables aux indices sociaux comme les IDs de chaînes autoritaires.

VisionBenchmarksSécurité IA
SIG
72
HYP
25
arXiv cs.CL·

ADMEDTAGGER: an annotation framework for distillation of expert knowledge for the Polish medical language

Framework d'annotation pour distiller les connaissances expertes d'un LLM multilingue (Llama3.1) afin d'entraîner des classifieurs BERT pour le tagging médical en polonais. DistilBERT atteint F1 > 0.80 sur 5 catégories cliniques (Radiologie, Oncologie, Cardiologie, Hypertension, Pathologie) avec 500× moins de paramètres et 300× moins de VRAM qu'un LLM.

LlamaFine-tuningGénération de code
SIG
72
HYP
18
arXiv cs.CL·

"The Whole Is Greater Than the Sum of Its Parts": A Compatibility-Aware Multi-Teacher CoT Distillation Framework

COMPACT, un framework de distillation CoT multi-enseignants, fusionne adaptativement les supervisions de plusieurs LLMs vers des modèles compacts. Il pondère dynamiquement les gradients des enseignants via trois métriques : consensus basé graphe, adaptabilité par information mutuelle, et difficulté basée perte. Résultats SOTA sur plusieurs benchmarks sans oubli catastrophique.

RaisonnementFine-tuningPapers
SIG
72
HYP
25
Reddit r/MachineLearning·

We built a tool that installs frameworks like ComfyUI, Ollama, OpenWebUI etc on any cloud GPU in one command and saves your whole setup between sessions [R]

swm est un outil open-source qui automatise l'installation de frameworks (ComfyUI, Ollama, OpenWebUI, vLLM) sur GPU cloud en une commande. Il agrège les prix de 10+ fournisseurs (RunPod, Vast.ai, Lambda), synchronise les workspaces via S3, et termine automatiquement les instances inactives après 30 min pour réduire les coûts.

OutilsOpen sourceInfrastructure
SIG
72
HYP
35
Reddit r/LocalLLaMA·

club-5060ti follow-up: cleaner RTX 5060 Ti local LLM recipes, benchmark explorer, and CUDA GPU compatibility notes

Mise à jour du projet club-5060ti : repo structuré de benchmarks et recettes pour LLM locaux sur RTX 5060 Ti. Inclut explorateur de résultats statique, schéma JSON validé, recettes single/dual-card, support llama.cpp/vLLM. Baseline : RTX 5060 Ti 16GB. Recommande llama.cpp/GGUF pour GPU mixtes, vLLM NVFP4/MTP spécifique à Blackwell.

Open sourceBenchmarksInfrastructure
SIG
72
HYP
15