Page 62 sur 147

ToutHaut signalRécent
5864 articles
Reddit r/LocalLLaMA·

Vector Policy Optimization: Training for Diversity Improves Test-Time Search

Vector Policy Optimization (VPO) est un algorithme RL qui entraîne les modèles de langage à produire des solutions diversifiées en anticipant plusieurs fonctions de récompense vectorielles. VPO remplace l'estimateur d'avantage GRPO et surpasse les baselines RL scalaires sur quatre tâches, avec des gains croissants à mesure que le budget de recherche augmente.

Reinforcement learningRaisonnementGénération de code
SIG
72
HYP
28
Reddit r/LocalLLaMA·

I ran a quantization shootout on Qwen3-Coder and the results are... interesting

Benchmark de quantization sur Qwen3-Coder-Next avec 3× R9700 PRO. UD-Q5_K_M surpasse MXFP4_MOE sur tous les métriques qualité (94% vs 89.4% top-1 accuracy, KL divergence 0.0217 vs 0.0746) avec pénalité vitesse négligeable (~10% en decode). L'approche de précision dynamique d'Unsloth réduit exponentiellement les erreurs cumulatives sur sorties longues.

QwenGénération de codeFine-tuning
SIG
72
HYP
28
Reddit r/LocalLLaMA·

Open source: cloned Rocky's voice from Project Hail Mary in two days, full pipeline + 2:10 of training audio + trained RVC v2 model

Clonage de la voix de Rocky (Project Hail Mary) en deux jours via pipeline open-source. Extraction audio (ffmpeg + demucs), transcription (Whisper), diarization (pyannote), puis entraînement RVC v2 sur 2:10 min audio. Modèle .pth (55MB) et code publics. Comparaison XTTS v2 / YourTTS / RVC v2 / OpenVoice v2.

VoixOpen sourceGénération de code
SIG
72
HYP
28
arXiv cs.AI·

Neural Estimation of Pairwise Mutual Information in Masked Discrete Sequence Models

Méthode neurale pour estimer l'information mutuelle conditionnelle par paires dans les modèles de diffusion masqués (MDMs). Le framework utilise les états cachés d'un MDM préentraîné et supervision par MI calculée depuis les distributions conditionnelles du modèle. Appliqué à Sudoku et génération de séquences protéiques (ESM-C), réduit les passes forward d'inférence de 3-5x en décodage parallèle guidé par MI.

PapersRaisonnementGénération de code
SIG
72
HYP
18
arXiv cs.AI·

Insights Generator: Systematic Corpus-Level Trace Diagnostics for LLM Agents

Insights Generator est un système multi-agent pour diagnostiquer les défaillances d'agents LLM à l'échelle d'un corpus. Il formule et teste des hypothèses sur les traces d'exécution pour produire des rapports d'insights fondés sur des preuves. Les experts humains utilisant IG améliorent les performances de 30,4pp ; les agents de codage montrent des gains stables.

Agents IAMulti-agentsÉvaluations
SIG
72
HYP
18
arXiv cs.AI·

AgentCo-op: Retrieval-Based Synthesis of Interoperable Multi-Agent Workflows

AgentCo-op est un framework de synthèse basé sur la récupération qui compose des compétences réutilisables, outils et agents externes en workflows exécutables via des transferts d'artefacts typés. Appliqué à la génomique et aux benchmarks de codage/math, il coordonne des agents spécialisés sans recherche globale de topologie et réduit les coûts par rapport aux baselines multi-agents.

Multi-agentsAgents IAGénération de code
SIG
72
HYP
28
arXiv cs.LG·

Quantitative coronary calcification analysis for prediction of myocardial ischemia using non-contrast CT calcium scoring

Étude ML sur 1,375 patients : prédiction de l'ischémie myocardique à partir de scans CT calcium non-contrastés. Modèle XGBoost+SHAP combinant score Agatston, 8 features calcium-omics et âge. Résultats : précision 98,9%, sensibilité 79,2%, F1 87,7%. Les calcium-omics améliorent significativement la performance vs variables cliniques seules (p<0,05).

BenchmarksPapers
SIG
72
HYP
15
arXiv cs.AI·

Playing Devil's Advocate: Off-the-Shelf Persona Vectors Rival Targeted Steering for Sycophancy

Étude sur la réduction de la sycophantie (accord du modèle même quand l'utilisateur se trompe) via des vecteurs de persona off-the-shelf. Les vecteurs orientés vers le doute/scrutin réduisent la sycophantie à 68-98% de l'effet de CAA (Contrastive Activation Addition), tout en maintenant la précision. La sycophantie est une propriété au niveau persona, non une direction unique.

AlignementSécurité IAÉvaluations
SIG
72
HYP
18
arXiv cs.CL·

Ishigaki-IDS-Bench: A Benchmark for Generating Information Delivery Specification from BIM Information Requirements

Ishigaki-IDS-Bench est un benchmark pour évaluer la génération de fichiers XML Information Delivery Specification (IDS) à partir de spécifications BIM. Sur 166 exemples expert-validés en anglais/japonais, les 10 meilleurs LLMs atteignent 65,6% F1 macro pour l'accord de contenu, mais seulement 27,7% passent l'audit de contenu IDS. Les modèles peinent à générer du XML conforme aux standards IDS et vocabulaire IFC.

BenchmarksGénération de codePapers
SIG
72
HYP
15
arXiv cs.CL·

A Comparative Study of Language Models for Khmer Retrieval-Augmented Question Answering

Étude comparative de systèmes RAG pour le khmer. BGE-M3 surpasse Jina-Embeddings-v3 et Qwen3-Embedding en dense retrieval (Hit Rate@3: 0.285). Évaluation de 5 générateurs (Qwen3, Qwen3.5, Sailor2, SeaLLMs-v3, Llama-SEA-LION-v2) sur 200 QA pairs avec 6 métriques RAGAS. Aucun modèle ne domine tous les critères; le choix du retriever reste le goulot d'étranglement.

RAGEmbeddingsBenchmarks
SIG
72
HYP
15
arXiv cs.AI·

Improving Quantized Model Performance in Qualitative Analysis with Multi-Pass Prompt Verification

Étude sur la quantification de LLaMA-3.1 (8B) pour l'analyse qualitative. Les modèles 8-bit conservent la meilleure précision ; les modèles 4-bit, 3-bit et 2-bit souffrent d'hallucinations. Une méthode de vérification multi-pass réduit les erreurs et stabilise les résultats, rendant les modèles bas-bit viables pour la recherche qualitative.

LlamaPrompt engineeringÉvaluations
SIG
72
HYP
18
arXiv cs.CL·

Evaluation of Chunking Strategies for Effective Text Embedding in Low-Resource Language on Agricultural Documents

Étude comparative de quatre stratégies de chunking (Recursive, Khmer-Aware, Sentence-Based, LLM-Based) pour RAG sur documents agricoles en khmer. Le chunking Recursive avec 300 caractères obtient les meilleures performances : L2 distance 0.4295, Answer Relevance 0.8663, Khmer IoU 0.6441. Amélioration statistiquement significative vs Sentence-Based (p=0.0121).

RAGEmbeddingsBenchmarks
SIG
72
HYP
15
arXiv cs.CL·

Harder to Defend: Towards Chinese Toxicity Attacks via Implicit Enhancement and Obfuscation Rewriting

Étude arXiv sur les attaques de toxicité implicite en chinois (CITA). Framework de red-teaming en trois étapes (apprentissage d'intent nuisible, amélioration d'implicitude, réécriture d'obfuscation) générant des données d'évaluation. Sept détecteurs testés montrent 69,48% de taux d'erreur moyen. Modèle de défense CITD fine-tuné sur données CITA améliore la robustesse.

Sécurité IAAlignementÉvaluations
SIG
72
HYP
18
arXiv cs.CL·

Broadening Access to Transportation Safety Data with Generative AI: A Schema-Grounded Framework for Spatial Natural Language Queries

Un framework utilise un LLM pour traduire des requêtes en langage naturel en opérations spatiales déterministes sur une base de données PostGIS. Testé sur des données de sécurité routière du Massachusetts (accidents, attributs routiers, écoles, arrêts de bus), le système valide 29% des requêtes erronées via une couche de règles, préservant la reproductibilité tout en démocratisant l'accès aux données.

RAGAgents IAÉvaluations
SIG
72
HYP
25
arXiv cs.LG·

PeakFocus: Bridging Peak Localization and Intensity Regression via a Unified Multi-Scale Framework for Electricity Load Forecasting

PeakFocus est un framework unifié pour la prévision des pics de charge électrique (ELPF), prédisant simultanément le timing et l'intensité des pics. Il combine une pipeline peak-aware avec perte triple, un localisateur multi-échelle et un décodeur sensible à la localisation pour surmonter les limitations des approches deux-étapes. Évalué sur les datasets ELC et WLEL.

BenchmarksPapers
SIG
72
HYP
18
arXiv cs.LG·

Harnesses for Inference-Time Alignment over Execution Trajectories

Étude de l'ingénierie des « harnesses » pour l'alignement en temps d'inférence des agents LLM. Les auteurs décomposent les harnesses en deux mécanismes : décomposition de tâches et exécution guidée. Ils identifient des modes de défaillance (sur-décomposition, sur-élagage) et montrent que les harnesses partielles peuvent surpasser les workflows entièrement structurés.

Agents IAPrompt engineeringRaisonnement
SIG
72
HYP
18
arXiv cs.LG·

Equilibrium Propagation and Hamiltonian Inference in the Diffusive Fitzhugh-Nagumo Model

Extension du framework Equilibrium Propagation aux systèmes skew-gradient avec équivalence démontrée entre Energy-Based Models profonds et réseaux Hamiltoniens. Application à des réseaux de neurones Fitzhugh-Nagumo couplés diffusivement, montrant que les solutions stationnaires admettent une structure Hamiltonienne spatiale et permettent l'application de Hamiltonian Echo Backpropagation.

PapersRaisonnementReinforcement learning
SIG
72
HYP
15
arXiv cs.AI·

VBFDD-Agent for Electric Vehicle Battery Fault Detection and Diagnosis: Descriptive Text Modeling of Battery Digital Signals

VBFDD-Agent est un agent de diagnostic de défauts de batterie pour véhicules électriques utilisant des modèles de langage. Le système transforme les signaux de batterie lithium-ion en descriptions textuelles naturelles, intègre la récupération de cas historiques et les manuels de maintenance locaux pour générer des recommandations diagnostiques structurées et interprétables.

Agents IARAGRaisonnement
SIG
72
HYP
28
arXiv cs.CL·

LatentOmni: Rethinking Omni-Modal Understanding via Unified Audio-Visual Latent Reasoning

LatentOmni propose un cadre de raisonnement audio-visuel utilisant un espace latent unifié au lieu de chaînes de pensée textuelles explicites. Le modèle intercale le raisonnement textuel avec des états latents audio-visuels, introduit OSPE pour la cohérence temporelle, et s'appuie sur LatentOmni-Instruct-35K (35K trajectoires annotées). Surpasse les baselines textuelles sur les benchmarks audio-visuels.

RaisonnementPapers
SIG
72
HYP
28
arXiv cs.LG·

A Reproducible Log-Driven AutoML Framework for Interpretable Pipeline Optimization in Healthcare Risk Prediction

yvsoucom-iterkit, un framework AutoML déterministe et log-driven, optimise les pipelines de prédiction de risque médical via 18 000+ configurations. Sur Pima et Stroke, l'augmentation (0.454), le choix du modèle (0.198) et la gestion du déséquilibre (0.101-0.406) sont les drivers clés. Ensembles atteignent F1 0.89-0.94 avec robustesse cross-seed (variabilité 0.023-0.026).

BenchmarksÉvaluationsFine-tuning
SIG
72
HYP
18
arXiv cs.LG·

DualOptim+: Bridging Shared and Decoupled Optimizer States for Better Machine Unlearning in Large Language Models

DualOptim+ est un framework d'optimisation pour l'oubli machine dans les LLM. Il utilise des états de base partagés et des états delta découplés pour équilibrer les objectifs d'oubli et de rétention. Une variante 8bit réduit la mémoire. Tests sur l'oubli fictif/réel, l'alignement de sécurité et l'apprentissage multi-tâche.

Fine-tuningSécurité IAAlignement
SIG
72
HYP
18
arXiv cs.LG·

Discovering Entity-Conditioned Lag Heterogeneity: A Lag-Gated Neural Audit Framework for Panel Time Series

AC-GATE, un modèle neural avec gate adaptatif, découvre comment différentes entités (pays) réagissent à des signaux historiques sur des horizons temporels variables dans les séries temporelles en panel. Le framework sépare calibration prédictive et découverte de lags, validé sur données synthétiques avec lags connus et deux panels réels au niveau pays.

BenchmarksPapers
SIG
72
HYP
15
arXiv cs.LG·

Alike Parts: A Feature-Informed Approach to Local and Global Prototype Explanations

Nouvelle méthode de prototypes explicables intégrant l'importance des features à deux niveaux : « alike parts » pour les explications locales (met en avant les features partagées entre instance et prototype) et sélection globale augmentée pour promouvoir la diversité des attributions. Tests sur 6 benchmarks montrent maintien ou amélioration de la fidélité du modèle.

ÉvaluationsPapers
SIG
72
HYP
15