Page 60 sur 147

ToutHaut signalRécent
5857 articles
Reddit r/LocalLLaMA·

Update on 12x32gb sxm v100 cluster / local AI for legal drafting

Un avocat partage son retour d'expérience sur un cluster de 12 V100-SXM2 32GB pour le traitement juridique local. Après avoir abandonné vLLM pour les modèles MoE (incompatibilité GPU Volta), il utilise llama.cpp avec des modèles comme Gemma-4-26B et Qwen3.5-122B. Les modèles denses sur V100 sont inefficaces (~20-28 tok/s) ; les MoE atteignent 50-113 tok/s en décodage sur contextes longs.

LlamaOpen sourceInfrastructure
SIG
72
HYP
15
Reddit r/LocalLLaMA·

I built a computer use sandbox framework for codex on headless linux. GPU passthrough, computer use, and sudo access for codex all work. It's the perfect dev sandbox to allow full auto work while minimizing the "rm -rf /" risk

Développeur crée un framework sandbox pour agents IA sur Linux headless avec GPU passthrough, accès sudo et isolation du système hôte. Basé sur des VM configurables, permet navigation web autonome, exécution Docker et sessions parallèles. Code disponible sur GitHub.

Agents IAGénération de codeInfrastructure
SIG
72
HYP
28
arXiv cs.LG·

Robust OT-Guided Generative Residual Domain Adaptation for Bike-Sharing Demand Prediction under Temporal Domain Shift

Gen-ROTDA, une méthode de transport optimal robuste, adapte les modèles de prédiction de demande Citi Bike à travers les années (2021-2026). Elle transfère les résidus plutôt que les demandes brutes et utilise un générateur de caractéristiques préservant les labels. Gen-ROTDA atteint le MAE le plus bas sur la tâche 2025-2026 et surpasse les variantes OT non-robustes sous données anormales.

BenchmarksPapers
SIG
72
HYP
15
arXiv cs.CL·

Knowledge Distillation for Low-Resource Open-source Text-to-SQL Model

Framework de distillation de connaissances pour Text-to-SQL en contexte low-resource. Construit une base de connaissances (sémantique schéma, abréviations, logique métier) injectée en entraînement et inférence. Génère données synthétiques contextualisées. Évalué sur 7 benchmarks : améliore LLMs open-source et fermés, notamment sur données domain-specific.

Génération de codeFine-tuningRAG
SIG
72
HYP
25
arXiv cs.CL·

What Training Data Teaches RL Memory Agents: An Empirical Study of Curriculum Effects in Memory-Augmented QA

Étude empirique sur l'effet du curriculum d'entraînement sur les agents RL avec mémoire externe en dialogue multi-session. Trois conditions testées (LoCoMo seul, LoCoMo + LongMemEval, LongMemEval seul) montrent que la composition des données façonne les compétences spécialisées plutôt que la performance globale. Le curriculum mixte obtient le meilleur F1 global.

Reinforcement learningAgents IARaisonnement
SIG
72
HYP
15
arXiv cs.CL·

The Efficiency Frontier: A Unified Framework for Cost-Performance Optimization in LLM Context Management

Cadre unifié pour optimiser le coût-performance de la gestion du contexte dans les LLM. Évalue conjointement performance, coût en tokens et réutilisation du prétraitement sur 5000 instances HotpotQA. Réduit l'usage de tokens de 25% à performance comparable (F1≈0.78) et atteint 50% de réduction de coût avec compression mémoire.

RAGBenchmarksInfrastructure
SIG
72
HYP
18
arXiv cs.AI·

Human-in-the-Loop Multi-Agent Ventilator Decision Support with Contextual Bandit Preference Learning

VDSS, un système multi-agent pour l'aide à la décision en ventilation mécanique, coordonne des composants modulaires via des interfaces structurées et apprentissage contextuel des préférences clinicien (contextual bandit). Rejets structurés déclenchent replanning ciblé. Validation rétrospective ICU montre acceptabilité accrue et cycles réduits.

Multi-agentsReinforcement learningAgents IA
SIG
72
HYP
18
arXiv cs.CL·

A Comparative Evaluation of Structural Topic Models and BERTopic for Short, Open-Ended Survey Responses

Comparaison de Structural Topic Models (STM) et BERTopic pour analyser des réponses courtes à des enquêtes ouvertes. BERTopic produit une cohérence thématique supérieure, renforcée par l'augmentation contextuelle (stratégie introduite pour enrichir les réponses très courtes). STM offre meilleure support pour l'analyse inférentielle des covariables, BERTopic pour l'interprétabilité.

EmbeddingsBenchmarksPapers
SIG
72
HYP
15
arXiv cs.CL·

When Symptoms Are Not Enough: Evidence-Weighting Patterns in Large Language Model Psychiatric Screening

Benchmark SCID de 555 entretiens semi-structurés évalue 5 LLMs (GPT-4.1 Mini, GPT-5 Mini) sur dépistage psychiatrique (anxiété, dépression, PTSD). Précision 0.49–0.86, MCC 0.16–0.38. Les faux négatifs révèlent que les modèles sous-pondèrent les symptômes face à un fonctionnement préservé ou un soutien social, nécessitant validation clinique avant déploiement.

BenchmarksGPTSécurité IA
SIG
72
HYP
25
arXiv cs.AI·

The Deterministic Horizon: Impossibility Results as Design Specifications for Trustworthy AI Systems

Article théorique prouvant que l'architecture seule fixe un plafond d'exactitude (Deterministic Horizon) entre 19 et 31 couches sur 12 transformers. Au-delà, aucun entraînement ne l'améliore. Convertit 16 résultats d'impossibilité (Turing, Arrow, No Free Lunch) en règles de conception pour systèmes IA fiables, avec bornes calculables et coûts de violation quantifiés.

RaisonnementÉvaluationsSécurité IA
SIG
72
HYP
18
arXiv cs.AI·

Mediative Fuzzy Logic: From Type-1 Foundations to Type-2, Type-3 and Quantum Extensions

Article théorique sur la logique floue méditative : formalisation unifiée des fondations type-1 avec extensions type-2, type-3 et quantiques. Caractérisation de l'opérateur méditatif comme agrégation convexe contrôlée par hésitation et contradiction. Démonstration de la cohérence sémantique et application à la fusion de capteurs pour freinage autonome.

RaisonnementSécurité IAPapers
SIG
72
HYP
15
arXiv cs.LG·

Open Multimodal Datasets and Open-Source Software for Data-Driven Modeling of Multiphase Transport and Thermal Systems

Le laboratoire NED3 publie un écosystème open-source de datasets multimodaux et logiciels pour la modélisation data-driven des systèmes thermiques et de transport multiphasique. Framework S+TD pour classifier datasets (0+0D à 3+0D), 7 packages logiciels (BubbleID, SeqReg, CFDTwin, IRISApp, decode-wfs, AELab, FlowLab) couvrant vision par ordinateur, régression de séquences, et diagnostics multimodaux.

Open sourceBenchmarksOutils
SIG
72
HYP
18
arXiv cs.LG·

RADAR: Relative Angular Divergence Across Representations

RADAR est une métrique géométrique pour estimer la transférabilité cross-domaine dans les modèles de fondation. Elle analyse l'évolution couche par couche des représentations en mesurant les alignements angulaires et les changements de distance. Évaluée sur classification de sentiment cross-lingue et classification d'images cross-domaine, RADAR rivalise avec les métriques existantes.

BenchmarksVisionEmbeddings
SIG
72
HYP
15
arXiv cs.LG·

FederatedRSF : Federated Random Survival Forests for Partially Overlapping Medical Data

FederatedRSF est un package Python implémentant des forêts aléatoires de survie fédérées pour la prédiction multi-centre sans partage de données brutes. Le système gère l'hétérogénéité des features (covariables différentes entre sites) en redistribuant uniquement les arbres compatibles. Évaluation sur cohorte GBSG2 (cancer du sein) : performance comparable au modèle centralisé.

PapersOpen sourceSécurité IA
SIG
72
HYP
15
arXiv cs.LG·

Human-Centered Learning Mechanics: A Dynamical Framework for Entropy-Regulated Representation Learning

Framework théorique HCLM pour l'apprentissage régularisé par entropie en systèmes dynamiques ouverts. Introduit le concept de « force informationnelle effective » et caractérise les régimes d'entropie dégénérés. Démontre que les surrogates géométriques (variance, log-déterminant de covariance) produisent des gradients plus stables que la softmax-normalized entropy.

PapersReinforcement learningRaisonnement
SIG
72
HYP
18
arXiv cs.CL·

Hidden Human-Like Nature of Machine-Generated Texts: Theory and Detection Enhancement

Des chercheurs révèlent que les textes générés par LLM contiennent des spans « humain-like » cachés qui compliquent leur détection. Ils proposent un framework stacked model-agnostic utilisant une procédure hard-EM pour filtrer itérativement les sous-séquences humaines et améliorer les détecteurs existants, fonctionnant aussi sans entraînement.

ÉvaluationsSécurité IAPapers
SIG
72
HYP
28
arXiv cs.LG·

WeCon: An Efficient Weight-Conditioned Neural Solver for Multi-Objective Combinatorial Optimization Problems

WeCon est un solveur neuronal pour problèmes d'optimisation combinatoire multi-objectifs (MOCOPs). Il introduit des blocs Gated Residual Fusion pour mieux intégrer poids et features, un bloc Residual Fusion en décodeur, et une méthode Efficient Preference Optimization. Sur 4 variantes MOCOP, WeCon égale POCCO-W en HyperVolume tout en réduisant le temps d'inférence de 40%.

BenchmarksRaisonnement
SIG
72
HYP
18
arXiv cs.LG·

Approximate Machine Unlearning through Manifold Representation Forgetting Guided by Self Mode Connectivity

ManiF-SMC propose une méthode d'oubli machine basée sur la manipulation des représentations manifold. L'approche utilise une perte triplet avec marges adaptatives guidées par la connectivité de mode pour éloigner les échantillons supprimés de leurs centroïdes originaux. Expériences sur 4 datasets montrent une efficacité comparable aux méthodes état-de-l'art.

PapersSécurité IAAlignement
SIG
72
HYP
15
arXiv cs.LG·

Latent Cache Flow: Model-to-Model Communication Without Text

Latent Cache Flow (LCF) permet la communication directe entre modèles de langage via des représentations latentes comprimées au lieu du texte. L'approche réduit la taille de l'adaptateur à 4% de celle de Cache-to-Cache (C2C) et gère les contextes différents en transmettant un résumé des informations nouvelles. LCF atteint 23% de précision supérieure et 8.5x plus rapide que la communication textuelle.

Agents IAMulti-agentsRaisonnement
SIG
72
HYP
25
arXiv cs.CL·

ClimateChat-300K: A Multi-Modal Facebook Dataset for Understanding Diverse Perspectives in Climate Communication

ClimateChat-300K : dataset de 299 329 posts Facebook publics sur le changement climatique (mai 2020 - mai 2024), collectés via CrowdTangle. 41 features de métadonnées, 26 000+ pages globales. Analyse thématique (10 thèmes, 5 domaines) et sentiment révèlent que contenu émotionnel et visuel génère plus d'engagement. Ressource ouverte pour étudier polarisation et désinformation.

BenchmarksPapersOpen source
SIG
72
HYP
25
arXiv cs.CL·

AraHopeCorpus: Annotation Guidelines and Dataset for Hope Speech in Arabic Social Media Crisis Discourse

AraHopeCorpus est le premier corpus annoté d'expressions d'espoir en arabe, constitué de 10 000 commentaires YouTube sur la guerre à Gaza (2023-2024). 64% des commentaires contiennent du hope speech (encouragement religieux, solidarité collective, optimisme). Cohen's Kappa=0.71. ChatGPT montre des limites sur les dialectes et expressions culturelles.

PapersÉvaluationsBenchmarks
SIG
72
HYP
15
arXiv cs.CL·

DFKI-MLT at SemEval-2026 TASK 7: Steering Multilingual Models Towards Cultural Knowledge

DFKI-MLT applique le steering d'activation à des LLM multilingues pour améliorer la conscience culturelle lors de SemEval-2026 Task 7. La méthode ajoute des vecteurs de direction spécifiques à la langue dans le flux résiduel sans mise à jour de paramètres. Résultat : 86,96% de précision en track MCQ (7e/17), mais améliorations modestes et hétérogènes selon les paires langue-région.

Prompt engineeringRaisonnementFine-tuning
SIG
72
HYP
18
arXiv cs.CL·

A Survey of Text and Speech Resources for Hausa and Fongbe: Availability, Quality, and Gaps for NLP Development

Inventaire des ressources texte et vocales pour le hausa (80-100M locuteurs) et le fongbé (2M locuteurs). Le hausa dispose de corpus parallèles et textes variés (news, encyclopédie, éducation). Le fongbé manque de données textuelles mais bénéficie d'initiatives récentes de collecte vocale. Deux langues présentes dans les benchmarks Masakhane (NER, POS tagging).

BenchmarksPapers
SIG
72
HYP
15
arXiv cs.CL·

Cultural Adaptation in Large Language Models for Political Discourse

Article proposant un cadre de « cultural adaptation » pour les LLM en analyse politique. Identifie les biais anglais et les défaillances systématiques sur données multilingues. Propose une matrice d'évaluation (fidélité culturelle, calibration, sécurité démocratique) et des méthodes : datasets participatifs, transfer learning culturellement conscient, benchmarks adaptés.

BenchmarksÉvaluationsSécurité IA
SIG
72
HYP
25
arXiv cs.LG·

A mathematical theory of balancing relational generalization and memorization

Étude théorique sur l'équilibre entre généralisation relationnelle et mémorisation dans les systèmes d'apprentissage. Les auteurs introduisent une tâche d'inférence transitive avec exceptions et caractérisent analytiquement le comportement de modèles de régression ridge à noyau. Validation sur des modèles de langage préentraînés montrant que la généralisation réussie dépend de la géométrie représentationnelle.

PapersRaisonnementÉvaluations
SIG
72
HYP
15
arXiv cs.AI·

KPI2KVI: A Multi Agent Workflow for Calculating Key Value Indicators from Service Descriptions

KPI2KVI est un outil qui transforme des descriptions de services en langage naturel en estimations de Key Value Indicators (KVIs) via un workflow multi-agent déterministe avec LLMs. Le système élicite le contexte manquant, extrait les catégories KVI pertinentes, génère des KPIs spécifiques au service, collecte les valeurs via dialogue interactif, et calcule des KVIs avec explications traçables.

Agents IAMulti-agentsPrompt engineering
SIG
72
HYP
25