Page 76 sur 192

ToutHaut signalRécent

7679 articles

Metric-Aware Hybrid Forecasting for the CTF4Science Lorenz Challenge

Approche hybride métrique pour le défi Lorenz CTF4Science combinant prédiction court-terme, appariement de distribution long-terme et reconstruction de trajectoire. Système multi-modèles : denoiseurs pré-entraînés synthétiques, ajustement ODE Lorenz pour 20 pas, substitution histogram-tail avec bibliothèques synthétiques. Score 83.84 sur leaderboard public.

Benchmarks Raisonnement

SIG

HYP

arXiv cs.CL·4 juin

ACAT: A Collaborative Platform for Efficient Aspect-Based Sentiment Dataset Annotation

ACAT est une plateforme web collaborative pour l'annotation de datasets d'analyse de sentiment basée sur les aspects (ABSA). Elle supporte 4 workflows ABSA, automatise l'ETL et calcule les métriques d'accord inter-annotateurs. Sur 1 002 avis restaurants, temps médian d'annotation 31,58s, IAA 0,78-0,86.

Évaluations Outils

SIG

HYP

arXiv cs.CL·4 juin

SANE Schema-aware Natural-language Evaluation of Biological Data

SANE propose un paradigme d'évaluation text-to-SQL spécifique aux domaines biologiques, utilisant des benchmarks générés automatiquement et ancrés aux schémas réels. Les tests montrent que les LLM en few-shot génèrent des requêtes SQL fiables sans fine-tuning, avec des erreurs principalement dues à des entrées ambiguës plutôt qu'à des défauts de génération.

Benchmarks Prompt engineering RAG

SIG

HYP

arXiv cs.CL·4 juin

Temporal Order Matters for Agentic Memory: Segment Trees for Long-Horizon Agents

SegTreeMem, une architecture mémoire basée sur des arbres de segments, organise l'historique conversationnel en préservant l'ordre temporel des événements. Testée sur trois benchmarks long-horizon avec deux backbones LLM, elle surpasse les approches flat, graph et tree-based en combinant matching sémantique local et contexte temporel hiérarchique.

Agents IA Raisonnement

SIG

HYP

arXiv cs.AI·4 juin

Trivium: Temporal Regret as a First-Class Objective for Causal-Memory Controllers

Trivium propose une approche pour corriger les erreurs récurrentes des systèmes agentic en optimisant trois objectifs : regret de résultat, regret épistémique et regret temporel. Le regret temporel capture la durée pendant laquelle une erreur persiste. Sur CausalBench-Seq, Trivium atteint O(log E) de regret temporel contre une croissance linéaire pour les baselines.

Agents IA Raisonnement Reinforcement learning

SIG

HYP

arXiv cs.CL·4 juin

Supportive Token Revealing for Fast Diffusion Language Model Decoding

AXON est un module sans entraînement pour améliorer le décodage parallèle des modèles de diffusion discrets. Il sélectionne les tokens « ancres » (tokens confiants) que les positions incertaines utilisent via attention, réduisant les étapes de débruitage tout en maintenant la qualité sur des benchmarks de raisonnement et génération de code.

Génération de code Raisonnement Benchmarks

SIG

HYP

Reddit r/LocalLLaMA·3 juin

I turned an Android phone into a Vulkan-accelerated local LLM node (GGUF + LiteLLM + Tailscale)

Un utilisateur a transformé un téléphone Android (Z Fold 6) en nœud d'inférence local pour LLM via Vulkan, GGUF et llama.cpp. Le téléphone expose un endpoint compatible OpenAI intégré à un mesh Tailscale avec routage LiteLLM et fallback vers des nœuds plus puissants (Mac Studio, RTX box).

Open source Infrastructure RAG

SIG

HYP

Reddit r/LocalLLaMA·3 juin

New Google Gemma 4 12B Claims Near-26B Performance - We Tested Both!

Test local de Gemma 4 12B vs 26B-A4B sur RTX 4090 : animation HTML5 canvas avec physique. Le 26B utilise 15 GB VRAM (6,9k tokens, 138 tok/s), le 12B 9 GB (8,9k tokens, 80 tok/s). Le 26B-A4B surpasse le 12B (~1,7x plus rapide avec 4B params actifs), mais le 12B reste compétitif sur 16 GB.

Gemini Benchmarks Génération de code

SIG

HYP

Reddit r/LocalLLaMA·3 juin

Tested RX7900XTX with ROCm7 power profiles

Test de l'AMD RX7900XTX avec ROCm7 sur llama.cpp (Qwen 3.6-35B). Mode silencieux (171W) vs mode standard (271W) : réduction de 99W, baisse de 9.4% en génération, 17.1% en prefill long-contexte, température jonction -11°C.

Open source Infrastructure Génération de code

SIG

HYP

Reddit r/LocalLLaMA·3 juin

Gemma 4 12B first coding agent test on a 4080 Super

Gemma 4 12B testé comme agent de codage sur RTX 4080 Super via VSCodium + Pi Agent. Le modèle a généré un script Python complet (lecture de logs, extraction d'erreurs, export JSON), créé des données de test, exécuté le code en terminal et validé le résultat sans bugs. Contexte 32K, quantization Q4_K_XL, llama.cpp + CUDA.

Gemini Agents IA Génération de code

SIG

HYP

Reddit r/LocalLLaMA·3 juin

llama.cpp - Qwen3.6/3.5-MTP - Share your benchmarks t/s

llama.cpp optimise le support de Qwen 3.6/3.5-MTP après plusieurs PR et corrections. La communauté partage des benchmarks tokens/s avec configurations détaillées (quantification, contexte, KVCache, MTP). Exemple : 207.90 t/s en prompt eval, 24.07 t/s en génération avec taux d'acceptation draft 52.6%.

Llama Qwen Benchmarks

SIG

HYP

Reddit r/LocalLLaMA·3 juin

I built a compiler that rewrites Python into a model-facing representation

Un développeur a créé un compilateur qui transforme le code Python en représentation optimisée pour les modèles IA. Testé sur ~13k fichiers, il réduit les tokens de 14% tout en conservant 99.8% d'équivalence AST. Projet open-source nommé Vulpine.

Génération de code Agents IA Open source

SIG

HYP

Reddit r/MachineLearning·3 juin

Encodec.cpp, a portable C++ implementation of Meta's EnCodec using Eigen [P]

Implémentation C++ portable d'EnCodec de Meta utilisant Eigen. Codec audio sans dépendances runtime, intégration CMake facile, performances comparables ou supérieures à onnxruntime. Poids compilés dans le binaire.

Open source Outils Infrastructure

SIG

HYP

Simon Willison·3 juin

Uber Caps Usage of AI Tools Like Claude Code to Manage Costs

Uber plafonne à 1 500 $ par mois par outil l'utilisation des agents de codage IA (Claude Code, Cursor) pour maîtriser ses coûts. La limite représente ~11% du salaire médian d'un ingénieur Uber ($330k). Cette politique intervient après avoir épuisé son budget IA 2026 en quatre mois.

Claude Code Agents IA Génération de code

SIG

HYP

Reddit r/LocalLLaMA·3 juin

Can LLMs Adhere to Strict 2D Spatial Constraints? (Testing with Sokoban)

Benchmark de spatial reasoning sur LLMs avec Sokoban en zéro-shot. ChatGPT, Qwen3.7-max et Gemini 3.5-thinking réussissent ; Gemini 3.5-flash, Qwen 3.6/3.7-plus, GLM-5 et Gemma4 échouent. Format strict (UP/DOWN/LEFT/RIGHT uniquement) élimine le chain-of-thought.

Benchmarks Raisonnement GPT

SIG

HYP

Reddit r/LocalLLaMA·3 juin

Another shout out to llama.cpp build b9455 2x3090

llama.cpp build b9455 avec tensor-split atteint 70+ tokens/s sur Qwen3.6-27B-UD-Q8_K_XL avec 2x3090, rivalisant avec vllm. Spéculative decoding MTP et flash-attention activés. Contexte jusqu'à 262K tokens, prefill à 1400+ t/s.

Llama Qwen Génération de code

SIG

HYP

arXiv cs.AI·3 juin

Evaluating Transformer and LSTM Frameworks for Prediction in Ungauged Basins

Étude comparative d'un Transformer encoder-only vs LSTM pour prédire le débit en bassins non jaugés. Sur données NOAA NWM, l'LSTM surpasse le Transformer. L'intégration d'informations aval améliore tous les modèles (+60% NNSE médian). La mémoire récurrente s'avère mieux adaptée à cette tâche d'inférence hydrologique.

Benchmarks Papers

SIG

HYP

arXiv cs.AI·3 juin

TriEval: A Resource-Efficient Pipeline for LLM Bias, Toxicity, and Truthfulness Assessment

TriEval est un pipeline d'évaluation des LLM testant simultanément biais, toxicité et véracité avec ressources minimales. Compatible open-source et closed-source, il fonctionne sur laptop sans GPU. Testé sur Llama 3 8B, Mistral 7B, Gemma 2 9B et Claude Haiku, révélant des différences toxicité/véracité entre modèles.

Évaluations Sécurité IA Open source

SIG

HYP

arXiv cs.LG·3 juin

Assessing Region-Level EEG Contributions to Cognitive Workload Prediction

Étude comparative de l'importance des régions cérébrales (EEG) pour prédire la charge cognitive. Analyse sur 4 datasets publics : les électrodes frontales surpassent la configuration complète de 15-20% en performance relative, avec moins de capteurs. Les régions fronto-centrales montrent la meilleure stabilité prédictive.

Évaluations Benchmarks

SIG

HYP

arXiv cs.AI·3 juin

ChatHealthAI: Aligning Electronic Health Record Representations with Large Language Models for Grounded Clinical Reasoning

ChatHealthAI aligne les représentations structurées des dossiers médicaux électroniques (EHR) avec l'espace sémantique d'un LLM gelé via un resampler task-aware. Le framework multimodal intègre les représentations longitudinales des patients avec des descriptions d'événements cliniques raffinées, améliorant le raisonnement clinique interprétable tout en maintenant la performance prédictive sur le benchmark EHRSHOT.

RAG Raisonnement Évaluations

SIG

HYP

arXiv cs.LG·3 juin

Cross-Modal Contrastive Learning of ECG and Angiography Representations for Severe Stenosis Classification

StenCE, un framework de préentraînement par contrastive learning, détecte les signes de sténose coronarienne sévère à partir d'ECG non-invasifs. Évalué sur plusieurs seuils de sévérité, le modèle surpasse les approches antérieures et permet une stratification précoce des patients sans symptômes.

Vision Embeddings Benchmarks

SIG

HYP

arXiv cs.AI·3 juin

Effect of Demographic Bias on Skin Lesion Classification

Étude de biais démographiques dans la classification de lésions cutanées avec ResNet. Trois stratégies testées : modèle simple, multi-tâche renforçant, apprentissage adversarial. Les biais sexe proviennent d'imbalances de données ; les biais âge favorisent systématiquement les jeunes. Stratégies de mitigation partiellement efficaces selon la distribution.

Vision Sécurité IA Benchmarks

SIG

HYP

arXiv cs.LG·3 juin

Graph Mamba Survival Analysis Based on Topology-Aware ordering

Nouvelle approche Graph Mamba pour l'analyse de survie sur images histologiques (WSIs). Propose TopoMamSurv : ordonnancement topologique des nœuds + module Mamba bidirectionnel + GCN pour modéliser les dépendances longue portée avec complexité linéaire. Validé sur 5 datasets TCGA.

Raisonnement Benchmarks Papers

SIG

HYP

arXiv cs.LG·3 juin

Testing the Test: Score-Direction Instability in Class-Split Anomaly Detection

Les auteurs montrent que l'évaluation class-split (une classe retenue comme anomalie) en détection d'anomalies est instable quand la classe anomale chevauche le mélange normal en espace de représentation. Les scores d'anomalie peuvent s'effondrer ou s'inverser. Un diagnostic simple (neighborhood class leakage) prédit cette instabilité sur Fashion-MNIST, CIFAR-10, Imagenette.

Évaluations Benchmarks

SIG

HYP

arXiv cs.LG·3 juin

Making Brain-Computer Interfaces More Secure

Étude sur la robustesse adversariale des interfaces cerveau-ordinateur basées sur EEG. Les chercheurs proposent une architecture CNN légère et la testent contre des attaques adversariales sur deux datasets EEG, comparant avec EEGNet, DeepConvNet et SleepEEGNet. Le modèle proposé montre une meilleure robustesse aux perturbations.

Sécurité IA Benchmarks Papers

SIG

HYP

arXiv cs.CL·3 juin

Translating Classical Poetry into Modern Prose

Padyam2Gadyam : dataset de 600 poèmes télougous classiques (13e-17e siècles) avec traductions en prose télougou et anglaise modernes. Évaluation de 5 LLM contemporains révèle des performances insuffisantes et des limites des métriques MT existantes.

Benchmarks Papers

SIG

HYP

arXiv cs.LG·3 juin

Locality Does Not Imply Reachability: Boundary Repair in Block-Sparse Causal Attention

Article théorique sur les limites de l'attention causale par blocs fixes : deux tokens adjacents peuvent être déconnectés dans le graphe d'attention. Les auteurs formalisent ce problème via les ensembles de dépendance structurelle et proposent Boundary Bridge Attention, une réparation sans paramètres supplémentaires utilisant des arêtes causales auxiliaires aux frontières des blocs.

Raisonnement Benchmarks Papers

SIG

HYP

arXiv cs.CL·3 juin

Memory Retrieval for Changing Preferences

Framework unifié pour l'accès et la sélection de mémoire dans les systèmes de dialogue long-contexte. Utilise un facteur de Bayes pour quantifier l'utilité de chaque tour historique en mesurant l'amélioration de vraisemblance du modèle. Surpasse les approches embedding-based sur quatre benchmarks, particulièrement pour les tâches avec préférences changeantes.

RAG Raisonnement Benchmarks

SIG

HYP

arXiv cs.CL·3 juin

Can Factual Opinions Be Edited (Manipulated) in Large Language Models?

Nouvelle étude arXiv sur l'édition de faits opinionnés dans les LLM. Benchmark FOE avec 261 personnalités publiques, 19 catégories de sujets, 2,178 enregistrements d'opinions. Les méthodes actuelles échouent à préserver la cohérence entre opinion éditée et preuves générées. Proposition d'une méthode Self-Generated Evidence-Aligned pour l'alignement opinion-preuves.

Papers Évaluations Sécurité IA

SIG

HYP

arXiv cs.LG·3 juin

AdaWeather: Adaptively Mixing Probabilistic Weather Forecasts with Logarithmic Regret

AdaWeather combine plusieurs modèles probabilistes de prévision météorologique via apprentissage machine et mixture d'experts. L'algorithme atteint un regret logarithmique par rapport au meilleur mélange statique d'experts. Tests sur prévisions de température montrent des améliorations.

Benchmarks Reinforcement learning

SIG

HYP

arXiv cs.LG·3 juin

Building Better Activation Oracles

Les Activation Oracles (AOs) interprètent les activations du residual stream, mais souffrent d'hallucinations et de vagueness. Cet article améliore l'entraînement des AOs via rollouts on-policy, datasets conversationnels optimisés, injection multi-couches et formules révisées. Les auteurs publient AObench, première suite d'évaluation complète pour la qualité des AOs.

Évaluations Open source

SIG

HYP

arXiv cs.LG·3 juin

Before Fusion, Ask What to Keep: Contextual Calibration of Multimodal Signals

Méthode de calibration des signaux multimodaux avant fusion. Un module compact compare chaque modalité (langage, son, vision) avec les autres, extrait les signaux de support et conflit cross-source, et module les représentations avant leur combinaison. Testé sur 5 benchmarks (sentiment, reconnaissance d'actions, détection d'événements audio-visuels, classification d'émotions) avec améliorations consistantes.

Vision Voix Multi-agents

SIG

HYP

arXiv cs.AI·3 juin

A Negative Result on Cross-Model Activation Transfer in a Pythia Multi-Hop Setting

Étude sur le transfert d'activations entre modèles de langage (Pythia-160M vers Pythia-410M). Une couche de translation linéaire aligne fortement les états cachés (similarité cosinus 0.97), mais l'injection des activations traduites n'améliore pas les performances en inférence. Résultat négatif : l'alignement représentationnel hors ligne ne suffit pas pour une communication causale utile.

Raisonnement Papers Évaluations

SIG

HYP

arXiv cs.CL·3 juin

Hint-Guided Diversified Policy Optimization for LLM Reasoning

HDPO (Hint-Guided Diversified Policy Optimization) améliore le raisonnement des LLM via renforcement avec récompenses vérifiables. La méthode incite le modèle à générer d'abord plusieurs approches candidates (hints), puis sélectionner la plus fiable. Deux étapes : Cold Start pour structurer le raisonnement, puis RL guidé par hints pour diversifier et fiabiliser les solutions.

Raisonnement Reinforcement learning Papers

SIG

HYP

arXiv cs.LG·3 juin

Fast Unlearning at Scale via Margin Self-Correction

MASC (Margin Self-Correction) est une méthode d'oubli de modèles de langage qui réduit efficacement l'écart logit entre le token suivant original et ses alternatives, sans nécessiter d'évaluation en aval. Testée sur TOFU, MUSE News et MUSE Books, elle atteint un compromis oubli-rétention compétitif avec un coût computationnel inférieur aux baselines existantes.

Papers Fine-tuning Sécurité IA

SIG

HYP

arXiv cs.AI·3 juin

RelGT-AC: A Relational Graph Transformer for Autocomplete Tasks in Relational Databases

RelGT-AC étend RelGT pour les tâches d'autocomplétion sur bases de données relationnelles. Le modèle combine un masquage de colonnes, une tête unifiée (classification/régression) et un encodeur TF-IDF pour texte libre. Sur 7 tâches RelBench v2, il surpasse GraphSAGE sur 3 tâches de régression et gagne +10 AUROC sur tâches textuelles.

Benchmarks Papers Infrastructure

SIG

HYP

arXiv cs.CL·3 juin

SenseJudge: Human-Centric Preference-Driven Judgment Framework

SenseJudge est un framework de jugement personnalisé basé sur les préférences humaines pour évaluer les réponses d'LLM. Associé à SenseBench, un benchmark d'instruction-following issu d'interactions multi-tours réelles, il surpasse les méthodes existantes en adaptation aux préférences utilisateur et en classement de modèles aligné avec le jugement humain.

Évaluations Benchmarks Raisonnement

SIG

HYP

arXiv cs.AI·3 juin

From Long News to Accurate Forecast: Importance-Aware Fusion and PRM-Guided Reflection for Time Series Forecasting

Nouvelle méthode pour intégrer les actualités dans la prévision de séries temporelles via compression intelligente et supervision de retrieval. Un modèle de récompense estime l'utilité prédictive de chaque article, tandis qu'un PRM guide la sélection d'articles supplémentaires. Tests sur finance, énergie, trafic et bitcoin montrent amélioration de précision et réduction des itérations.

Llama Raisonnement RAG

SIG

HYP

arXiv cs.CL·3 juin

Topics as Proxies for Sociodemographics: How Conversational Context Affects LLM Answers

Étude arXiv montrant que les LLM ne déduisent pas bien les caractéristiques socio-démographiques des utilisateurs à partir d'un historique conversationnel unique. Les disparités observées dans les conseils (juridique, médical, financier) sont faibles mais présentes. Les sujets de conversation s'avèrent plus prédictifs que les données socio-démographiques et affectent les réponses de manière imprévisible.

Papers Sécurité IA Alignement

SIG

HYP

arXiv cs.CL·3 juin

DMT-CBT: Longitudinal Therapeutic State Modeling for CBT Counseling

DMT-CBT modélise l'évolution longitudinale des états thérapeutiques en TCC sur plusieurs sessions. Le framework maintient des états structurés, intègre des données multimodales et des interventions augmentées par outils. DMTCorpus, un dataset synthétique multimodal, démontre une meilleure fidélité thérapeutique et alliance thérapeutique comparé aux approches post-hoc.

Raisonnement Vision Agents IA

SIG

HYP