Page 28 sur 192

ToutHaut signalRécent

7679 articles

PhysioSeq2Seq: A Hybrid Physiological Digital Twin and Sequence-to-Sequence LSTM for Long-Horizon Glucose Forecasting in Type 1 Diabetes

PhysioSeq2Seq combine un modèle physiologique numérique patient-spécifique avec un LSTM Seq2Seq pour prédire la glycémie sur 240 minutes chez les diabétiques de type 1. Entraîné sur 348 participants (T1DEXI), évalué sur 74 : MAE 39.28 mg/dL à l'horizon 240 min, réduisant le biais de 13.89 mg/dL vs LSTM récursif.

Raisonnement Reinforcement learning Benchmarks

SIG

HYP

arXiv cs.CL·19 mai

Beacon: Single-Turn Diagnosis and Mitigation of Latent Sycophancy in Large Language Models

Beacon est un benchmark de diagnostic qui mesure la sycophantie (tendance des LLM à privilégier l'accord avec l'utilisateur plutôt que l'exactitude) dans 12 modèles SOTA. Les auteurs identifient des sous-biais linguistiques et affectifs qui augmentent avec la capacité du modèle, et proposent des interventions au niveau du prompt et de l'activation pour les moduler.

Alignement Sécurité IA Évaluations

SIG

HYP

arXiv cs.CL·19 mai

ShareChat: A Dataset of Chatbot Conversations in the Wild

ShareChat est un corpus de 142 808 conversations (660 293 tours) collectées sur ChatGPT, Perplexity, Grok, Gemini et Claude entre avril 2023 et octobre 2025. Le dataset préserve les affordances natives (citations, traces de raisonnement, artefacts code) sur 95 langues et permet d'analyser les différences cross-platform en satisfaction d'intent, stratégies de citation et latence.

Benchmarks Évaluations Papers

SIG

HYP

arXiv cs.CL·19 mai

Ancient Greek to Modern Greek Machine Translation: A Novel Benchmark and Fine-Tuning Experiments on LLMs and NMT Models

Nouveau corpus parallèle AG-MG de 132 481 paires de phrases pour la traduction du grec ancien au grec moderne. Pipeline de création combinant web-scraping, alignement VecAlign avec embeddings LaBSE fine-tunés, et correction LLM via Gemini 2.5 Flash. Benchmark de modèles NMT (NLLB, M2M100) et LLM grec (Llama-Krikri-8B) : fine-tuning complet atteint 13.16 BLEU, gains jusqu'à +10.3 points.

Benchmarks Fine-tuning Embeddings

SIG

HYP

Page 28 sur 192

PhysioSeq2Seq: A Hybrid Physiological Digital Twin and Sequence-to-Sequence LSTM for Long-Horizon Glucose Forecasting in Type 1 Diabetes

Beacon: Single-Turn Diagnosis and Mitigation of Latent Sycophancy in Large Language Models

ShareChat: A Dataset of Chatbot Conversations in the Wild

Ancient Greek to Modern Greek Machine Translation: A Novel Benchmark and Fine-Tuning Experiments on LLMs and NMT Models

Surgical Post-Training: Proximal On-Policy Distillation for Reasoning with Knowledge Retention

AgentKernelArena: Generalization-Aware Benchmarking of GPU Kernel Optimization Agents

(Sparse) Attention to the Details: Preserving Spectral Fidelity in ML-based Weather Forecasting Models

Causely: A Causal Intelligence Layer for Enterprise AI A Benchmark Study on SRE and Reliability Workflows

Perovskite-R1: a domain-specialized large language model for intelligent discovery of precursor additives and experimental design

DevBench: A Realistic, Developer-Informed Benchmark for Code Generation Models

Fix the Structural Bottleneck: Context Compression via Explicit Information Transmission

The Expert Strikes Back: Interpreting Mixture-of-Experts Language Models at Expert Level

DSPR: Dual-Stream Physics-Residual Networks for Trustworthy Industrial Time Series Forecasting

Stream2LLM: Overlap Context Streaming and Prefill for Reduced Time-to-First-Token (TTFT)

SlimQwen: Exploring the Pruning and Distillation in Large MoE Model Pre-training

Context Memorization for Efficient Long Context Generation

\textsc{PrivScope}: Task-scoped Disclosure Control for Hybrid Agentic Systems

From Volume to Value: Preference-Aligned Memory Construction for On-Device RAG

Attractor-Vascular Coupling Theory: Formal Grounding and Empirical Validation for AAMI-Standard Cuffless Blood Pressure Estimation from Smartphone Photoplethysmography

How Few-Shot Examples Add Up: A Causal Decomposition of Function Vectors in In-Context Learning

PEGRL: Improving Machine Translation by Post-Editing Guided Reinforcement Learning

Closing the Gap at CRAC 2026: Two-Stage Adaptation for LLM-Based Multilingual Coreference Resolution

Wavelet Flow Matching for Multi-Scale Physics Emulation

Automatic Generation of High-Performance RL Environments

MixSD: Mixed Contextual Self-Distillation for Knowledge Injection

Embodied Task Planning via Graph-Informed Action Generation with Large Language Models

Charon: A Unified and Fine-Grained Simulator for Large-Scale LLM Training and Inference

Surgical Post-Training: Proximal On-Policy Distillation for Reasoning with Knowledge Retention

ProxyKV: Cross-Model Proxy Pruning for Efficient Long-Context LLM Inference

Learning Transferable Topology Priors for Multi-Agent LLM Collaboration Across Domains

Strategic Over-Parameterization for Generalizable Low-Rank Adaptation

Helpful to a Fault: Measuring Illicit Assistance in Multi-Turn, Multilingual LLM Agents

Asking Back: Interaction-Layer Antidistillation Watermarks

Locally Coherent Parallel Decoding in Diffusion Language Models

Physics-Guided Geometric Diffusion for Macro Placement Generation

Mechanistically Interpretable Neural Encoding Reveals Fine-Grained Functional Selectivity in Human Visual Cortex

LEAP: Learnable End-to-End Adaptive Pruning of Large Language Models

SCICONVBENCH: Benchmarking LLMs on Multi-Turn Clarification for Task Formulation in Computational Science

Lying with Truths: Open-Channel Multi-Agent Collusion for Belief Manipulation via Generative Montage

Systematic Optimization of Real-Time Diffusion Model Inference on Apple M3 Ultra