mai 2026

3149 articles

SomaliWeb v1: A Quality-Filtered Somali Web Corpus with a Matched Tokenizer and a Public Language-Identification Benchmark

SomaliWeb v1 : corpus Somali de 819 322 documents (~303M tokens) avec tokenizer BPE-16K et benchmark d'identification de langue. Révèle défauts critiques dans HPLT v2 (17,3% doublons exacts, 56,1% mojibake, 10,7% quasi-doublons). Tokenizer 40,2% plus efficace que cl100k_base sur FLORES-200.

Embeddings Benchmarks Open source

SIG

HYP

arXiv cs.CL·19 mai

FOL2NS: Generating Natural Sentences from First-Order Logic

FOL2NS est un framework neurosymbolique qui convertit des formules de logique du premier ordre en phrases naturelles. Il gère des structures imbriquées avec différentes profondeurs de quantificateurs rarement couvertes par les corpus existants. Les résultats montrent une génération fluide mais des défis croissants avec la complexité structurelle.

Papers Raisonnement

SIG

HYP

arXiv cs.CL·19 mai

iPOE: Interpretable Prompt Optimization via Explanations

iPOE est une méthode d'optimisation de prompts basée sur des explications automatiques ou humaines. Elle génère des guidelines d'annotation qui guident l'optimisation via suppression, ajout, réorganisation et fusion. Sur 4 datasets, iPOE améliore les performances de 31% vs prompts sans guidelines et 35% vs guidelines aléatoires.

Prompt engineering Évaluations Papers

SIG

HYP

mai 2026

SomaliWeb v1: A Quality-Filtered Somali Web Corpus with a Matched Tokenizer and a Public Language-Identification Benchmark

FOL2NS: Generating Natural Sentences from First-Order Logic

iPOE: Interpretable Prompt Optimization via Explanations

TailedTS: Benchmark Dataset for Heavy-Tailed Time Series Prediction and Periodicity Quantification

A Data-Efficient Path to Multilingual LLMs: Language Expansion via Post-training PARAM$\Delta$ Integration into Upcycled MoE

PPAI: Enabling Personalized LLM Agent Interoperability for Collaborative Edge Intelligence

Semantic Reranking at Inference Time for Hard Examples in Rhetorical Role Labeling

Bridging the Gap: Converting Read Text to Conversational Dialogue

Predictive Prefetching for Retrieval-Augmented Generation

Flow-Direct: Feedback-Efficient and Reusable Guidance for Flow Models via Non-Parametric Guidance Field

BacktestBench: Benchmarking Large Language Models for Automated Quantitative Strategy Backtesting

Universal Adversarial Triggers

Prompt Compression in Diffusion Large Language Models: Evaluating LLMLingua-2 on LLaDA

PropGuard: Safeguarding LLM-MAS via Propagation-Aware Exploration and Remediation

Multi-agent AI systems outperform human teams in creativity

PAREDA: A Multi-Accent Speech Dataset of Natural Language Processing Research Discussions

SocialMemBench: Are AI Memory Systems Ready for Social Group Settings?

Bridging the Version Gap: Multi-version Training Improves ICD Code Prediction, Especially for Rare Codes

Sometin Beta Pass Notin (SBPN): Improving Multilingual ASR for Nigerian Languages via Knowledge Distillation

Do LLM Agents Mirror Socio-Cognitive Effects in Power-Asymmetric Conversations?

Stop When Reasoning Converges: Semantic-Preserving Early Exit for Reasoning Models

Goal-Conditioned Supervised Learning for LLM Fine-Tuning

Orth-Dion: Eliminating Geometric Mismatch in Distributed Low-Rank Spectral Optimization

Temporal Decay of Co-Citation Predictability: A 20-Year Statute Retrieval Benchmark from 396M Ukrainian Court Citations

Preference Instability in Reward Models: Detection and Mitigation via Sparse Autoencoders

Analyzing Error Propagation in Korean Spoken QA with ASR-LLM Cascades

Beyond Catalogue Counts: the Dataset Visibility Asymmetry in Low-Resource Multilingual NLP

Phase Transitions in Driven Informational Systems: A Two-Field Perspective on Learning Theory and Non-Equilibrium Chemistry

Learning Transferable Topology Priors for Multi-Agent LLM Collaboration Across Domains

Transitivity Meets Cyclicity: Explicit Preference Decomposition for Dynamic Large Language Model Alignment

OProver: A Unified Framework for Agentic Formal Theorem Proving

LLMs for automatic annotation of Mandarin narrative transcripts

Forecasting Medium-Horizon Alzheimer's Disease Progression: Residual Gap-Aware Transformers for 24-Month CDR-SB Change from ADNI Clinical and Biomarker Histories

The Point of No Return: Counterfactual Localization of Deceptive Commitment in Language-Model Reasoning

SignMuon: Communication-Efficient Distributed Muon Optimization

Systematic Optimization of Real-Time Diffusion Model Inference on Apple M3 Ultra

ACIL: Auto Chain of Thoughts for In-Context Learning

Can LLMs Think Like Consumers? Benchmarking Crowd-Level Reaction Reconstruction with ConsumerSimBench

Agentic AI Translate: An Agentic Translator Prototype for Translation as Communication Design

HalluScore: Large Language Model Hallucination Question Answering Benchmark

Evaluation Drift in LLM Personality Induction: Are We Moving the Goalpost?

Response-free item difficulty modelling for multiple-choice items with fine-tuned transformers: Component-wise representation and multi-task learning

Full Attention Strikes Back: Transferring Full Attention into Sparse within Hundred Training Steps

E-PMQ: Expert-Guided Post-Merge Quantization with Merged-Weight Anchoring

PaliBench: A Multi-Reference Blueprint for Classical Language Translation Benchmarks

Heterogeneous Information-Bottleneck Coordination Graphs for Multi-Agent Reinforcement Learning

CompactAttention: Accelerating Chunked Prefill with Block-Union KV Selection

Exploring Lightweight Large Language Models for Court View Generation

Retrieval-Based Multi-Label Legal Annotation: Extensible, Data-Efficient and Hallucination-Free

CHI-Bench: Can AI Agents Automate End-to-End, Long-Horizon, Policy-Rich Healthcare Workflows?

Bridging Silicon and the Hippocampus: Algebro-Deterministic Memory "VaCoAl" as a Substrate for Vector-HaSH and TEM

Operator-Controlled 6G: From Connectivity Infrastructure to Guaranteed Digital Services

Amortized Energy-Based Bayesian Inference

SurgicalMamba: Dual-Path SSD with State Regramming for Online Surgical Phase Recognition

An Amortized Efficiency Threshold for Comparing Neural and Heuristic Solvers in Combinatorial Optimization

ARES-LSHADE: Autoresearch-Enhanced LSHADE with Memetic Polish for the GNBG Benchmark

KIT-TIP-NLP at MultiPride: Continual Learning with Multilingual Foundation Model

Revisiting Reinforcement Learning with Verifiable Rewards from a Contrastive Perspective

PQR: A Framework to Generate Diverse and Realistic User Queries that Elicit QA Agent Failures

Mechanism Plausibility in Generative Agent-Based Modeling

WriteSAE: Sparse Autoencoders for Recurrent State

Training-Free Cultural Alignment of Large Language Models via Persona Disagreement

Switching-Geometry Analysis of Deflated Q-Value Iteration

Deterministic Decomposition of Stochastic Generative Dynamics

Transformers Can Implement Preconditioned Richardson Iteration for In-Context Gaussian Kernel Regression

MULTITEXTEDIT: Benchmarking Cross-Lingual Degradation in Text-in-Image Editing

Beyond LoRA vs. Full Fine-Tuning: Gradient-Guided Optimizer Routing for LLM Adaptation

NavOne: One-Step Global Planning for Vision-Language Navigation on Top-Down Maps

Multi-Dimensional Behavioral Evaluation of Agentic Stock Prediction Systems Using Large Language Model Judges with Closed-Loop Reinforcement Learning Feedback

Manifold-Aligned Guided Integrated Gradients for Reliable Feature Attribution

One-Block Transformer (1BT) for EEG-Based Cognitive Workload Assessment

MedSynapse-V: Bridging Visual Perception and Clinical Intuition via Latent Memory Evolution

Sherpa.ai Privacy-Preserving Multi-Party Entity Alignment without Intersection Disclosure for Noisy Identifiers

(Sparse) Attention to the Details: Preserving Spectral Fidelity in ML-based Weather Forecasting Models

CoLLM: Continuous Adaptation for SLO-Aware LLM Serving on Shared GPU Clusters

DPrivBench: Benchmarking LLMs' Reasoning for Differential Privacy

Efficient Emotion-Aware Iconic Gesture Prediction for Robot Co-Speech

A Mathematical Framework for Temporal Modeling and Counterfactual Policy Simulation of Student Dropout

Small-scale photonic Kolmogorov-Arnold networks using standard telecom nonlinear modules