Page 75 of 149

AllHigh signalRecent

5934 articles

Vision-OPD: Learning to See Fine Details for Multimodal LLMs via On-Policy Self-Distillation

Vision-OPD introduces regional-to-global self-distillation to improve fine-grained visual understanding in MLLMs. The framework transfers the model's privileged perception on evidence-centered crops to its full-image policy via KL divergence minimization between token distributions. Competitive results on fine-grained visual understanding benchmarks without external models or ground-truth labels.

Vision Reinforcement learning Benchmarks

SIG

HYP

arXiv cs.CL·May 19

Multilingual OCR-Aware Fine-Tuning and Prompt-Guided Chain-of-Thought Reasoning for Multimodal Large Language Models

Multilingual OCR-aware fine-tuning framework for MLLMs combining synthetic OCR-to-translation data generation, LoRA-based SFT, and structured visual chain-of-thought reasoning. Significantly improves extraction of small, blurred, occluded text on receipts, menus, documents under degraded visual conditions. Outperforms GPT-5 and Gemini on OCR grounding and hallucination reduction.

Vision Reasoning Fine-tuning

SIG

HYP

Page 75 of 149

Vision-OPD: Learning to See Fine Details for Multimodal LLMs via On-Policy Self-Distillation

Multilingual OCR-Aware Fine-Tuning and Prompt-Guided Chain-of-Thought Reasoning for Multimodal Large Language Models

Learning Lifted Action Models from Traces with Minimal Information About Actions and States

Query-Conditioned Knowledge Alignment for Reliable Cross-System Medical Reasoning

Prompt2Fingerprint: Plug-and-Play LLM Fingerprinting via Text-to-Weight Generation

Automated Knowledge Component Generation for Interpretable Knowledge Tracing in Coding Problems

VISAFF: Speaker-Centered Visual Affective Feature Learning for Emotion Recognition in Conversation

GCE-MIL: Faithful and Recoverable Evidence for Multiple Instance Learning in Whole-Slide Imaging

A Practical Noise2Noise Denoising Pipeline for High-Throughput Raman Spectroscopy

DiagEval: Trajectory-Conditioned Diagnosis for Reliable Software Evaluation with GUI Agents

CooT: Learning to Coordinate In-Context with Coordination Transformers

Evidence-Grounded Frontier Mapping and Agentic Hypothesis Generation in Nanomedicine

Beyond Sentiment Classification: A Generative Framework for Emotion Intensity Evaluation in Text

Progressive Generalization Augmentation with Deeply Coupled RND-PPO and Domain-Prioritized Noise Injection for Robust Crop Management Reinforcement Learning

Learning Displacement-Robust Representations for Landslide Early Warning under Rainfall Forecast Uncertainty

Position: AI Evaluations Should be Grounded on a Theory of Capability

FLAG: Foundation model representation with Latent diffusion Alignment via Graph for spatial gene expression prediction

Evaluating Cognitive Age Alignment in Interactive AI Agents

CoLLM-NAS: Collaborative Large Language Models for Efficient Knowledge-Guided Neural Architecture Search

ProtoSiTex: Learning Semi-Interpretable Prototypes for Multi-label Text Classification

Transitivity Meets Cyclicity: Explicit Preference Decomposition for Dynamic Large Language Model Alignment

Enabling Off-Policy Imitation Learning with Deep Actor Critic Stabilization

From Demographics to Survey Anchors: Evaluating LLM Agents for Modeling Retirement Attitudes

Learning Higher-Order Structure from Incomplete Spatiotemporal Data: Multi-Scale Hypergraph Laplacians with Neural Refinement

Interactive Evaluation Requires a Design Science

Causal Intervention-Based Memory Selection for Long-Horizon LLM Agents

FormuLLA: A Large Language Model Approach to Generating Novel 3D Printable Formulations

The Homogenization Problem in LLMs: Towards Meaningful Diversity in AI Safety

AutoRubric-T2I: Robust Rule-Based Reward Model for Text-to-Image Alignment

MetaCogAgent: A Metacognitive Multi-Agent LLM Framework with Self-Aware Task Delegation

Attention Hijacking: Response Manipulation Across Queries in Vision-Language Models

F2IND-IT! -- Multimodal Fuzzy Fake Indian News Detection using Images and Text

AnchorDiff: Topology-Aware Masked Diffusion with Confidence-based Rewriting for Radiology Report Generation

Mitigating Extrinsic Gender Bias for Bangla Classification Tasks

Multi-Paradigm Agent Interaction in Practice:A Systematic Analysis of Generator-Evaluator, ReAct Loop,and Adversarial Evaluation in the buddyMe Framework

Responsible Agentic AI Requires Explicit Provenance

Baba in Wonderland: Online Self-Supervised Dynamics Discovery for Executable World Models

Recall Isn't Enough: Bounding Commitments in Personalized Language Systems

Supervised sparse auto-encoders for interpretable and compositional representations

Semantic Smoothing via Novel View Synthesis for Robust SAR Image Classification