Page 68 of 148

AllHigh signalRecent

5891 articles

Watching, Reasoning, and Searching: A Video Deep Research Benchmark on Open Web for Agentic Video Reasoning

VideoDR is the first benchmark for open-domain video question answering, combining cross-frame visual extraction, iterative web retrieval, and multi-hop reasoning. Evaluation of multimodal models (closed/open-source) shows Agentic paradigm is not consistently superior to Workflow; key challenges are goal drift and long-horizon consistency.

AI Agents Vision Reasoning

SIG

HYP

Page 68 of 148

Watching, Reasoning, and Searching: A Video Deep Research Benchmark on Open Web for Agentic Video Reasoning

Unleashing the Potential of Diffusion Models for End-to-End Autonomous Driving

When Does Non-Uniform Replay Matter in Reinforcement Learning?

Agentic AI Governance and Lifecycle Management in Healthcare

Unsupervised Denoising of Real Clinical Low Dose Liver CT with Perceptual Attention Networks

Forgetting is Competition: Rethinking Unlearning as Representation Interference in Diffusion Models

Embracing Biased Transition Matrices for Complementary-Label Learning with Many Classes

UxSID: Semantic-Aware User Interests Modeling for Ultra-Long Sequence

Lost or Hidden? A Concept-Level Forgetting in Supervised Continual Learning

GRAFT: Decoupling Ranking and Calibration for Survival Analysis

A Pilot Benchmark for NL-to-FOL Translation in Planetary Exploration

SSL4RL: Revisiting Self-supervised Learning as Intrinsic Reward for Visual-Language Reasoning

MindMelody: A Closed-Loop EEG-Driven System for Personalized Music Intervention

Real-Time Aligned Reward Model beyond Semantics

No Free Swap: Protocol-Dependent Layer Redundancy in Transformers

Missing Old Logits in Asynchronous Agentic RL: Semantic Mismatch and Repair Methods for Off-Policy Correction

An Assessment of Human vs. Model Uncertainty in Soft-Label Learning and Calibration

Empowering VLMs for Few-Shot Multimodal Time Series Classification via Tailored Agentic Reasoning

Permutation-Consensus Listwise Judging for Robust Factuality Evaluation

Investigation into In-Context Learning Capabilities of Transformers

SIPO: Stabilized and Improved Preference Optimization for Aligning Diffusion Models

Double-Calibration: Towards Reliable LLMs via Calibrating Knowledge and Reasoning Confidence

Unlocking the Potential of Diffusion Language Models through Template Infilling

PluRule: A Benchmark for Moderating Pluralistic Communities on Social Media

Limitations of Sequence-Based Protein Representations for Parkinson's Disease Classification: A Leakage-Free Benchmark

Representational Alignment with Chemical Induced Fit for Molecular Relational Learning

Mitigating Extrinsic Gender Bias for Bangla Classification Tasks

Geometry-aware 4D Video Generation for Robot Manipulation

Taming "Zombie'' Agents: A Markov State-Aware Framework for Resilient Multi-Agent Evolution

Trustworthiness in Retrieval-Augmented Generation Systems: A Survey

GVGAI-LLM: Evaluating Large Language Model Agents with Infinite Games

Enabling Off-Policy Imitation Learning with Deep Actor Critic Stabilization

Stabilizing Temporal Inference Dynamics for Online Surgical Phase Recognition

Agents for Experiments, Experiments for Agents: A Design Grammar for AI-Enabled Experimental Science

Multi-Object Tracking Consistently Improves Wildlife Inference

Domain Incremental Learning for Pandemic-Resilient Chest X-Ray Analysis

Whispers in the Noise: Surrogate-Guided Concept Awakening via a Multi-Agent Framework

Improving BM25 Code Retrieval Under Fixed Generic Tokenization: Adaptive q-Log Odds as a Drop-In BM25 Fix

TTE-Flash: Accelerating Reasoning-based Multimodal Representations via Think-Then-Embed Tokens

Interaction-Breaking Adversarial Learning Framework for Robust Multi-Agent Reinforcement Learning