arXiv cs.CL·19 May 2026

Medical Context Distorts Decisions in Clinical Vision Language Models

Signal

Hype

In three linesarXiv study identifies three critical failure modes of vision-language models (VLMs) in clinical settings: over-reliance on text vs images, dependence on irrelevant clinical history, prompt sensitivity across semantically equivalent inputs. Testing on MIMIC-CXR shows VLM decisions dominated by text modality even when visual evidence is available.

Read source

Your take?

Vision AI safety Evals Papers

Summary generated by Claude — human-verified

Medical Context Distorts Decisions in Clinical Vision Language Models

Other angles on this story