Topic

#Vision

La vision par ordinateur (computer vision) est le domaine de l'IA qui permet aux machines d'analyser et d'interpréter des images ou des vidéos. GPT-4o, par exemple, peut décrire le contenu d'une photo, lire du texte imprimé ou identifier des objets dans une scène.

40Articles

10Sources

70Signal moyen

Latent Space·18 juin

[AINews] Midjourney Medical: scan your organs like you step on a scale

Midjourney lance son deuxième produit : une application médicale permettant de scanner les organes via smartphone, sans nécessiter d'équipement médical spécialisé. Le modèle d'IA analyse les images capturées pour fournir des diagnostics préliminaires.

Génération d'images Vision Business

SIG

HYP

arXiv cs.CL·18 juin

Learning Robust Pair Confidence for Multimodal Emotion-Cause Pair Extraction

RPCL, un framework d'entraînement pour l'extraction de paires émotion-cause multimodales, améliore la robustesse des scores de confiance. Via des contraintes de marge et une corruption contextuelle, il augmente le F1 de 2.58–2.83 points sur ECF/MECAD/MEC4 sans modifier l'inférence.

Papers Benchmarks Vision

SIG

HYP

arXiv cs.CL·18 juin

VISUALSKILL: Multimodal Skills for Computer-Use Agents

VISUALSKILL propose des compétences multimodales hiérarchiques pour les agents d'interaction informatique. Combinant documentation et exploration UI en direct, le système améliore les performances de Claude Opus 4.6 de +15.3 points sur CUA-World et OSExpert-Eval (0.456 vs 0.303 baseline). Les figures visuelles surpassent les descriptions textuelles (+8.3 points).

Claude Agents IA MCP

SIG

HYP

arXiv cs.AI·18 juin

RTSGameBench: An RTS Benchmark for Strategic Reasoning by Vision-Language Models

RTSGameBench est un benchmark pour évaluer le raisonnement stratégique des Vision-Language Models (VLMs) dans des jeux de stratégie en temps réel. Basé sur Beyond All Reason, il propose des évaluations multi-scénarios, des mini-jeux diagnostiques ciblant des compétences spécifiques, et un framework auto-évolutif. Les VLMs actuels échouent sur la coordination multi-agents et les tâches complexes.

Vision Raisonnement Multi-agents

SIG

HYP

arXiv cs.AI·18 juin

ThinkDeception: A Progressive Reinforcement Learning Framework for Interpretable Multimodal Deception Detection

ThinkDeception propose un cadre d'apprentissage par renforcement progressif pour la détection de tromperie multimodale interprétable. Utilisant des MLLMs, il transforme la classification binaire en processus de raisonnement explicite via Chain of Thought. VAC-GRPO avec curriculum learning stratifié en 4 niveaux de difficulté atteint SOTA sur les benchmarks.

Raisonnement Reinforcement learning Vision

SIG

HYP

arXiv cs.LG·18 juin

A Cross-Model VLM-Judge Protocol for Single-Image 3D Mesh Quality (and Why Cheap Proxies Fall Short)

Protocole d'évaluation pour maillages 3D générés à partir d'images uniques utilisant des juges VLM (vision-language models). Les auteurs montrent que les proxies bon marché (similarité CLIP, statistiques de validité géométrique) ne corrèlent pas avec la qualité perçue. Leur protocole VLM avec correction de biais de position atteint Cohen's kappa = 0.66 entre deux familles de juges indépendantes.

Vision Évaluations Benchmarks

SIG

HYP

arXiv cs.AI·18 juin

CaVe-VLM-CoT: An Interpretable Vision-Language Model Framework

CaVe-VLM-CoT est un framework agentic-RAG modulaire qui réduit les hallucinations des VLMs via une pipeline fermée à 5 étapes (Extractor, Retriever, Solver, Citation Injector, Verifier). Les réclamations non fondées déclenchent une re-retrieval ciblée. 23 métriques composantes et CaVeScore mesurent la fidélité des citations et l'ancrage multimodal. Résultats : 87,1% accuracy sur ScienceQA, 55,2% sur MMMU.

Vision RAG Agents IA

SIG

HYP

Reddit r/LocalLLaMA·17 juin

llama.cpp - how to free up even more space on your GPU

llama.cpp optimise la gestion mémoire GPU. Les paramètres clés : --no-mmproj-offload libère 1GB pour modèles vision, --cache-type-k/v réduit KV cache de 50-75%, --spec-draft-n-max=2 optimise speculative decoding. Flash attention activé par défaut. Testé sur Qwen 3.6-27B avec contexte 150k sur RTX 3090.

Llama Open source Infrastructure

SIG

HYP

The Decoder·17 juin

Amazon, Nvidia, and AMD bet $310 million on AI startup building 3D world models

Amazon, Nvidia et AMD investissent 310 millions de dollars dans Odyssey ML, startup de modèles 3D du monde, valorisée à 1,45 milliard. Le fonds IQT et Jeff Dean (Google) participent au tour. Les world models deviennent le prochain pari majeur après les modèles de langage.

Financements Raisonnement Vision

SIG

HYP

Hugging Face Blog·17 juin

MolmoMotion: Language-guided 3D motion forecasting

Hugging Face présente MolmoMotion, un modèle de prévision de mouvement 3D guidé par le langage naturel. Le système combine vision et langage pour anticiper les trajectoires futures à partir de vidéos, ouvrant des applications en robotique et animation.

Vision Robotique

SIG

HYP

GitHub Trending·17 juin

<svg aria-hidden="true" data-component="Octicon" height="16" viewBox="0 0 16 16" version="1.1" width="16" data-view-component="true" class="octicon octicon-repo mr-1 tmp-mr-1 color-fg-muted"> <path d="M2 2.5A2.5 2.5 0 0 1 4.5 0h8.75a.75.75 0 0 1 .75.75v12.5a.75.75 0 0 1-.75.75h-2.5a.75.75 0 0 1 0-1.5h1.75v-2h-8a1 1 0 0 0-.714 1.7.75.75 0 1 1-1.072 1.05A2.495 2.495 0 0 1 2 11.5Zm10.5-1h-8a1 1 0 0 0-1 1v6.708A2.486 2.486 0 0 1 4.5 9h8ZM5 12.25a.25.25 0 0 1 .25-.25h3.5a.25.25 0 0 1 .25.25v3.25a.25.25 0 0 1-.4.2l-1.45-1.087a.249.249 0 0 0-.3 0L5.4 15.7a.25.25 0 0 1-.4-.2Z"></path> </svg> <span data-view-component="true" class="text-normal"> bytedance /</span> UI-TARS-desktop

ByteDance publie UI-TARS-desktop, une stack open-source d'agents IA multimodaux. Le projet connecte modèles IA avancés et infrastructure d'agents pour automatiser des tâches d'interface utilisateur.

Agents IA Multi-agents Open source

SIG

HYP

GitHub Trending·17 juin

<svg aria-hidden="true" data-component="Octicon" height="16" viewBox="0 0 16 16" version="1.1" width="16" data-view-component="true" class="octicon octicon-repo mr-1 tmp-mr-1 color-fg-muted"> <path d="M2 2.5A2.5 2.5 0 0 1 4.5 0h8.75a.75.75 0 0 1 .75.75v12.5a.75.75 0 0 1-.75.75h-2.5a.75.75 0 0 1 0-1.5h1.75v-2h-8a1 1 0 0 0-.714 1.7.75.75 0 1 1-1.072 1.05A2.495 2.495 0 0 1 2 11.5Zm10.5-1h-8a1 1 0 0 0-1 1v6.708A2.486 2.486 0 0 1 4.5 9h8ZM5 12.25a.25.25 0 0 1 .25-.25h3.5a.25.25 0 0 1 .25.25v3.25a.25.25 0 0 1-.4.2l-1.45-1.087a.249.249 0 0 0-.3 0L5.4 15.7a.25.25 0 0 1-.4-.2Z"></path> </svg> <span data-view-component="true" class="text-normal"> bytedance /</span> UI-TARS-desktop

ByteDance publie UI-TARS-desktop, une stack open-source d'agents IA multimodaux connectant modèles IA et infrastructure d'agents. Plateforme pour construire des agents capables d'interagir avec interfaces utilisateur.

Agents IA Multi-agents Open source

SIG

HYP

Reddit r/MachineLearning·17 juin

Mel AI just shared a demo of video-native AI characters that can talk, react, and respond to camera context in real time [N]

Mel AI démontre des personnages IA vidéo-natifs capables de parler, synchroniser les lèvres, réagir faciales et répondre en temps réel au contexte caméra. Le système détecte l'environnement visuel de l'utilisateur et adapte ses réactions. Cette approche dépasse le chat textuel de Character AI (fondé par d'anciens développeurs Google/LaMDA).

Agents IA Vision Voix

SIG

HYP

arXiv cs.CL·17 juin

Implicit vs. Explicit Prompting Strategies for LVLMs in Referential Communication

Deux études récentes tirent des conclusions contradictoires sur la capacité des LVLMs à coordonner des expressions référentielles efficaces. Cette recherche contrôle les différences de tâches et compare directement les styles de prompting. Les modèles coordonnent efficacement avec un prompting explicite, mais échouent à inférer le besoin d'efficacité communicative avec un prompting implicite.

Prompt engineering Vision Évaluations

SIG

HYP

arXiv cs.LG·17 juin

ProCUA-SFT Technical Report

ProCUA-SFT est un dataset de 3.1M échantillons SFT générés automatiquement à partir de 93K trajectoires synthétiques couvrant 2,484 combinaisons d'applications. Fine-tuner UI-TARS 7B sur ProCUA-SFT atteint 45.0% sur OSWorld, soit +18.7 points vs le modèle de base et +35% vs AgentNet. Le pipeline utilise Kimi-K2.5 comme générateur de tâches, juge et exécuteur.

Agents IA Benchmarks Fine-tuning

SIG

HYP

arXiv cs.CL·17 juin

Evaluating Large Language Models Abilities for Addressee, Turn-change, and Next Speaker Prediction in Meetings

Étude comparative des capacités des LLM pour prédire le locuteur suivant, les changements de tour et l'adressataire dans des conversations multi-parties. Sur le corpus AMI, les LLM surpassent les modèles supervisés et les humains en prédiction du locuteur suivant sans accès audio-visuel. Les MM-LLM dépassent les LLM textuels mais restent sous la performance humaine pour l'adressataire et les changements de tour.

Benchmarks Évaluations Vision

SIG

HYP

arXiv cs.CL·17 juin

The Slop Paradox: How Synthetic Standardization Erodes Clinical Uncertainty and Cross-Modal Alignment in AI-Rewritten Radiology Reports

Étude sur 450 rapports de radiologie thoracique montrant que la réécriture par LLM pour standardisation préserve l'alignement image-texte (2,5% de dégradation) mais érode 26,8-29,3% des entités cliniques et 14,9-16,5% du langage d'incertitude. Le paradoxe : les tâches produisant du texte « plus propre » éloignent le contenu de l'image.

Vision RAG Évaluations

SIG

HYP

arXiv cs.LG·17 juin

MODE: Modality-Decomposed Expert-Level Mixed-Precision Quantization for MoE Multimodal LLMs

MODE est une méthode de quantification mixte-précision au niveau expert pour les modèles multimodaux MoE. Elle décompose la fréquence de sélection des experts par modalité (vision/texte) et filtre les tokens visuels redondants pour corriger les biais d'estimation. Résultats : perte de performance <2.9% en W3A16.

Vision Benchmarks Papers

SIG

HYP

arXiv cs.LG·17 juin

Reconfigurable Computing Challenge: Transformer for Jet Tagging on Versal AI Engines

Implémentation d'un transformer quantifié en entiers pour le tagging de jets sur AMD Versal AI Engine (AIE). Framework logiciel réutilisable convertissant automatiquement des modèles Python en code Vitis pour déploiement en systèmes temps réel contraints. Code open-source disponible.

Vision Benchmarks Open source

SIG

HYP

arXiv cs.AI·17 juin

FinAcumen: Financial Multimodal Reasoning via Self-Evolving Experience Memory Harness

FinAcumen est un agent de raisonnement financier multimodal qui accumule l'expérience des trajectoires antérieures dans une mémoire persistante. Le système améliore un modèle vision-langage 8B gelé sur quatre benchmarks financiers en utilisant l'activation sélective d'expériences et un environnement d'outils déterministe pour le calcul numérique et la vérification.

Agents IA Multi-agents Vision

SIG

HYP

arXiv cs.AI·17 juin

FllumaOne: A Code-Native Multimodal CAD Dataset with Executable Programs and Kernel-Validated Feature Histories

FllumaOne est un dataset CAD multimodal de 100 000 modèles générés par programmes Python exécutables dans Flluma (système CAD basé OpenCASCADE). Chaque échantillon aligne le programme avec un arbre de features, une représentation STEP, un nuage de points et des descriptions en langage naturel. Un baseline Qwen2.5-Coder-1.5B atteint 99.98% de validité syntaxe Python et 99.14% de validité export STEP.

Génération de code Benchmarks Vision

SIG

HYP

arXiv cs.AI·17 juin

LongWebBench: Evaluating Structural and Functional Webpage Generation in Long-Horizon Settings

LongWebBench est un benchmark évaluant la génération de pages web longues par des modèles vision-langage. Il contient 490 pages réelles pour l'évaluation structurelle et 507 tâches interactives sur 129 pages. Les expériences montrent que la fidélité structurelle se dégrade avec la longueur et que les générations visuellement plausibles échouent souvent à supporter les interactions multi-étapes.

Vision Benchmarks Agents IA

SIG

HYP

arXiv cs.CL·17 juin

Revisiting LLM Adaptation for 3D CT Report Generation: A Study of Scaling and Diagnostic Priors

Étude d'adaptation d'LLM pour la génération de rapports CT 3D en imagerie médicale. RAD3D-Prefix, un framework léger basé sur des priors diagnostiques, intègre embeddings d'images et logits de classification multi-label. Sur LLMs de 96.1M à 1.6B paramètres, geler le modèle et entraîner uniquement des couches de projection surpasse le fine-tuning complet, réduisant l'hallucination clinique et l'overfitting.

Fine-tuning Vision

SIG

HYP

arXiv cs.CL·17 juin

MODE-RAG: Manifold Outlier Diagnosis and Energy-based Retrieval-Augmented Generation Evaluation

MODE-RAG est un système multi-agent basé sur l'énergie libre variationnelle pour réduire les hallucinations dans les systèmes de génération augmentée par récupération multimodale. Il utilise MCTS, perturbations logit et des agents spécialisés pour router les requêtes à haut risque et vérifier les faits. Les auteurs introduisent ModeVent, un sous-ensemble du dataset MultiVent, pour évaluer la robustesse.

RAG Multi-agents Vision

SIG

HYP

arXiv cs.LG·17 juin

Correct When Paired, Wrong When Split: Decoupling and Editing Modality-Specific Neurons in MLLMs

Les chercheurs identifient un problème critique dans l'édition de connaissances des MLLMs : les mises à jour fonctionnent avec des entrées multimodales (texte+image) mais échouent avec des entrées unimodales seules. Ils proposent DECODE, une méthode qui localise et découple les neurones spécifiques à chaque modalité pour propager les éditions de manière cohérente.

Fine-tuning Vision Évaluations

SIG

HYP

arXiv cs.LG·17 juin

Probing, Fusion, and Trustworthiness: A Systematic Evaluation of Foundation Model Representations for Multimodal Cancer Analysis

Évaluation systématique de représentations de modèles de fondation (5 FMs) sur des tâches de pathologie computationnelle utilisant images entières de lames et profils transcriptomiques (cohorts IH-BC, IH-NSCLC). Fusion multimodale améliore les performances quand aucune modalité ne domine. Prédiction conforme montre que le diagnostic correct reste récupérable dans 90% des cas d'erreur.

Vision Benchmarks Sécurité IA

SIG

HYP

arXiv cs.AI·17 juin

Surrogate Assisted Pedestrian Protection Design via a Foundation Model Orchestrated Workflow

Workflow d'optimisation de sécurité piétonne orchestré par modèle de fondation. Intègre surrogate ML (R²=0.87), recherche évolutionnaire multi-objectif, générateur de géométrie et interface LLM. Réduit temps d'évaluation de heures à secondes ; produit 35 alternatives conformes en cas d'étude pare-chocs automobile.

Agents IA Vision Raisonnement

SIG

HYP

arXiv cs.AI·17 juin

StepGuard: Guarding Web Navigation via Single-Step Calibration

StepGuard propose une méthode pour améliorer la navigation web par agents IA. Elle combine Dynamic Dual-Policy Optimization (DDPO) pour gérer les conflits de récompense et Confidence-Guided Adaptive Navigation Reflection (CANR) pour calibrer les erreurs à chaque étape. Le framework atteint des résultats SOTA sur les benchmarks de navigation web.

Agents IA Reinforcement learning Vision

SIG

HYP

arXiv cs.AI·17 juin

MathVis-Fine: Aligning Visual Supervision with Necessity via Progressive Dependency-Guided Training for Multimodal Mathematical Reasoning

MathVis-Fine propose un cadre pour améliorer le raisonnement mathématique multimodal en modélisant les dépendances visuelles fine-grained. Un nouveau dataset annote les images avec des ratings de dépendance visuelle. Un entraînement progressif en deux étapes équilibre les récompenses de correction et de grounding visuel selon la nécessité réelle de chaque échantillon.

Raisonnement Vision Benchmarks

SIG

HYP

Le Big Data·17 juin

Les lunettes AR de Snap sont là… mais qui osera vraiment les porter ?

Snap lance ses lunettes AR grand public. L'article questionne l'adoption réelle du produit face à la concurrence et aux défis d'acceptation sociale des utilisateurs.

Vision

SIG

HYP

arXiv cs.AI·16 juin

Forced Deferral: Manipulating Routing Decisions in Multimodal LLM Cascades

Des chercheurs découvrent une vulnérabilité dans les cascades de modèles multimodaux : une attaque adversariale (Forced Deferral Attack) manipule la confiance du modèle faible pour forcer le routage vers le modèle fort, augmentant les coûts de calcul sans modifier les réponses.

Sécurité IA Vision Benchmarks

SIG

HYP

arXiv cs.AI·16 juin

Do we have the knowledge we need? Rethinking human-AI decision-making in corporations

Article de position sur l'intégration de l'IA dans les décisions organisationnelles. Les auteurs proposent un cadre pour allouer l'agentivité entre humains et systèmes IA selon les attributs des tâches et la disponibilité des connaissances. Deux cas d'étude manufacturiers : inspection visuelle de qualité et localisation d'usine.

Agents IA Business Vision

SIG

HYP

arXiv cs.CL·16 juin

ReportQA: QA-Based Radiology Report Evaluation

ReportQA propose une métrique d'évaluation QA pour les rapports radiologiques générés automatiquement. Le framework utilise des LLM pour extraire des informations structurées, générer des paires QA à partir de templates, et évaluer l'alignement avec les jugements radiologues. Les auteurs publient arbres de connaissances, rapports structurés et code.

Papers Vision Évaluations

SIG

HYP

arXiv cs.CL·16 juin

Can Agents Read the Room? Benchmarking Visual Social Intelligence in Multimodal Simulation

Benchmark AgentViSS évalue l'intelligence sociale visuelle d'agents multimodaux dans des simulations sociales. 240 scénarios, 585 rôles, 2340 instances testent si les MLLMs utilisent indices visuels (expressions, posture, regard) pour guider interactions. Sept modèles évalués montrent écart : expression et gestion de conflits proches saturation, régulation d'interaction et résultats visuels restent difficiles.

Benchmarks Vision Agents IA

SIG

HYP

arXiv cs.CL·16 juin

Adapting Reinforcement Learning with Chain-of-Thought Supervision for Explainable Detection of Hateful and Propagandistic Memes

Méthode de post-training par reinforcement learning (GRPO) pour améliorer la détection de mèmes haineux et propagandistes dans les MLLMs. Amélioration de +2.1% sur Hateful Memes (79.9%→82.0%) et +7.6 points macro-F1 sur ArMeme (0.536→0.612) avec explications en chaîne de pensée. Code et données publiquement disponibles.

Reinforcement learning Raisonnement Vision

SIG

HYP

arXiv cs.LG·16 juin

QPILOTS: Efficient Test-Time Q-Steering for Flow Policies

QPILOTS optimise les politiques de flow-matching et diffusion en temps d'inférence via Q-steering. La méthode projette les actions bruitées intermédiaires vers des estimations finales avant d'évaluer le critique, évitant l'instabilité numérique. Résultats : 90% de taux de succès sur 50 tâches offline-to-online, et surpasse les approches existantes sur 6 tâches de manipulation avec modèles VLA gelés.

Reinforcement learning Agents IA Raisonnement

SIG

HYP

arXiv cs.LG·16 juin

Unlocking Latent Dimensions: Exploring Representations of Large-Scale X-ray Scattering Data using Variational Autoencoders

Variational Autoencoder (C-VAE) entraîné sur 1,5 million d'images de diffusion de rayons X pour apprendre des représentations latentes de faible dimension. Le modèle révèle des clusters organisés et génère des images synthétiques contrôlées. Déployé sans réentraînement sur deux installations de synchrotron, il surpasse DINOv3 en interprétabilité. Intégré dans Latent Space Explorer (MLExchange).

Vision Benchmarks Outils

SIG

HYP

arXiv cs.AI·16 juin

Fusion is not one-size-fits-all: Cross-Modal Representation Alignment for Time-to-Event Modeling

Framework de fusion multimodale pour prédire le temps jusqu'à un événement clinique (mortalité PE, résultats CVD) en alignant représentations CT et données EHR longitudinales via modèles fondation. Quatre stratégies testées (late fusion, contrastive alignment, cross-attention, co-attention) sur 3,099-2,951 patients. Fusion contrastive améliore l'indice de concordance de 1,5-5,4% vs unimodal.

Benchmarks Embeddings Vision

SIG

HYP

arXiv cs.AI·16 juin

Visual-Seeker: Towards Visual-Native Multimodal Agentic Search via Active Visual Reasoning

Visual-Seeker est un agent de recherche multimodal qui améliore le raisonnement visuel des MLLMs dans des scénarios complexes. L'approche utilise un pipeline de raisonnement visuel actif et 5K trajectoires multimodales synthétiques pour entraîner le modèle. L'agent atteint des performances SOTA sur cinq benchmarks de recherche multimodal, surpassant certains modèles propriétaires.

Agents IA Vision Multi-agents

SIG

HYP

arXiv cs.AI·16 juin

QoS-Aware Token Scheduling and Private Data Valuation for Multi-Modal Agentic Networks

Système d'allocation équitable de tokens pour réseaux d'agents décentralisés. Approche combinant représentations multi-modales, prototypes différentiellement privés et schéma de récompense robuste à l'hétérogénéité des données. Simulations montrent amélioration de l'équité et de la QoS, avec résistance renforcée aux attaques de reconstruction d'images.

Agents IA Multi-agents Vision

SIG

HYP

Vision — actualité IA · Signal IA