Topic

#Vision

La vision par ordinateur (computer vision) est le domaine de l'IA qui permet aux machines d'analyser et d'interpréter des images ou des vidéos. GPT-4o, par exemple, peut décrire le contenu d'une photo, lire du texte imprimé ou identifier des objets dans une scène.

40Articles
12Sources
67Signal moyen
Reddit r/MachineLearning·

MiniMax dropped a new attention architecture. [N]

MiniMax introduit une nouvelle architecture d'attention (MSA) supportant nativement 1M tokens sans complexité quadratique. Approche « KV outer gather Q » offrant 4× plus rapide que Flash-Sparse-Attention, réduction compute à 1/20e, 9× speedup prefilling, 15× decoding. Premier modèle open-weight combinant coding frontier, 1M contexte et multimodalité native.

RaisonnementGénération de codeVision
SIG
72
HYP
00
arXiv cs.CL·

DraDDP: A Multimodal Multi-Party Dialogue Discourse Parsing Dataset

DraDDP est le premier dataset public multimodal pour l'analyse de structures de discours en dialogues multi-parties. Construit à partir de séries TV américaines, il contient 495 segments de dialogue (6 374 énoncés, 9.1 heures de vidéo). Les benchmarks montrent l'utilité des informations multimodales pour identifier les dépendances et types de relations entre énoncés.

VisionMulti-agentsBenchmarks
SIG
75
HYP
00
arXiv cs.AI·

TIGER: Traceable Inference with Graph-Based Evidence Routing for Mitigating Hallucinations in Multimodal Generation

TIGER est une méthode d'inférence pour réduire les hallucinations dans la génération multimodale. Elle construit un graphe d'observations à partir de l'entrée et un graphe de claims à partir de la sortie, puis assigne des scores de risque basés sur le support et les conflits. Le modèle répare les claims à haut risque sans modifier le backbone. Convergence garantie avec réduction géométrique du risque.

RaisonnementVisionPapers
SIG
78
HYP
00
arXiv cs.AI·

Closed-Loop Neural Activation Control in Vision-Language-Action Models

CTRL-STEER propose un cadre de contrôle en boucle fermée pour les modèles Vision-Language-Action (VLA). Au lieu d'utiliser un coefficient de direction fixe, la méthode adapte dynamiquement la force d'intervention via des contrôleurs PID ou par apprentissage par renforcement. Tests sur OpenVLA et LIBERO montrent une meilleure stabilité et un meilleur compromis entre direction et succès de tâche.

VisionAgents IAReinforcement learning
SIG
72
HYP
00
arXiv cs.AI·

VESTA: Visual Exploration with Statistical Tool Agents

VESTA est un framework d'agents statistiques équipant les VLMs d'une boîte à outils exploratoire dynamique pour affiner les modèles quantitatifs. Évalué sur DAWN (benchmark de modélisation de distributions et séries temporelles), VESTA surpasse les systèmes antérieurs, notamment sur tâches complexes en astronomie (fonctions de masse initiale, signaux d'ondes gravitationnelles).

Agents IAVisionRaisonnement
SIG
72
HYP
00
arXiv cs.AI·

SDR: Set-Distance Rewards for Radiology Report Generation

Nouvelle méthode de récompense basée sur les distances entre ensembles pour l'entraînement par renforcement de modèles vision-langage sur la génération de rapports radiologiques. Testée sur Qwen3-VL, Gemma3 avec GRPO : amélioration de 6,80% (BERTScore), 7,82% (RadGraph F1), 4,45% (CheXbert F1) vs fine-tuning supervisé. Permet aussi sélection test-time et élagage mid-generation réduisant tokens de 50%.

Reinforcement learningVisionGénération de code
SIG
78
HYP
00
arXiv cs.LG·

Beyond Augmentation: Score-Guided Pathological Prior for EEG-based Depression Detection

Nouvelle approche pour détecter la dépression majeure à partir d'EEG sans augmentation de données. La méthode SGC (Score-Guided Classification) utilise un réseau génératif non supervisé pour modéliser les anomalies pathologiques comme prior, fusionné avec les représentations profondes. Un module d'adaptation spatiale gère l'hétérogénéité des canaux multi-centres. Validation sur Mumtaz2016 et MODMA.

PapersÉvaluationsVision
SIG
72
HYP
00
arXiv cs.CL·

Do Text Edits Generalize to Visual Generation? Benchmarking Cross-Modal Knowledge Editing in UMMs

UniKE, premier benchmark pour l'édition de connaissances cross-modal dans les modèles multimodaux unifiés (UMMs), révèle un écart critique : l'efficacité textuelle atteint 92% mais la précision VQA en génération d'images chute à 18,5%. Une méthode d'édition paramétrique augmentée par raisonnement améliore les résultats jusqu'à +18,6 points.

BenchmarksVisionFine-tuning
SIG
78
HYP
00
arXiv cs.AI·

Diagnosing Failure Modes of Shared-State Collaboration in Resource-Constrained Visual Agents

CoSee, un framework d'audit, analyse les défaillances de systèmes de raisonnement visuel modulaires utilisant une mémoire partagée. Sur des modèles 4B–8B, deux modes de défaillance dominent : Noise Reinforcement (réutilisation de notes non fondées) et Policy Collapse (réponses sous-spécifiées). L'étude montre que les espaces de travail partagés naïfs amplifient les hallucinations sans vérification explicite.

VisionAgents IAMulti-agents
SIG
72
HYP
00
arXiv cs.AI·

FAM-Bench: A Multimodal Benchmark for Condition-Aware Food-as-Medicine Reasoning

FAM-Bench est un benchmark multimodal de 2500 instances vérifiées par des experts en nutrition, évaluant le raisonnement « Food-as-Medicine » sur 13 conditions de santé. Deux tâches : évaluer l'adéquation d'un plat pour une condition (image + ingrédients) et classer 4 plats par pertinence clinique. Teste l'intégration de contraintes nutritionnelles, indices visuels et preuves d'ingrédients.

BenchmarksVisionRaisonnement
SIG
75
HYP
00
arXiv cs.LG·

Functional MRI Time Series Generation via Wavelet-Based Image Transform and Spectral Flow Matching for Brain Disorder Identification

DSFM (Dual-Spectral Flow Matching) génère des séries temporelles fMRI synthétiques en combinant transformée en ondelettes discrète (DWT) et transformée en cosinus discret (DCT) avec flow matching spectral. Le modèle capture la non-stationnarité et la dynamique spatiotemporelle des signaux BOLD pour améliorer la classification de réseaux cérébraux.

PapersBenchmarksVision
SIG
72
HYP
00
arXiv cs.AI·

PhyDrawGen: Physically Grounded Diagram Generation from Natural Language

PhyDrawGen est un pipeline neuro-symbolique qui génère des diagrammes de physique à partir de texte en respectant les lois physiques. Un LLM extrait un graphe de scène typé, un solveur déterministe le convertit en graphe planaire, et Qwen-VL affine une boucle propose-vérifier. Évalué sur 1 449 problèmes (mécanique, optique, électromagnétisme), il surpasse GPT-5-image et Gemini.

QwenRaisonnementVision
SIG
78
HYP
00
arXiv cs.AI·

Learning to Adapt: Self-Improving Web Agent via Cognitive-Aware Exploration

SCALE est un framework d'auto-amélioration pour agents web basé sur MLLMs. Il utilise trois rôles adversariaux (Selector, Predictor, Judger) pour explorer autonomement les limites de l'agent et élargir ses capacités cognitives. SCALE-Hop optimise la planification globale. Un dataset SCALE-20k de 19 sites réels avec 20k démonstrations structurées valide l'approche sur plusieurs MLLMs.

Agents IAVisionReinforcement learning
SIG
72
HYP
00
arXiv cs.AI·

TRINE: A Token-Aware, Runtime-Adaptive FPGA Inference Engine for Multimodal AI

TRINE est un accélérateur FPGA et compilateur pour l'inférence multimodale (ViT, CNN, GNN, transformers) sans reconfiguration. Il unifie les couches en opérations matricielles, bascule entre architectures systoliques et SIMD, et applique l'élagage de tokens en flux. Sur Alveo U50 et ZCU104, il réduit la latence de 22,57x vs RTX 4090 et consomme 20-21 W.

VisionGénération de codeInfrastructure
SIG
78
HYP
00
arXiv cs.CL·

TeachObs: A Human-Validated Benchmark for Multimodal Teaching Observation and Model Evaluation

TeachObs est un benchmark multimodal validé par des humains pour l'analyse de vidéos de classe. Il contient 30 leçons publiques de 8 pays, divisées en 5 158 scènes de 15 secondes, annotées par 7 chercheurs avec 39 codes d'observation (20 visuels, 19 non-visuels). Évaluation de 5 LLMs vision sur 3 tâches : aucun modèle ne surpasse les autres systématiquement.

BenchmarksVisionÉvaluations
SIG
78
HYP
00
GitHub Trending·

<svg aria-hidden="true" data-component="Octicon" height="16" viewBox="0 0 16 16" version="1.1" width="16" data-view-component="true" class="octicon octicon-repo mr-1 tmp-mr-1 color-fg-muted"> <path d="M2 2.5A2.5 2.5 0 0 1 4.5 0h8.75a.75.75 0 0 1 .75.75v12.5a.75.75 0 0 1-.75.75h-2.5a.75.75 0 0 1 0-1.5h1.75v-2h-8a1 1 0 0 0-.714 1.7.75.75 0 1 1-1.072 1.05A2.495 2.495 0 0 1 2 11.5Zm10.5-1h-8a1 1 0 0 0-1 1v6.708A2.486 2.486 0 0 1 4.5 9h8ZM5 12.25a.25.25 0 0 1 .25-.25h3.5a.25.25 0 0 1 .25.25v3.25a.25.25 0 0 1-.4.2l-1.45-1.087a.249.249 0 0 0-.3 0L5.4 15.7a.25.25 0 0 1-.4-.2Z"></path> </svg> <span data-view-component="true" class="text-normal"> PaddlePaddle /</span> PaddleOCR

PaddleOCR est un toolkit OCR léger et multilingue (100+ langues) conçu pour convertir documents PDF et images en données structurées exploitables par les LLM.

Open sourceVisionOutils
SIG
65
HYP
00
Vision — actualité IA · Signal IA