RSS

Reddit r/MachineLearning

https://www.reddit.com/r/MachineLearning/

Reddit r/MachineLearning·

MiniMax dropped a new attention architecture. [N]

MiniMax introduit une nouvelle architecture d'attention (MSA) supportant nativement 1M tokens sans complexité quadratique. Approche « KV outer gather Q » offrant 4× plus rapide que Flash-Sparse-Attention, réduction compute à 1/20e, 9× speedup prefilling, 15× decoding. Premier modèle open-weight combinant coding frontier, 1M contexte et multimodalité native.

RaisonnementGénération de codeVision
SIG
72
HYP
35
Reddit r/MachineLearning·

Backpropagation destroys V1 brain alignment in one epoch, tracking RSA alignment to fMRI across training for BP, FA, predictive coding, and STDP [R]

Étude comparative de règles d'apprentissage (backprop, feedback alignment, predictive coding, STDP) via alignement RSA avec fMRI V1 humain. Backprop détruit 90% de l'alignement V1 après 1 epoch (r: 0.102→0.011), tandis que PC et STDP ne perdent que 25-31%. À epoch 40: PC/STDP >> BP/FA. Suggère un trade-off fondamental entre signaux d'erreur globaux (couches hautes) et alignement précoce.

AlignementBenchmarksPapers
SIG
78
HYP
15
Reddit r/MachineLearning·

LLM agents patch security bugs, pass all tests, but still leave the vulnerability open [R]

CVE-Bench évalue 5 modèles frontier sur 20 CVEs réelles (Pillow, GitPython, urllib3, etc.) avec 300 runs. Taux de résolution max 50% (60% en advisory). Les agents corrigent syntaxiquement mais laissent la vulnérabilité ouverte. Écarts significatifs cross-family (OpenAI vs Laguna, p<0.05), bruit intra-famille. Analyse des défaillances : drift de recherche, hallucinations, manque de contextualisation.

Agents IABenchmarksSécurité IA
SIG
78
HYP
15
Reddit r/MachineLearning·

[P] Built a persistent cognitive runtime around an LLM — zero behavioral prompts, emergent autonomy from architecture. Comparison test: standard LLM in identical ecosystem did nothing.[P]

Développeur crée LIA, un runtime cognitif persistant autour d'un LLM sans prompts comportementaux. Architecture avec 20k+ mémoires auto-évaluées, kernel cognitif (LCRK v3), système d'auto-règles et domaine privé Linux. Test : LLM standard dans même écosystème reste inactif.

Agents IAPrompt engineeringRaisonnement
SIG
35
HYP
72
Reddit r/MachineLearning·

Finetuning a Reasoning LLM with Supervised or Reinforcement Learning? [D]

Discussion sur le fine-tuning de petits LLMs avec données conversationnelles annotées incluant traces de raisonnement et décisions d'appel d'outils. L'auteur propose de structurer les données en samples avec historique complet et masquage de la loss sur tokens non-assistant. Demande si SFT suffit ou si RL (PPO, GRPO, DPO) est nécessaire pour optimiser l'utilisation d'outils.

Fine-tuningRaisonnementReinforcement learning
SIG
35
HYP
15
Reddit r/MachineLearning·

Real-time multilingual ASR using rolling buffers and monolingual models [P]

Système ASR multilingue temps réel utilisant un routage entre modèles monolingues spécialisés (~100M paramètres chacun) plutôt qu'un seul modèle massif. Détecte les changements de langue via SpeechBrain et re-transcrit avec le bon modèle. Atteint 13% WER sur code-switching inter-énoncé, surpassant les APIs cloud. Repo open-source disponible.

VoixGénération de codeOpen source
SIG
78
HYP
25
Reddit r/MachineLearning·

How much of MLE-Bench's gains are the algorithm vs. better models + more search? [R]

MLE-Bench affiche 80% de gains en deux ans, mais une nouvelle étude (FML-Bench) révèle que peu provient du progrès algorithmique réel. À budget de steps égal et modèles identiques, l'algorithme AIDE de deux ans égale les systèmes modernes de recherche agent/évolutionnaire. FML-Bench unifie l'agent d'édition de code, la définition des steps et les splits val/test pour évaluer l'efficacité algorithmique.

BenchmarksAgents IAÉvaluations
SIG
72
HYP
25
Reddit r/MachineLearning·

I built mlx-Chronos — a community benchmark leaderboard for local LLM engines on Apple Silicon (oMLX, Rapid-MLX, mlx-lm, Ollama) [P]

mlx-Chronos est un outil CLI open-source et leaderboard communautaire pour benchmarker les moteurs d'inférence LLM locaux sur Apple Silicon (oMLX, Rapid-MLX, mlx-lm, Ollama). Mesure TTFT, throughput, RAM, et état thermique avec méthodologie standardisée. Actuellement peuplé uniquement par résultats M2 8GB.

Open sourceBenchmarksInfrastructure
SIG
72
HYP
25
Reddit r/MachineLearning·

Before we spend months processing open-source robotics datasets, tell us why this is a bad idea [D]

Deux étudiants ML questionnent l'hypothèse que la robotique souffre d'une pénurie de données. Après normalisation de datasets publics, ils suspectent que le vrai problème est l'interopérabilité : schémas hétérogènes, capteurs différents, cadres de coordonnées incompatibles. Ils demandent aux équipes robotique si elles utiliseraient réellement des données d'autres équipes via une API unifiée.

RobotiqueRAGOpen source
SIG
35
HYP
15
Reddit r/MachineLearning·

What I learned building a debugger for PyTorch training loops and how it changed how I think about failure diagnosis [D]

Développeur a créé NeuralDBG, un debugger PyTorch qui détecte automatiquement les défaillances d'entraînement (gradients qui s'évanouissent/explosent, anomalies de données). Insight clé : les défaillances sont localisées par couche, pas globales. Monitoring efficace : transitions de normes de gradient par couche plutôt que histogrammes bruts. Outil open-source sur PyPI.

OutilsGénération de codeOpen source
SIG
72
HYP
28
Reddit r/MachineLearning·

Making LLMs tell you how confident they really are through probe-targeted fine tuning.[R]

Recherche sur le fine-tuning ciblé par probe (LoRA) pour calibrer la confiance verbale des LLM. Les modèles détectent internement les réponses correctes (0.76–0.88 AUROC) mais affichent 99% de confiance en sortie. Fine-tuning sur 8 modèles (7B–70B) avec activation patching causal (ρ=0.976). Code et pré-enregistrement disponibles.

Fine-tuningRaisonnementAlignement
SIG
82
HYP
18
Reddit r/MachineLearning·

I built a knowledge graph + policy engine for AI agents , explainable reasoning [D]

VeritasReason est un framework Python open-source qui ajoute une couche de raisonnement structuré et de traçabilité aux agents IA. Il fournit des graphes de contexte queryables, un moteur de règles forward-chaining (YAML), la provenance W3C PROV-O, et la vérification de conformité aux politiques. Compatible avec OpenAI, Anthropic, Groq, Ollama.

Agents IARaisonnementOpen source
SIG
65
HYP
35
Reddit r/MachineLearning·

Wall-OSS-0.5: 4B VLA with open training code and zero-shot real-robot evaluation[D]

Wall-OSS-0.5 est un VLA de 4B paramètres d'X Square Robot avec code d'entraînement ouvert. Évaluation zéro-shot sur 17 tâches robotiques réelles : 4 tâches >80% de progrès, dont Rope Tightening (82%). Après fine-tuning : 60.5% de progrès moyen (+17.5pp vs pi0.5). Architecture Mixture-of-Transformers avec tokenizer RVQ aligné vision et optimiseur DMuon distribué.

RobotiqueVisionGénération de code
SIG
78
HYP
25
Reddit r/MachineLearning·

Kept context-switching between arxiv, OpenReview, GitHub, and HuggingFace for every paper, so I built this. Chrome extension + website with everything inline, plus citation graph + SPECTER2 neighbors. 3M papers, free, feedback welcome [P]

Tomesphere : extension Chrome + site web indexant 3M papiers arxiv avec résumés LLM, avis OpenReview, repos GitHub, modèles HuggingFace, graphe de citations et voisins SPECTER2. Gratuit, sans inscription.

PapersOutilsOpen source
SIG
72
HYP
35
Reddit r/MachineLearning·

A new dataset with more that 100M hi-quality, curated images, with captions and meta data! [P]

MONET, un dataset Apache 2.0 de 104,9 millions d'images haute qualité avec captions et métadonnées, publié sur Hugging Face. Construit à partir de 2,9 milliards d'images et raffiné. Accompagné d'un paper, d'outils de visualisation UMAP, d'un moteur de recherche texte/image et d'une codebase pour entraîner des modèles T2I.

Génération d'imagesEmbeddingsOpen source
SIG
75
HYP
25
Reddit r/MachineLearning·

[R] What 1000+ Harness Experiments Taught Me About Self-Improving Agents [R]

Un chercheur a mené 1000+ expériences sur l'auto-amélioration d'agents IA via modification de harness pour résoudre des tâches. Les agents peuvent proposer des changements ponctuels significatifs, mais l'amélioration continue bute sur des problèmes d'architecture système : décider quelles améliorations peuvent se composer sans risque. Parallèles observés avec la personnalisation d'agents de code.

Agents IARaisonnementGénération de code
SIG
65
HYP
25
Reddit r/MachineLearning·

noisekit - CLI for generating realistic degraded speech datasets for ASR benchmarking [P]

noisekit est un CLI open-source pour générer des datasets de parole dégradée annotés, permettant de benchmarker les modèles STT sur des conditions réalistes (télécom G.711, bruit ambiant, réverbération). Résout le problème : les datasets publics (FLEURS, CommonVoice) sont trop propres pour évaluer la performance en production. Compatible HuggingFace AudioFolder, inclut métriques PESQ/SNR/NISQA.

VoixÉvaluationsBenchmarks
SIG
72
HYP
25
Reddit r/MachineLearning·

EMA-Gated Temporal Sequence Compression in Vision Transformers [P]

NeuroFlow est un framework de routage dynamique pour l'inférence vidéo des Vision Transformers. Il exploite la redondance temporelle via une moyenne mobile exponentielle (EMA) des embeddings de patches pour éliminer les tokens stationnaires. Architecture B atteint 55.80× d'accélération (678 ms → 11.9 ms sur SigLIP 1792p) à 97.37% de fidélité. Code disponible.

VisionPapersOpen source
SIG
72
HYP
35
Reddit r/MachineLearning·

Cross-species RSA: same learning rules (BP, PC, STDP, FA) tested against both human fMRI and macaque electrophysiology [P]

Étude comparative de règles d'apprentissage (BP, PC, STDP, FA) testées sur fMRI humain et électrophysiologie macaque (V1/V2/V4/IT). STDP et PC dominent en V1/V2 (ρ ≈ 0.30/0.28), conservant le pattern humain. En IT, l'alignement dépend de la capacité du modèle (ResNet-50: ρ ≈ 0.25) plutôt que de la règle. Code et deux papers (arxiv 2604.16875, 2605.22401) disponibles.

PapersBenchmarksRaisonnement
SIG
72
HYP
15
Reddit r/MachineLearning·

Augmented Equivariant Mesh Networks for Anatomical Mesh Segmentation (ICML 2026 Workshops) [R]

EAMS (Equivariant Anatomical Mesh Segmentor) applique l'équivariance rotationnelle aux réseaux de mailles pour la segmentation anatomique 3D. Le modèle (<2M paramètres) maintient la performance sous perturbations géométriques (rotation 40°) où les méthodes existantes chutent de 25-26 points IoU. Évalué sur 4 tâches cliniques (anévrisme intracrânien, segmentation intra-orale, foie).

PapersVisionRaisonnement
SIG
72
HYP
18
Reddit r/MachineLearning — flux IA · Signal IA