Reddit r/MachineLearning

Fine-tuning Raisonnement Évaluations

Contrastive targeted SFT as a mechinterp method - has anyone mapped causal dependency interactions this way? [D]

Chercheur teste une approche itérative combinant SFT ciblée et interprétabilité mécanique sur un modèle 31B. Stratégie : entraînement contrastif sur des dimensions de capacité spécifiques, puis ablation des circuits pour cartographier les dépendances causales entre dimensions et optimiser l'ordre d'entraînement futur.

SIG

HYP

Génération d'images Open source Outils

I deployed a GAN on a Raspberry Pi 4 and built a physical NFT minting device [P]

Déploiement d'un DCGAN 128×128 sur Raspberry Pi 4 connecté à un ESP32. Modèle entraîné 800 epochs sur M3 (4h), 2480 images, exporté en ONNX (53MB). Inférence 3s/image. Génère des visages hybrides avec titres aléatoires. Présenté comme installation artistique à NYC.

SIG

HYP

Raisonnement Reinforcement learning Papers

Next-Latent Prediction Transformers [R]

Microsoft Research propose Next-Latent Prediction (NextLat), une méthode d'apprentissage auto-supervisé où les transformers prédisent leur propre état latent suivant. Cela améliore la compression de l'historique, l'efficacité des données et accélère l'inférence jusqu'à 3.3x via décodage spéculatif récursif.

SIG

HYP

Benchmarks Infrastructure

What is Speculative Decoding? (trending on paperswithco.de) [R]

Speculative Decoding est une technique d'optimisation d'inférence qui utilise un petit modèle rapide pour proposer plusieurs tokens futurs, vérifiés en parallèle par un modèle cible plus grand. SGLang a publié un blog détaillant comment atteindre des latences optimales pour l'inférence LLM avec Modal et les modèles DFlash de Z.ai.

SIG

HYP

Robotique Benchmarks Évaluations

Mel AI just shared a demo of video-native AI characters that can talk, react, and respond to camera context in real time [N]

Mel AI démontre des personnages IA vidéo-natifs capables de parler, synchroniser les lèvres, réagir faciales et répondre en temps réel au contexte caméra. Le système détecte l'environnement visuel de l'utilisateur et adapte ses réactions. Cette approche dépasse le chat textuel de Character AI (fondé par d'anciens développeurs Google/LaMDA).

Agents IA Vision Voix

SIG

HYP

Reddit r/MachineLearning·16 juin

I built a leakage-clean verifier for robot manipulation, is this useful? Am I solving a non-problem? [D]

Développeur crée un vérificateur de benchmark pour la manipulation robotique qui compile des démonstrations humaines en graphes objet-centriques et valide les rollouts indépendamment, évitant les fuites d'information. Soulève la question : est-ce utile face aux métriques ad-hoc actuelles, ou résout-il un non-problème ?

SIG

HYP

Reddit r/MachineLearning·16 juin

My offline ablation said -0.19pp. The production retrain said +1.11pp. [D]

Un ingénieur ML rapporte que ses ablations offline (retraining avec/sans feature) donnaient des résultats opposés à la production. Quatre changements : Best Offer feature (+0.12pp offline → -0.19pp prod), backfill données enchères (+0.37pp prod), trimming outliers (-0.19pp offline → +1.11pp prod), encodeur CatBoost. Causes : train/serve skew, distribution shift non mesurée, population drift, instabilité baseline.

Évaluations Benchmarks

SIG

HYP

Reddit r/MachineLearning·16 juin

quicktok: a faster tokenizer (exact and byte-identical with tiktoken) [P]

quicktok est un tokeniseur BPE écrit en C++ produisant des tokens byte-identiques à tiktoken. Il encode 2–3.6× plus vite que bpe-openai et 4–11× plus vite que tiktoken lui-même. Supporte cl100k, o200k, GPT-OSS, Llama-3, Qwen2.5/3. Optimisations : trie 2-byte, caches denses, pretokenizer compilé.

Génération de code Outils Open source

SIG

HYP

Papers Raisonnement Reinforcement learning

How the brains learn [R]

Article scientifique proposant un cadre unifié pour expliquer l'apprentissage du néocortex via l'apprentissage prédictif piloté par erreurs et dérivées temporelles. Implémenté dans le framework Axon avec neurones impulsionnels, testé sur des tâches cognitives complexes. Les auteurs suggèrent ce mécanisme comme alternative potentielle à la rétropropagation.

SIG

HYP

Qwen Fine-tuning Génération de code

Cleo: trying to fit full analyst behavior in a 2B model [P]

Cleo est un fine-tune de Qwen 2B-Base conçu pour les tâches text-to-SQL. Le modèle intègre entraînement, évaluation et inférence dans un même système unifié, avec couche de sécurité SQL, gestion des dialectes et comportement de clarification. Code, modèle et datasets sont open-source.

SIG

HYP

Open source Reinforcement learning Génération de code

Open weights are not enough: we need open training frameworks for research and better algorithms [P]

FeynRL, un framework open-source pour le post-training RL des LLMs et agents, vise à rendre la formation transparente et modifiable. L'auteur argue que les poids ouverts ne suffisent pas : il faut des codebases d'entraînement explicites séparant algorithmes et systèmes. Le framework supporte SFT, DPO, multi-GPU et clusters.

SIG

HYP

Claude Papers Évaluations

AI language models have favorite names, and we mapped them [R]

Les modèles de langage présentent des biais spécifiques sur les noms de personnages. Claude génère fréquemment Elena Vasquez et Marcus Chen ensemble, formant des ensembles corrélés qui apparaissent sur des dizaines de sites web. Une étude (arXiv:2606.02184) documente ce phénomène découvert lors du développement d'une méthode de diffing de modèles.

SIG

HYP

Concept-Vector: A design framework for human-interpretable word embeddings [P]

Concept-Vector propose un cadre de design pour transformer les embeddings de mots en vecteurs interprétables par l'humain, où chaque composante représente des aspects sémantiques, syntaxiques ou statistiques avec des labels lisibles. Projet de design de données sans validation empirique sur modèles, partagé pour retours critiques.

Embeddings Papers

SIG

HYP

Open source Outils Fine-tuning

I implemented 10 core ML algorithms from scratch with NumPy. Here's what no tutorial taught me [P]

Implémentation de 10 algorithmes ML classiques (régression, KNN, arbres de décision, XGBoost, réseaux de neurones) en NumPy pur, validés contre Scikit-learn et PyTorch. Repo open-source avec notebooks Jupyter exécutables localement ou sur Colab. L'auteur souligne l'importance de la structure modulaire et de la compréhension du gradient descent.

SIG

HYP

Sécurité IA Alignement Évaluations

PrintGuard 2.0 — ShuffleNetV2 + few-shot prototypical network, TFLite via LiteRT, ≈5 MB, runs unmodified in the browser (Pyodide) and on CPython [P]

PrintGuard 2.0 : détecteur de défauts d'impression 3D FDM basé sur ShuffleNetV2 + réseau prototypique few-shot. Modèle TFLite (~5 MB) via LiteRT, exécutable inchangé en CPython et navigateur (Pyodide). Architecture unifiée avec une seule implémentation Platform par runtime.

Open source

SIG

HYP

Reddit r/MachineLearning·14 juin

Coherent Context Can Silently Shift LLMs Into a Different Internal Regime — And Current Safety Systems Are Blind To It [D]

Un chercheur indépendant démontre que un contexte cohérent peut déplacer les LLMs vers un régime interne différent sans modifier la sortie finale, contournant les filtres de sécurité actuels (RLHF, classifieurs). Travaux sur Gemma-3-12B-IT avec analyse des états cachés et trajectoires du residual stream.

SIG

HYP

Reddit r/MachineLearning·14 juin

Help me test: do modern retrieval systems mostly retrieve consensus rather than truth? [D]

Chercheur propose LOGOS-SIE, un dataset synthétique de 500k observations/croyances sur 5k faits et 100 sources, pour tester si les systèmes de retrieval modernes récupèrent le consensus plutôt que la vérité. Hypothèse : BM25, dense retrieval et rerankers favorisent les patterns dominants même quand 90% des sources sont fausses.

RAG Évaluations Benchmarks

SIG

HYP

Reddit r/MachineLearning·14 juin

The Verifier Tax: Horizon-Dependent Safety–Success Tradeoffs in Tool-Using LLM Agents [R]

Papier présenté à ACM CAIS 2026 sur l'évaluation de sécurité des agents LLM utilisant des outils. Les auteurs distinguent succès sûr, succès non sûr et échec, et montrent que la vérification réduit les succès non sûrs mais diminue aussi la complétude des tâches avec l'augmentation de l'horizon (« Verifier Tax »). Architecture à deux niveaux : vérifications déterministes puis vérificateur basé LLM.

Agents IA Sécurité IA Évaluations

SIG

HYP

Outils Open source Fine-tuning

I’m building a free bilingual machine-learning notebook course — looking for feedback on structure and coverage [R]

Développeur crée un cours ML open-source en Jupyter Notebooks, bilingue (anglais/persan). Couvre fondamentaux, preprocessing, régression, classification, arbres, clustering, séries temporelles, MLOps. Cherche retours sur structure, couverture et utilité du format bilingue pour apprenants non-anglophones.

SIG

HYP

Unprofessional Coauthor Behavior with Hallucinated References [D]

Un chercheur rapporte qu'un coauteur a ajouté des références hallucincées générées par LLM à un article en dernière minute. Malgré l'assurance du coauteur, toutes les nouvelles références contenaient des erreurs. L'article a été retiré après détection par un reviewer, endommageant la réputation de tous les auteurs.

Sécurité IA Alignement

SIG

HYP

Génération de code Open source Outils

PaddleOCR (v3/v4/v5/v6) implemented in C++ with ncnn [P]

Implémentation C++ de PaddleOCR (v3 à v6) utilisant ncnn pour l'inférence. Remplace le runtime Paddle officiel complexe par ncnn, plus léger et rapide. Code disponible sur GitHub.

SIG

HYP

Open source Génération de code Outils

Derivative-Free Neural Network Optimization: MNIST Case [R]

Optimisation sans dérivées d'un réseau de neurones sur MNIST : architecture 784-32-10 (25 450 paramètres). MDP atteint 93,7% en validation et 93,4% en test, surpassant Adam (91,8%/91,7%). Convergence sur 1M évaluations sans gradients ni méthodes population-based.

Benchmarks Open source

SIG

HYP

Reddit r/MachineLearning·12 juin

hubert.cpp, a C++ implementation of distilHuBERT [P]

Implémentation C++ de distilHuBERT sans dépendances runtime. Les poids sont compilés dans la bibliothèque, supporte les tailles dynamiques, performances comparables à onnxruntime. Intégration facile via CMake.

SIG

HYP

Reddit r/MachineLearning·11 juin

Adaptive Tokenisation Via Temporal Redundancy Masking And Latent Inpainting [R]

Méthode d'allocation adaptative de tokens vidéo exploitant la redondance temporelle dans l'espace latent d'un tokeniseur gelé. Un seuil fixe sur les différences L1 temporelles identifie les positions redondantes; un Latent Inpainting Transformer (LIT) les reconstruit. Pipeline efficace: 31× plus rapide qu'ElasticTok-CV, 2× qu'InfoTok sur TokenBench et DAVIS.

Génération de vidéos Benchmarks Papers

SIG

HYP

Reddit r/MachineLearning·11 juin

Anthropic walks back policy on silent nerfing for AI/ML, will notify users [N]

Anthropic abandonne sa politique de limitation silencieuse de Claude pour la recherche en IA. L'entreprise notifiera désormais les utilisateurs lorsqu'elle refuse une requête ou redirige vers un modèle moins capable pour des tâches de développement d'IA frontière.

Claude Anthropic Sécurité IA

SIG

HYP

Fine-tuning Open source Outils

Pyrecall open source tool for detecting catastrophic forgetting during LLM fine-tuning[P]

Pyrecall est un outil open-source (MIT, v0.1.0) pour détecter l'oubli catastrophique lors du fine-tuning de LLM. Il snapshote les scores de compétences avant/après, signale les régressions et permet de revenir à des adaptateurs LoRA précédents. Entièrement local, sans API externe.

SIG

HYP

Routing LLMs by task verifiability: a small experiment (n=120, 3 models) inspired by Karpathy's framework [D]

Expérience sur 120 tâches testant si les modèles faibles peuvent égaler les frontière sur des tâches hautement vérifiables (Karpathy). Claude Sonnet 4.6, GPT 5.5, Mistral 3 8B comparés. Code/extraction structurée : écarts réduits avec retry (Mistral 87%→95% code). Raisonnement multi-hop : gap réel (Sonnet 78%, Mistral 51%). Résumé créatif : avantage attendu aux modèles puissants.

Claude GPT Mistral

SIG

HYP

Claude Anthropic Sécurité IA

Anthropic's new model Fable will silently handicap work on LLMs [D]

Anthropic intègre des limitations invisibles dans Claude pour ralentir le développement de modèles concurrents : modification de prompts, vecteurs de direction, fine-tuning paramétrique. Ces garde-fous cibleraient ~0,03% du trafic. Des utilisateurs rapportent des refus sur des termes scientifiques courants (« nuclear »), soulevant des craintes de faux positifs sur travaux ML légitimes.

SIG

HYP

Benchmarks Évaluations Open source

Introducing Papers Without Code [P]

Hugging Face relance paperswithcode.co pour agréger l'état de l'art (SOTA) en IA via parsing automatique d'arXiv/HF. Leaderboards interactifs avec support des modèles fermés (GPT-5.5, Mythos 5) et toggle pour filtrer les evals open-source uniquement.

SIG

HYP

Papers Outils Open source

I Built Paper Deck: A Better Way to Discover AI/ML Papers [P]

Paper Deck agrège les articles ML/IA depuis arXiv, Hugging Face et autres sources en une seule plateforme. Permet de lire, marquer et suivre sa progression de lecture entre appareils. Gratuit et open source.

SIG

HYP

Raisonnement Évaluations Papers

RFE‑Core2 — Current Understanding (June 9th 2026) [R]

RFE-Core2 : analyse complète des goulots d'étranglement après probe arc (juin 2026). Le générateur domine (rang effectif ~1.6–3 à dim 512, collinéarité 0.85–0.96). La boucle réflexive reconstitue vers l'ancre indépendamment du rang. Fix 2 dormant sur tokens réels (+0.024 migration). Solution : entraîner le générateur pour que les différences de régime vivent en directions haute-énergie séparables.

SIG

HYP

Multi-agents Agents IA Infrastructure

Phinite — multi-agent OS with first-class agent identity, composable skills, behavioral evaluation [P]

Phinite lance une infrastructure pour systèmes multi-agents avec identité de première classe, gestion de compétences versionnées et évaluation comportementale. Propose registry d'agents, scoring de fiabilité composé, déploiement cloud-agnostique avec observabilité et attribution de coûts. SOC 2 Type II.

SIG

HYP

iOS 27 Siri is using WaveRNN and FastSpeech2 [D]

iOS 27 utilise WaveRNN et FastSpeech2 pour la synthèse vocale de Siri, découvert dans les fichiers du simulateur iOS en format Espresso. Un modèle de régression logistique CoreML est aussi présent pour le classement de contenu.

Voix Outils

SIG

HYP

Sécurité IA Alignement Papers

AI Epistemic Risks: Emerging Mechanisms & Evidence [R]

Papier co-écrit par 30 experts analysant les risques épistémiques de l'IA : manipulation/persuasion, délégation cognitive, et boucles de rétroaction réduisant l'espace épistémique. Les auteurs proposent des directions pour améliorer la trajectoire via la conception des systèmes, l'interaction humain-IA, et les incitations des marchés informationnels.

SIG

HYP

Voix Benchmarks Open source

What will be the next breakthrough in ASR? [D]

Discussion sur l'évolution des modèles ASR : Whisper-large-v3 (5M heures) et Nvidia Parakeet v3 (660k heures) dominent via l'apprentissage supervisé. Nouvelles architectures (Transducer, Token-Duration-Transducers, attention encoder-decoder Qwen) remplacent CTC+self-supervised. Question : l'auto-supervision (Data2Vec2.0, WavLM) disparaîtra-t-elle pour l'ASR ou aura-t-on un moment « Dino » en speech ?

SIG

HYP

Are privacy-preserving techniques actually being used in production ML systems? [D]

Discussion Reddit sur l'adoption réelle des techniques de ML préservant la vie privée (differential privacy, federated learning, inférence on-device) en production. L'auteur constate une littérature active mais questionne le déploiement industriel réel, les défis d'ingénierie, l'impact sur les performances et les coûts.

Sécurité IA

SIG

HYP

Agents IA Multi-agents Open source

I'd like to share an updated methodology for building agents.[P]

Spice est une couche de décision open-source au-dessus des agents IA. Elle observe le contexte, détecte les conflits, simule les options et délègue les tâches aux agents appropriés via une boucle : perception → modèle d'état → simulation → décision → exécution → réflexion.

SIG

HYP

Génération de code Prompt engineering Open source

Levi: Run AlphaEvolve on your Claude Code/Codex for dirt cheap [P]

LEVI est un système open-source inspiré d'AlphaEvolve pour l'optimisation de code et de prompts, 35x moins cher que les frameworks existants. Il utilise des modèles plus petits (Qwen-30B) avec une architecture de recherche intelligente et un routage adaptatif entre modèles petits et grands, réduisant les appels coûteux à Claude Opus.

SIG

HYP

Prompt engineering GPT Claude

LLM Relational Intelligence: A 4-Month Research Experiment on Multi-Model Behavioral Alignment with Human Communication [R]

Expérience de 4 mois testant si les fenêtres de contexte peuvent être engineered pour que les modèles frontière (GPT, Claude, Gemini, Grok) interagissent de manière indistinguishable d'une interaction humaine. Gemini montre la meilleure « relational intelligence ». L'auteur traite la fenêtre de contexte comme environnement comportemental plutôt que simple interface.

SIG

HYP

Why I stopped using semantic embeddings for tool selection and switched back to BM25 [D]

Un développeur d'agents a abandonné les embeddings sémantiques pour la sélection d'outils au profit de BM25. Avec 140 outils MCP en production, la similarité cosinus sur descriptions courtes (<50 tokens) échouait (64% accuracy) : les discriminants clés (noms spécifiques) se diluaient dans l'espace embedding. BM25 sur projection texte plate atteint 81% top-1.

Agents IA MCP RAG

SIG

HYP

Génération d'images Benchmarks Open source

Open image generation models are closer to closed-source quality than this sub thinks [D]

Un chercheur évalue les modèles open-source de génération d'images et constate que l'écart avec les APIs fermées est bien plus petit que supposé. Les derniers checkpoints gèrent les scènes multi-objets et le rendu de texte (70-80% de succès) de manière comparable aux endpoints payants, avec des temps d'inférence de 2 minutes pour 2MP sur GPU grand public.

SIG

HYP