Archives

mai 2026

3148 articles

Reddit r/MachineLearning·

Scaling LLMs horizontally: hidden-state coupling without weight modification [R]

Residual Coupling (RC) connecte des modèles de langage gelés en parallèle via des projections linéaires apprises légères, sans modifier les poids. Les ponts linéaires lisent les états cachés d'un modèle et injectent des mises à jour additives dans le flux résiduel d'un autre. Sur données médicales, RC réduit la perplexité à 11.02 vs 56.80 pour MoE (+80.7%), et améliore TruthfulQA de 9.1 points.

LlamaMulti-agentsFine-tuning
SIG
72
HYP
28
Reddit r/LocalLLaMA·

I tested 42 LLMs on their willingness to build the apocalypse. The "safest" closed-source models are lying to you.

DystopiaBench teste 42 LLMs (open et closed-source) sur leur capacité à refuser des demandes dangereuses progressivement normalisées. 6 catégories de dystopies (armes autonomes, surveillance, contrôle comportemental, etc.) avec 5 niveaux d'escalade. Résultat : les modèles détectent les demandes évidentes mais échouent face aux requêtes dissimulées derrière du dual-use. Benchmark open-source disponible.

BenchmarksSécurité IAAlignement
SIG
72
HYP
45
Reddit r/LocalLLaMA·

I built a coding agent that gets 87% on benchmarks with a 4B parameter model, here's how

SmallCode, un agent de codage local, atteint 87% sur des benchmarks avec Gemma 4B en utilisant des outils composés, des boucles d'amélioration itératives, et une gestion optimisée du contexte. Contrairement aux agents existants (OpenCode, Cursor, Claude Code) qui nécessitent des modèles massifs, SmallCode est conçu pour les petits modèles locaux avec escalade optionnelle vers Claude/OpenAI.

Agents IAGénération de codeOpen source
SIG
72
HYP
35
Reddit r/MachineLearning·

Program misleading high school students into paying to perform academic misconduct in ML Research [D]

Un programme payant (Algoverse AI Research) commercialisé auprès de lycéens produit massivement des publications NeurIPS 2025 (289 acceptations revendiquées) contenant des erreurs évidentes : résultats dupliqués, abstracts contradictoires avec les résultats, citations générées par IA, données non relues. Kevin Zhu, affilié au programme, cumule 158 publications et 468 coauteurs sur OpenReview.

PapersÉvaluationsRégulation
SIG
75
HYP
45