Mellum 2 12B A2.5B
JetBrains publie Mellum 2, un MoE 12B/2.5B spécialisé en code. Performance en raisonnement comparable à Qwen 3.5 9B, inférieure à Qwen 3.5 4B sur autres tâches. Rapport technique disponible.
JetBrains publie Mellum 2, un MoE 12B/2.5B spécialisé en code. Performance en raisonnement comparable à Qwen 3.5 9B, inférieure à Qwen 3.5 4B sur autres tâches. Rapport technique disponible.
Benchmark comparatif des quantifications MTP (Multi-Token Prediction) entre unsloth et bartowski sur Qwen 3.5-4B, 3.5-9B et 3.6-27B. Bartowski utilise Q8_0 pour la tête MTP (fichiers plus volumineux). Tests sur Snapdragon avec Q4_0, IQ4_NL, Q4_1, MXFP4_MOE, Q8_0 limités à 24GB VRAM RTX 3090. Unsloth généralement plus rapide en décodage (t/s) et efficace en VRAM.
VibeETL : plateforme ETL visuelle open-source construite en 3 mois par un ancien data scientist. Backend Polars + Rust, frontend React Flow avec algorithme BFS natif. Zéro dépendance externe, exécution Python sandboxée (30s timeout). Alternatif léger à Alteryx.
Article théorique sur l'apprentissage transductif en ligne multiclasse avec espace de labels potentiellement non borné. Caractérisation de la learnability : deux taux optimaux possibles (borné ou logarithmique). Introduction de la structure LCLL tree et extension aux cas agnostique et stochastique.
Étude formelle de la calibration pour le label ranking probabiliste. Les auteurs définissent une hiérarchie de notions (full rankings, sub-rankings, top-k) et montrent que les modèles populaires sont mal calibrés. Application aux reward models RLHF révèle que calibration et accuracy ne sont pas parfaitement corrélées.
DSFM (Dual-Spectral Flow Matching) génère des séries temporelles fMRI synthétiques en combinant transformée en ondelettes discrète (DWT) et transformée en cosinus discret (DCT) avec flow matching spectral. Le modèle capture la non-stationnarité et la dynamique spatiotemporelle des signaux BOLD pour améliorer la classification de réseaux cérébraux.
Unicorn, un framework de préentraînement multi-dataset, résout le compromis entre modèles indépendants par canal (scalables mais ignorant les dépendances) et modèles dépendants (expressifs mais limités en dimensions). Via un codebook de prototypes latents, il projette des canaux hétérogènes dans un espace partagé pour apprendre des patterns de corrélation réutilisables et transférables.
Nouvelle métrique d'évaluation MADQI pour la détection d'anomalies non supervisée dans les données AIS maritimes. Combine quatre indices (ARC, PPS, SDS, ECE) via normalisation automatique. Score MADQI de 80,37% sur dataset AIS, avec ECE=0,907 et ARC=1,000 pour détecter comportements anormaux de navires.
Article formalisant les chemins causaux d'événements rares dans les modèles d'équations structurelles. Propose une définition rigoureuse des pathways causaux et identifie les conditions où les implications testables dépendent uniquement de l'abstraction causale du pathway, pas du graphe causal complet.
COLLEAGUE.SKILL est un système automatisé de distillation de traces en compétences pour générer des skills IA ancrées à une personne via extraction de connaissances expertes. Le système produit des packages versionnés avec deux pistes : capacités (pratiques, modèles mentaux, heuristiques) et comportements bornés (style de communication, règles d'interaction). 18.5k stars GitHub, 215 skills de 165 contributeurs.
XOResNet introduit des connexions de raccourci OR-ADD et des méta-résidus XOR pour améliorer l'apprentissage dans les réseaux de neurones impulsionnels profonds. Testé sur Fashion-MNIST, CIFAR-10, CIFAR-100 et miniImageNet, le modèle surpasse les SNNs existants en réduisant la redondance des pics et la perte d'information.
Framework d'apprentissage par renforcement pour la conduite autonome qui utilise des conseils d'experts régulés par l'incertitude. Les seuils adaptatifs d'incertitude épistémique/aléatoire déclenchent l'intervention d'experts, tandis qu'une stratégie de commitment-cooldown limite la dépendance. Testé sur CARLA : +5-7% de succès vs baseline IQN.
Algorithme √LTS pour la recherche en arbre avec rerootage implicite. Trois designs de rerooter proposés : clustering basé sur la structure d'état, heuristique avec estimations coût-à-aller, et hybride. Évite la génération explicite de sous-objectifs, réduit l'overhead computationnel et atteint l'efficacité d'entraînement en ligne optimale sur les domaines testés.
Des chercheurs reformulent la conception de mécanismes de santé comme synthèse de programmes pour LLM. Medi-Sim, un simulateur multi-agent, évalue les règles face aux réponses stratégiques des prestataires (codage, sélection, délai, effort, triage). Une recherche évolutionnaire guidée par LLM synthétise un programme mixte qui élimine le sur-codage, réduit les rejets de 50% et préserve la rentabilité.
AdaCoM, un système d'IA externe, gère le contexte d'agents LLM figés via apprentissage par renforcement pour les tâches longues (recherche web, recherche approfondie). Les stratégies apprises révèlent un compromis Fidélité-Fiabilité : les agents performants bénéficient d'une préservation contextuelle fidèle, tandis que les agents faibles nécessitent une compression agressive.
Benchmark unifié Gait2Hip-60 comparant LSTM, Transformer et Mamba pour prédire les forces musculaires et moments articulaires de la hanche à partir de la cinématique de marche. Transformer surpasse les autres modèles (R²=0.819 pour les forces, R²=0.862 pour les moments). Validation externe sur 9 patients atteints de nécrose fémorale montre une généralisation modérée (R²=0.537-0.569).
SCALE est un framework d'auto-amélioration pour agents web basé sur MLLMs. Il utilise trois rôles adversariaux (Selector, Predictor, Judger) pour explorer autonomement les limites de l'agent et élargir ses capacités cognitives. SCALE-Hop optimise la planification globale. Un dataset SCALE-20k de 19 sites réels avec 20k démonstrations structurées valide l'approche sur plusieurs MLLMs.
EGGROLL, une factorisation bas-rang des perturbations en Evolution Strategies, réduit la complexité mémoire de O(mn) à O(r(m+n)) pour l'entraînement sans gradient des réseaux de neurones impulsionnels. Sur N-MNIST, la méthode atteint 79,21% de précision avec 2,23× d'accélération par rapport aux ES plein-rang, compatible avec l'apprentissage sur matériel neuromorphe.
Méthode pour aligner texte et gestes co-verbaux via des « ancres de mouvement sémantique » : discrétisation de gestes 3D en primitives, verbalisation structurée et supervision contrastive. Amélioration de 8,2% en R@1 sur BEAT2 ; les gestes récupérés sont sémantiquement pertinents plutôt que génériques.
Nouvelle méthode pour accélérer les modèles de langage basés sur diffusion (dLLMs). Temporal-Spatial Parallel Decoding (TSPD) et Confidence Extrapolation (CE) réduisent les itérations de débruitage inutiles en analysant les trajectoires token-wise et en prédisant les tendances futures sans entraînement supplémentaire.
Étude de la distillation de LLM en boîte noire via la notion de « bounded behavioral indistinguishability ». Les auteurs évaluent des paires Qwen et Llama avec une suite de 5 000 prompts, montrant que LoRA améliore la similarité sémantique (0.788→0.862 pour Qwen, 0.814→0.874 pour Llama) mais laisse subsister des différences comportementales détectables par adversaires.
Framework unifié pour l'agrégation de gradients en optimisation multi-objectif. Les auteurs établissent des taux de convergence vers la stationnarité de Pareto via une condition d'alignement suffisant et montrent que les directions non-conflictuelles dans l'enveloppe convexe des gradients garantissent la convergence. Ils introduisent capped MGDA basé sur CVaR et valident sur benchmarks.
Étude arXiv sur l'affinage itératif des fonctions de récompense générées par LLM pour RL sparse structuré. Les auteurs identifient deux modes de défaillance dominants (reward flooding, incompréhension sémantique) et proposent un raffinement diagnostique guidé par taxonomie. Résultats : DoorKey-8x8 passe de 2,3% à 97,6%, KeyCorridor de 31,2% à 86,7%. Limites : méthode restreinte à PPO et tâches sparse structurées.
Modèle de variable latente au niveau processus (PLVM) pour prédire les stratégies comportementales futures à partir de traces partielles inter-tâches. Testé sur PowerWash Simulator : fusion de traces de deux tâches de nettoyage prédit si un joueur adoptera une stratégie « Zone Planner » ou « Zone Hopper » sur un niveau inédit. Utile pour systèmes adaptatifs (tuteurs, jeux, IA collaborative).
Comparaison de 5 méthodes de quantification d'incertitude (Delta, Bayesian Monte Carlo Dropout, Bootstrap, LUBE, MVE) pour prédire la dégradation de température de turbine. Évaluation sur dataset réel avec métriques de couverture et largeur d'intervalle. Trade-offs identifiés entre précision et fiabilité.
CoSee, un framework d'audit, analyse les défaillances de systèmes de raisonnement visuel modulaires utilisant une mémoire partagée. Sur des modèles 4B–8B, deux modes de défaillance dominent : Noise Reinforcement (réutilisation de notes non fondées) et Policy Collapse (réponses sous-spécifiées). L'étude montre que les espaces de travail partagés naïfs amplifient les hallucinations sans vérification explicite.
XLGoBench est un benchmark de tâches algorithmiques synthétiques pour détecter les lacunes cross-lingues dans les capacités des LLM. Le benchmark est comparable entre langues, scalable (complexité variable), quantifiable (correction objective) et transparent (templates auditables). Les expériences révèlent des lacunes persistantes dans plusieurs modèles état-de-l'art.
Framework de machine learning scientifique pour la prédiction de durée de vie utile restante (RUL) de turbines. Combine encodeur partagé (CNN + LSTM bidirectionnel + attention) avec têtes spécialisées pour prédire température turbine, delta température et RUL avec intervalles de confiance. Évaluation sur données réelles hétérogènes et non-stationnaires via MAE, PICP, MPIW et CWC.
Article théorique définissant l'alignement de référence par paires comme observable ordinale pour évaluer les modèles de langage. Formule statistique pour mesurer si un modèle classe les réponses préférées au-dessus des réponses rejetées, avec estimateurs à échantillon fini et bornes de concentration. Validation empirique sur Qwen2.5 et RewardBench.
Étude de l'alignement entre l'incertitude des LLM et celle humaine via analyse comportementale et des patterns d'activation internes. Les auteurs mesurent calibration et alignement sur datasets multi-choix et rappel factuel, évaluant l'impact du fine-tuning d'instruction.
CobSeg est une architecture multi-branche pour la segmentation de sujets en dialogue. Elle sépare la continuité sémantique des transitions lexicales et utilise un pondérage par informativeness des limites. Évaluée sur 5 benchmarks, elle réduit Pk de 0.7 points sur VHF et atteint Pk=1.0 sur DialSeg711, sans appels LLM à l'inférence.
Méthode pour établir des correspondances entre vecteurs d'embeddings produits par différents encodeurs. Exploite la cohérence géométrique locale des encodeurs contrastifs entraînés indépendamment : les distances courtes sont préservées à un facteur d'échelle près. Utilise un hachage géométrique itératif basé sur des ancres appairées pour récupérer les liens vectoriels. Code disponible.
Nouvelle architecture transformer pour la gestion autonome des ressources dans des constellations satellites hétérogènes (optiques et SAR). Utilise le reinforcement learning sans modèle pour la prise de décision en temps réel lors de missions d'observation terrestre. Démontre améliorations significatives et transferabilité sur différentes tailles de constellations.
Cadre d'évaluation basé sur des personas pour l'alignement pluraliste des IA génératives. Remplace les benchmarks monolithiques par une variété de profils cognitifs synthétiques représentant diverses perspectives humaines. Révèle une dégradation systématique de la cohérence des personas sous inférence séquentielle, suggérant le besoin de mécanismes de régulation dynamiques.
COMPASS est un framework d'alignement de sécurité pour agents de recherche LLM multi-étapes. Il combine l'exploration d'arbres cognitifs (CTE) pour synthétiser des trajectoires d'attaque et l'alignement introspectif (ISA) pour superviser les actions intermédiaires risquées. Résultats : meilleur compromis sécurité-utilité avec moins de données d'entraînement.
Les systèmes multi-agents LLM supposent que l'accord entre agents indique la fiabilité. Les auteurs montrent que la communication entre agents crée des défaillances corrélées et des faux consensus. Ils proposent CAGE-CAL, un cadre de calibration basé sur des graphes contrefactuels, qui compare les dépendances observées post-communication avec un scénario sans communication pour ajuster la confiance.
Méthode pour détecter et classifier l'usage de datasets dans la littérature scientifique via un framework GLiNER multitâche. Combine extraction de mentions, identification de relations et classification du contexte d'usage. Utilise données synthétiques et revalidation LLM pour pallier la rareté des labels.
Les chercheurs améliorent le speculative decoding multilingue en comparant trois stratégies : fine-tuning du modèle draft sur données spécifiques, fine-tuning sur corpus monolingues non annotés, et modèles n-gram. Évaluation sur 11 langues en traduction et génération d'histoires. Les modèles n-gram offrent les meilleurs accélérations malgré des taux d'acceptation plus faibles.
Étude comparative de classification de sujets multi-label en zero-shot utilisant des graphes de connaissances extraits des documents. Framework testé sur 15 LLMs et 8 datasets : la variante keyword-enhanced surpasse la baseline, l'augmentation par graphe aide les petits modèles mais nuit aux grands, et le self-consistency decoding augmente les coûts sans amélioration.
Étude appliquant MAP-Elites (algorithme de diversité qualitative) à la génération procédurale de niveaux FPS. Deux nouvelles représentations (Point-Line, Spatial-Layout) améliorent la caractérisation des cartes. Métriques topologiques et émergentes définies. MESB génère des populations de cartes avec diversité et qualité supérieures aux approches antérieures.