Meta-learning for wrestling
OpenAI démontre qu'un agent de meta-learning peut apprendre rapidement à vaincre un adversaire plus fort sans meta-learning dans une simulation de lutte robotique, et s'adapter à des dysfonctionnements physiques.
OpenAI démontre qu'un agent de meta-learning peut apprendre rapidement à vaincre un adversaire plus fort sans meta-learning dans une simulation de lutte robotique, et s'adapter à des dysfonctionnements physiques.
OpenAI présente une méthode d'apprentissage par renforcement où les agents modélisent l'apprentissage de leurs adversaires pour améliorer leur stratégie. Cette approche, testée dans des environnements multi-agents, permet aux modèles d'adapter leur comportement en anticipant les changements de l'adversaire.
OpenAI présente une approche de curriculum learning où un modèle « enseignant » génère des tâches progressives pour entraîner un modèle « étudiant ». La méthode améliore l'efficacité d'apprentissage en adaptant la difficulté des exemples d'entraînement au niveau de compétence du modèle.
OpenAI explore les environnements multi-agents où les agents rivalisent pour des ressources comme étapes vers l'AGI. Ces environnements offrent un curriculum naturel (difficulté ajustée au niveau des concurrents) et pas d'équilibre stable, créant une pression constante à l'amélioration.
OpenAI publie une recherche sur les réseaux de neurones stochastiques appliqués à l'apprentissage par renforcement hiérarchique. La méthode améliore la capacité des agents à décomposer des tâches complexes en sous-objectifs.
OpenAI a développé un système de détection de spam entraîné entièrement en simulation et déployé sur un robot physique. Première application d'IA de ce type capable de fonctionner dans le monde réel.
OpenAI présente une méthode d'apprentissage par imitation en une seule démonstration. La technique permet aux modèles d'apprendre à partir d'un unique exemple sans entraînement supplémentaire, applicable aux tâches de robotique et de contrôle.
OpenAI publie une recherche sur le développement d'un langage propre par les agents. Les agents apprennent à communiquer entre eux via un protocole émergent, sans supervision humaine explicite.
OpenAI présente les temporal segment models (TSM), des modèles capables de prédire et contrôler des séquences temporelles complexes. Ces modèles segmentent les données en intervalles temporels pour améliorer la prédiction et le contrôle dans des environnements dynamiques.
OpenAI explore les adversarial examples, des entrées conçues pour tromper les modèles ML. L'article explique leur fonctionnement sur différents médiums et les défis de sécurisation contre ces attaques.
OpenAI publie une étude sur les attaques adversariales contre les politiques de réseaux de neurones. La recherche examine comment les modèles d'IA peuvent être manipulés par des entrées malveillantes et propose des méthodes de défense.
OpenAI analyse les défaillances des fonctions de récompense en apprentissage par renforcement. L'article explore comment une mauvaise spécification de la fonction de récompense peut causer des comportements inattendus et contreintuitifs dans les algorithmes RL.
OpenAI et Microsoft étendent leur partenariat : OpenAI exécutera désormais la majorité de ses expériences à grande échelle sur l'infrastructure Azure de Microsoft.
OpenAI développe un modèle d'apprentissage des dynamiques inverses profondes pour transférer des politiques de simulation vers le monde réel. La méthode réduit le besoin de données réelles en apprenant à prédire les actions à partir des observations, améliorant la généralisation des robots entraînés en simulation.
OpenAI présente des méthodes d'entraînement adversarial pour la classification de texte semi-supervisée. L'approche combine données étiquetées et non étiquetées pour améliorer la robustesse des modèles face aux perturbations adversariales.
Framework multi-modèle avec curriculum learning par sévérité pour la génération de texte médical. Trois étapes de formation progressive (cas bénins → modérés → critiques) sur 5 LLM, sélection de réponse par pertinence à l'inférence. Évaluation sur MAQA : 86,71% baseline, 90,30% après fine-tuning (BERTScore).
agent-sh est un shell intégrant un agent IA léger accessible via la touche >. L'outil offre une conscience contextuelle du terminal pour résoudre des problèmes ponctuels (flags rsync, diagnostics) sans surcharge. Une extension command-suggest aide à générer des commandes. Installation npm, compatible modèles locaux.
Framework multi-modèles adaptatif pour la synthèse de texte abstractive. Intègre plusieurs transformers fine-tunés sur CNN/DailyMail, sélectionne la meilleure résumé via métriques automatiques (BERTScore 88.63%). Surpasse GPT3-D2, Falcon-7b, Mpt-7b.
Étude de modèles triple-latent maintenant un état token courant et une mémoire compressée pour capturer les interactions d'ordre supérieur. Amélioration sur WikiText-2 (byte-level) et MiniMind, avec extension de récupération associative gated mais sensible aux seeds et lente.
Expérience de quantification personnalisée sur Qwen 3.6 27B : conversion BF16→Q8_0 avec ciblage des couches à forte variance. Le modèle Q8-CC (30.47 GiB) obtient 98.358% vs UD Q8_K_XL (33.31 GiB) à 97.426% sur wiki.test.raw. KLD moyen : 0.011324 vs 0.012100. Résultats préliminaires sans benchmarks de performance réelle.
Un chercheur teste la calibration d'incertitude dans les agents LLM via un pipeline de planification + vérification. La vérification détecte 60% des appels d'outils hallucincés avant exécution, mais réduit les réponses correctes faciles de moitié. Solution : flaguer les tâches basse confiance pour révision humaine, exécuter automatiquement les hautes confiance.
Étude arXiv sur la prédiction de récidive du cancer du sein via apprentissage multi-modal. Intègre dossiers de traitement, rapports de pathologie et notes cliniques. Utilise extraction par regex et réconciliation des conflits pour extraire caractéristiques tumorales du texte libre. Démontre que l'intégration multi-modale améliore la précision prédictive vs approches mono-modales.
CL-DMDF propose un modèle de fusion multimodale dynamique basé sur l'apprentissage contrastif, conçu pour gérer les modalités manquantes ou incertaines. Le modèle introduit un mécanisme d'attention bi-dimensionnel (features et modalités) et un module d'apprentissage contrastif centroïde pour améliorer la discrimination. Validé sur trois datasets.
Expérience comparative sur GPU 9070XT : Qwen 35B A3B MTP atteint 43.74 T/s vs 38.07 T/s en mode standard. MTP démontre un gain de ~15% en throughput malgré la surcharge computationnelle du processus multi-token. Tests identiques (prompt, contexte 8192, quantization Q4_K_XL).
OADA est un cadre de gouvernance IA pour les systèmes critiques qui traduit l'instabilité des métriques d'équité, la sensibilité aux seuils et l'incertitude opérationnelle en décisions de déploiement. Testé sur la reconnaissance faciale et la santé, il introduit des scores d'assurance, des états d'escalade et des zones de stabilité pour contrôler le déploiement plutôt que de simplement auditer post-hoc.
Deux mécanismes complémentaires pour améliorer l'attention transformer : Energy-Gated Attention (EGA) sélectionne les tokens informatifs via projection linéaire ; Morlet Positional Encoding (MoPE) remplace les encodages sinusoïdaux par des ondelettes gaussiennes apprises. Sur TinyShakespeare, leur combinaison atteint +0.119 amélioration de loss validation, surpassant la somme des parties individuelles.
Nouvelle approche de sparse attention utilisant les rôles grammaticaux (POS tags) pour réduire la complexité quadratique des Transformers. Deux stratégies de masquage testées sur SST-2 avec DistilBERT : hard mask (0.8200) et soft mask (0.8165) maintiennent la performance du full attention (0.8200) tout en réduisant le coût computationnel.
Temporal Contrastive Transformer (TCT) : framework d'apprentissage auto-supervisé pour détecter la fraude financière via embeddings de séquences transactionnelles. AUC 0.8644 seul, 0.9245 combiné avec features engineered. Captures structure temporelle mais sans gain additif sur baseline.
TBP-mHC propose une paramétrisation des polytopes de Birkhoff pour les Hyper-Connexions contraintes par variété. La méthode construit des matrices de mélange doublement stochastiques exactes avec (n-1)² degrés de liberté, évitant la normalisation itérative et l'explosion combinatoire. Résultats compétitifs sur le pré-entraînement de modèles de langage avec stabilité améliorée.
RPS est une méthode de post-entraînement en deux étapes inspirée de la neuroplasticité : données faciles avec taux d'apprentissage élevé, puis données difficiles avec taux réduit de 90%. Sur Qwen3-8b, RPS atteint 4% sur ARC-AGI 1 et 1145/1200 exécutions sans erreur en synthèse de programmes, contre 2.4% et 870/1200 pour EPS (taux égal).
Nouvelle architecture Pseudo-Siamese (FF-BPSN) pour planifier des chemins de dialogue vers des cibles prédéfinies. Utilise deux décodeurs transformers bidirectionnels avec module forward-focused. Testé sur DuRecDial et DuRecDial 2.0, améliore significativement les systèmes de dialogue proactif orientés cible.
Étude utilisant BERT pour analyser le sentiment Discord de la communauté Decentraland et prédire le prix du token MANA. Un modèle LSTM multi-modal intégrant sentiment, volume et capitalisation surpasse significativement le baseline prix-seul. Sentiment communautaire majoritairement neutre avec biais positif.
AMSGA étend l'algorithme Forward-Forward avec agrégation multi-échelle de la qualité, curriculum adaptatif et seuils dépendants des couches. Tests sur MNIST et Fashion-MNIST montrent +1.45% et +1.50% d'amélioration sans surcoût computationnel significatif.
Framework ML utilisant l'EEG pour prédire l'efficacité thérapeutique chez patients souffrant de douleurs cervicales chroniques. Pipeline de prétraitement rigoureux (suppression baseline, ICA, analyse spectrale) appliqué à EEG au repos et moteur. Revue systématique de 763 études (16 patients, 47 contrôles sains) pour informer la stratégie post-traitement.
Méthode de prévision spatio-temporelle imbriquée couplant tendances régionales macro et observations historiques micro. Utilise clustering spectral pour construire régions sémantiquement cohérentes, réduisant le bruit systématique. Prédicteur coarse-to-fine intègre ces features pour anticiper anomalies dynamiques. Surpasse baselines sur datasets haute-dimensionnalité.
SAS propose une approche de distillation de dataset utilisant CLIP comme prior sémantique pour améliorer la qualité des données compressées. Trois fonctions de scoring évaluent la pertinence de classe, la séparabilité inter-classe et la diversité intra-ensemble. Une stratégie deux-étapes filtre les échantillons discriminatifs puis sélectionne dynamiquement pour réduire la redondance.
UNR-Explainer génère des explications contrefactuelles pour les modèles d'apprentissage de représentation de nœuds non supervisés (GNNs). La méthode identifie les sous-graphes critiques qui modifient les k-plus proches voisins d'un nœud dans l'espace d'embedding via une recherche Monte Carlo Tree Search (MCTS). Évaluée sur GraphSAGE et DGI.
TIDE est un framework de prompt optimization basé sur un mécanisme de Trial and Debate pour améliorer la compréhension d'essais argumentatifs. Évalué sur trois tâches (Automated Essay Scoring, Argument Component Detection, Argument Relation Identification), il réduit l'impact des données bruitées et améliore la stabilité de l'optimisation.
Framework deep learning GPU pour prédire les conditions thermiques urbaines et évaluer les risques de canicule. ConvLSTM avec loss mixte atteint MAE=0.2293, RMSE=0.3089, R²=0.8877 sur données MODIS et Open-Meteo à Sarajevo. Génère des cartes de risque thermique urbain.
Méthode de localisation relative par WiFi sans annotation dense. Intersection Pathway aligne traces de fingerprint WiFi et vecteurs de mouvement inertiel dans un espace latent additif, permettant l'inférence directe de déplacement relatif. Validation sur données synthétiques dérivées de mesures réelles.