Page 52 sur 192

ToutHaut signalRécent

7679 articles

PaperBench: Evaluating AI’s Ability to Replicate AI Research

OpenAI présente PaperBench, un benchmark mesurant la capacité des agents IA à reproduire des recherches IA de pointe. Le test évalue si les modèles peuvent implémenter des papiers scientifiques complexes de manière autonome.

OpenAI Benchmarks Agents IA

SIG

HYP

Google DeepMind·25 mars

Gemini 2.5: Our most intelligent AI model

Google DeepMind annonce Gemini 2.5, son modèle IA le plus performant, intégrant des capacités de raisonnement avancé (thinking).

DeepMind Raisonnement

SIG

HYP

OpenAI Blog·25 mars

Addendum to GPT-4o System Card: 4o image generation

OpenAI déploie une nouvelle capacité de génération d'images intégrée à GPT-4o, surpassant DALL·E 3 avec sortie photorealiste et transformation d'images en entrée.

OpenAI GPT Génération d'images

SIG

HYP

OpenAI Blog·20 mars

Introducing next-generation audio models in the API

OpenAI déploie des modèles audio nouvelle génération dans son API, permettant aux développeurs de contrôler le style de parole en texte-vers-parole (ex: "parler comme un agent de service client sympathique"). Nouvelle capacité de personnalisation pour les agents vocaux.

OpenAI Voix

SIG

HYP

Google DeepMind·12 mars

Gemini Robotics brings AI into the physical world

Google DeepMind présente Gemini Robotics et Gemini Robotics-ER, des modèles IA conçus pour permettre aux robots de comprendre, agir et réagir dans le monde physique.

DeepMind Robotique Vision

SIG

HYP

Hugging Face Blog·12 mars

Welcome Gemma 3: Google's all new multimodal, multilingual, long context open LLM

Google lance Gemma 3, un modèle de langage ouvert multimodal et multilingue avec support du contexte long. Le modèle combine capacités de vision, traitement multilingue et fenêtre de contexte étendue, disponible via Hugging Face.

Gemini Open source Vision

SIG

HYP

Hugging Face Blog·11 mars

LeRobot goes to driving school: World’s largest open-source self-driving dataset

Hugging Face publie LeRobot, le plus grand dataset open-source pour la conduite autonome. La plateforme inclut des données de capteurs, vidéos et annotations pour entraîner des modèles de vision et de contrôle robotique.

Open source Robotique Vision

SIG

HYP

Hugging Face Blog·4 mars

A Deepdive into Aya Vision: Advancing the Frontier of Multilingual Multimodality

Cohere présente Aya Vision, un modèle multimodal multilingue capable de traiter images et texte dans 119 langues. Le modèle combine vision et compréhension linguistique pour des tâches de description d'images, réponses à questions visuelles et analyse de documents dans des langues peu dotées en ressources.

Vision Multi-agents Benchmarks

SIG

HYP

Google DeepMind·25 févr.

Start building with Gemini 2.0 Flash and Flash-Lite

Google DeepMind rend Gemini 2.0 Flash-Lite disponible en production via l'API Gemini, dans Google AI Studio et Vertex AI pour les clients enterprise.

Gemini Outils

SIG

HYP

Hugging Face Blog·20 févr.

SmolVLM2: Bringing Video Understanding to Every Device

Hugging Face lance SmolVLM2, un modèle de vision multimodal léger capable de traiter vidéos et images. Optimisé pour fonctionner sur appareils mobiles et edge, il offre une alternative accessible aux grands modèles de vision.

Vision Open source Outils

SIG

HYP

Hugging Face Blog·19 févr.

PaliGemma 2 Mix - New Instruction Vision Language Models by Google

Google lance PaliGemma 2 Mix, une famille de modèles de vision-langage instruction-tuned basés sur Gemma 2. Trois variantes (3B, 10B, 28B) combinent capacités visuelles et textuelles pour des tâches multimodales. Disponibles en open-source sur Hugging Face.

Gemini Vision Open source

SIG

HYP

Hugging Face Blog·4 févr.

π0 and π0-FAST: Vision-Language-Action Models for General Robot Control

Hugging Face présente π0 et π0-FAST, modèles vision-langage-action pour le contrôle robotique général. Ces modèles unifient perception visuelle, compréhension du langage naturel et génération d'actions, entraînés sur des données robotiques diversifiées pour exécuter des tâches complexes sans fine-tuning spécifique.

Robotique Vision Agents IA

SIG

HYP

Hugging Face Blog·4 févr.

Open-source DeepResearch – Freeing our search agents

Hugging Face lance DeepResearch open-source, un agent de recherche autonome capable de mener des investigations approfondies sur des sujets complexes. L'outil intègre recherche web, synthèse d'informations et raisonnement multi-étapes pour produire des rapports détaillés sans intervention humaine.

Agents IA Open source Raisonnement

SIG

HYP

OpenAI Blog·2 févr.

Introducing deep research

OpenAI lance Deep Research, un agent utilisant le raisonnement pour synthétiser des informations en ligne et accomplir des tâches de recherche multi-étapes. Disponible pour les utilisateurs Pro dès aujourd'hui, puis Plus et Team.

OpenAI Agents IA Raisonnement

SIG

HYP

OpenAI Blog·31 janv.

OpenAI o3-mini System Card

OpenAI publie la System Card du modèle o3-mini, détaillant les évaluations de sécurité, les tests adversariaux externes et les évaluations du Preparedness Framework.

OpenAI Sécurité IA Évaluations

SIG

HYP

Hugging Face Blog·31 janv.

Mini-R1: Reproduce Deepseek R1 „aha moment“ a RL tutorial

Hugging Face publie un tutoriel pour reproduire le « moment aha » de Deepseek R1 via apprentissage par renforcement. Guide pratique sur l'entraînement de modèles avec RL pour générer du raisonnement étape par étape.

DeepSeek Reinforcement learning Raisonnement

SIG

HYP

Hugging Face Blog·24 janv.

We now support VLMs in smolagents!

Hugging Face intègre les modèles de vision-langage (VLM) dans smolagents. Les agents peuvent désormais traiter images et texte simultanément pour des tâches multimodales complexes.

Agents IA Vision Outils

SIG

HYP

OpenAI Blog·23 janv.

Introducing Operator

OpenAI présente Operator, un agent IA capable d'effectuer des tâches complexes sur ordinateur en interprétant des interfaces visuelles et en exécutant des actions autonomes. Le système utilise la vision par ordinateur pour naviguer et interagir avec des applications web et de bureau.

Agents IA OpenAI Vision

SIG

HYP

OpenAI Blog·23 janv.

Operator System Card

OpenAI publie une System Card pour Operator détaillant ses mesures de sécurité multi-couches : mitigations contre l'ingénierie de prompts et jailbreaks, protections de la vie privée, red teaming externe et évaluations de sécurité.

OpenAI Sécurité IA Agents IA

SIG

HYP

OpenAI Blog·23 janv.

Computer-Using Agent

OpenAI présente un agent capable d'utiliser l'ordinateur en voyant l'écran et en contrôlant la souris/clavier. L'agent navigue sur des sites web, remplit des formulaires et exécute des tâches complexes sans API spécialisées.

Agents IA Vision OpenAI

SIG

HYP

Hugging Face Blog·23 janv.

SmolVLM Grows Smaller – Introducing the 256M & 500M Models!

Hugging Face lance SmolVLM 256M et 500M, des modèles de vision-langage ultra-compacts. Ces variantes réduisent drastiquement la taille tout en conservant des capacités multimodales, ciblant les déploiements edge et ressources limitées.

Vision Open source Outils

SIG

HYP

OpenAI Blog·21 janv.

Announcing The Stargate Project

OpenAI annonce le Stargate Project, un partenariat stratégique visant à construire une infrastructure d'IA massive. Le projet mobilise des investissements significatifs pour développer les capacités de calcul et les modèles de nouvelle génération.

OpenAI Infrastructure Business

SIG

HYP

Hugging Face Blog·16 janv.

Introducing multi-backends (TRT-LLM, vLLM) support for Text Generation Inference

Text Generation Inference ajoute le support de plusieurs backends : TensorRT-LLM (NVIDIA) et vLLM. Cette intégration permet aux utilisateurs de choisir le moteur d'inférence optimal selon leurs besoins de performance et d'infrastructure.

Infrastructure Open source Outils

SIG

HYP

Hugging Face Blog·16 janv.

Timm ❤️ Transformers: Use any timm model with transformers

Hugging Face intègre les modèles timm (PyTorch Image Models) directement dans la librairie transformers. Les utilisateurs peuvent charger et utiliser n'importe quel modèle timm via l'API transformers standard, sans dépendance supplémentaire.

Outils Vision Open source

SIG

HYP

Hugging Face Blog·15 janv.

Train 400x faster Static Embedding Models with Sentence Transformers

Sentence Transformers annonce une optimisation permettant d'entraîner les modèles d'embeddings statiques 400x plus vite. La méthode réduit drastiquement le temps de calcul sans sacrifier la qualité des représentations vectorielles.

Embeddings Fine-tuning Open source

SIG

HYP

Hugging Face Blog·31 déc.

Introducing smolagents: simple agents that write actions in code.

Hugging Face lance smolagents, une bibliothèque pour créer des agents IA simples qui génèrent des actions en code. L'approche privilégie la clarté et la contrôlabilité par rapport aux systèmes d'agents complexes.

Agents IA Génération de code Open source

SIG

HYP

OpenAI Blog·20 déc.

Deliberative alignment: reasoning enables safer language models

OpenAI présente une stratégie d'alignement pour les modèles o1 basée sur l'enseignement direct des spécifications de sécurité et du raisonnement sur ces spécifications. Cette approche « deliberative alignment » exploite les capacités de raisonnement des modèles pour améliorer la sécurité.

OpenAI Raisonnement Sécurité IA

SIG

HYP

Hugging Face Blog·20 déc.

Evaluating Audio Reasoning with Big Bench Audio

Hugging Face publie Big Bench Audio, un benchmark pour évaluer le raisonnement audio dans les modèles IA. L'outil mesure la capacité des systèmes à comprendre et analyser des contenus audio complexes au-delà de la simple transcription.

Benchmarks Évaluations Voix

SIG

HYP

Hugging Face Blog·18 déc.

Bamba: Inference-Efficient Hybrid Mamba2 Model

Hugging Face présente Bamba, un modèle hybride combinant Mamba2 et attention standard pour l'inférence efficace. Le modèle réduit la latence et la consommation mémoire tout en maintenant les performances sur les benchmarks de langage.

Open source Infrastructure Benchmarks

SIG

HYP

OpenAI Blog·17 déc.

OpenAI o1 and new tools for developers

OpenAI lance o1, améliore son API Realtime, introduit une nouvelle méthode de fine-tuning et déploie d'autres outils pour développeurs.

OpenAI GPT Fine-tuning

SIG

HYP

Hugging Face Blog·9 déc.

Hugging Face models in Amazon Bedrock

Hugging Face intègre ses modèles dans Amazon Bedrock, la plateforme d'IA générative d'AWS. Les utilisateurs peuvent accéder directement à des modèles open-source via l'API Bedrock sans gérer l'infrastructure.

Open source Infrastructure Business

SIG

HYP

OpenAI Blog·5 déc.

Introducing ChatGPT Pro

OpenAI lance ChatGPT Pro, un nouveau tier d'abonnement offrant un accès prioritaire aux modèles frontier et des capacités avancées. Le service vise à élargir l'adoption des IA de pointe auprès des utilisateurs professionnels et créatifs.

OpenAI GPT Business

SIG

HYP

OpenAI Blog·5 déc.

OpenAI o1 System Card

OpenAI publie le System Card de o1 et o1-mini, détaillant les évaluations de sécurité, red teaming externe et tests de risques frontier menés avant le lancement selon le Preparedness Framework.

OpenAI GPT Sécurité IA

SIG

HYP

Hugging Face Blog·5 déc.

Welcome PaliGemma 2 – New vision language models by Google

Google lance PaliGemma 2, une nouvelle famille de modèles vision-langage open-source. Ces modèles combinent capacités visuelles et textuelles pour des tâches multimodales, avec des versions optimisées pour différents cas d'usage.

DeepMind Vision Open source

SIG

HYP

OpenAI Blog·20 nov.

Building smarter maps with GPT-4o vision fine-tuning

OpenAI déploie le fine-tuning de vision pour GPT-4o. Les modèles entraînés reconnaissent mieux les éléments cartographiques (routes, bâtiments, points d'intérêt) avec moins d'erreurs. Cas d'usage : amélioration des services de cartographie et navigation.

GPT OpenAI Vision

SIG

HYP

Hugging Face Blog·19 nov.

Judge Arena: Benchmarking LLMs as Evaluators

Hugging Face présente Judge Arena, un benchmark pour évaluer la capacité des LLM à servir d'évaluateurs. Le système teste comment différents modèles jugent la qualité des réponses d'autres LLM, mesurant leur fiabilité comme juges automatiques.

Benchmarks Évaluations Open source

SIG

HYP

OpenAI Blog·31 oct.

Introducing ChatGPT search

OpenAI intègre la recherche web directement dans ChatGPT. Les utilisateurs obtiennent des réponses rapides avec liens vers les sources pertinentes, sans quitter l'interface.

OpenAI GPT

SIG

HYP

OpenAI Blog·30 oct.

Introducing SimpleQA

OpenAI présente SimpleQA, un benchmark de factualité mesurant la capacité des modèles de langage à répondre à des questions factuelles courtes.

OpenAI Benchmarks Évaluations

SIG

HYP

Hugging Face Blog·24 oct.

A Deepdive into Aya Expanse: Advancing the Frontier of Multilinguality

Cohere et Hugging Face présentent Aya Expanse, un modèle de langage multilingue couvrant 119 langues. Le modèle améliore les performances sur les tâches de traduction, génération de texte et raisonnement dans des langues sous-représentées, avec des benchmarks publics disponibles.

Benchmarks Open source

SIG

HYP

OpenAI Blog·23 oct.

Simplifying, stabilizing, and scaling continuous-time consistency models

OpenAI simplifie et stabilise les modèles de cohérence en temps continu, atteignant une qualité d'échantillon comparable aux modèles de diffusion leaders avec seulement deux étapes d'échantillonnage.

OpenAI Génération d'images Benchmarks

SIG

HYP