Live · Aujourd'hui

Le signal, pas le bruit.

Chaque article scoré par Claude sur deux axes indépendants : signal (info utile) et hype (clickbait). Articles filtrés en amont.

ToutHaut signalRécent
5412 articles
Hugging Face Blog·

ITBench-AA: Frontier Models Score Below 50% on the First Benchmark for Agentic Enterprise IT Tasks — by Artificial Analysis and IBM

ITBench-AA, nouveau benchmark créé par Artificial Analysis et IBM, évalue les capacités des modèles frontier sur des tâches IT d'entreprise agentic. Les meilleurs modèles (Claude, GPT-4, Gemini) obtiennent moins de 50% de réussite, révélant des lacunes significatives dans l'automatisation des workflows IT complexes.

BenchmarksAgents IAClaude
SIG
85
HYP
25
GitHub Trending·

<svg aria-hidden="true" data-component="Octicon" height="16" viewBox="0 0 16 16" version="1.1" width="16" data-view-component="true" class="octicon octicon-repo mr-1 tmp-mr-1 color-fg-muted"> <path d="M2 2.5A2.5 2.5 0 0 1 4.5 0h8.75a.75.75 0 0 1 .75.75v12.5a.75.75 0 0 1-.75.75h-2.5a.75.75 0 0 1 0-1.5h1.75v-2h-8a1 1 0 0 0-.714 1.7.75.75 0 1 1-1.072 1.05A2.495 2.495 0 0 1 2 11.5Zm10.5-1h-8a1 1 0 0 0-1 1v6.708A2.486 2.486 0 0 1 4.5 9h8ZM5 12.25a.25.25 0 0 1 .25-.25h3.5a.25.25 0 0 1 .25.25v3.25a.25.25 0 0 1-.4.2l-1.45-1.087a.249.249 0 0 0-.3 0L5.4 15.7a.25.25 0 0 1-.4-.2Z"></path> </svg> <span data-view-component="true" class="text-normal"> facebookresearch /</span> sam3

Meta publie le code et les checkpoints de SAM 3 (Segment Anything Model 3). Le repo inclut l'inférence, le fine-tuning et des notebooks d'exemple pour la segmentation d'images.

Meta AIVisionOpen source
SIG
85
HYP
15
arXiv cs.LG·

The Attribution Impossibility: No Feature Ranking Is Faithful, Stable, and Complete Under Collinearity

Théorème d'impossibilité : aucun classement de features ne peut être simultanément fidèle, stable et complet sous colinéarité. Les auteurs quantifient ce résultat pour 4 classes de modèles, proposent DASH (agrégation d'ensembles SHAP) comme solution, et vérifient formellement 305 théorèmes Lean 4. Conséquence : 68% des datasets publics montrent une instabilité d'attribution.

ÉvaluationsPapersSécurité IA
SIG
85
HYP
15
GitHub Trending·

<svg aria-hidden="true" data-component="Octicon" height="16" viewBox="0 0 16 16" version="1.1" width="16" data-view-component="true" class="octicon octicon-repo mr-1 tmp-mr-1 color-fg-muted"> <path d="M2 2.5A2.5 2.5 0 0 1 4.5 0h8.75a.75.75 0 0 1 .75.75v12.5a.75.75 0 0 1-.75.75h-2.5a.75.75 0 0 1 0-1.5h1.75v-2h-8a1 1 0 0 0-.714 1.7.75.75 0 1 1-1.072 1.05A2.495 2.495 0 0 1 2 11.5Zm10.5-1h-8a1 1 0 0 0-1 1v6.708A2.486 2.486 0 0 1 4.5 9h8ZM5 12.25a.25.25 0 0 1 .25-.25h3.5a.25.25 0 0 1 .25.25v3.25a.25.25 0 0 1-.4.2l-1.45-1.087a.249.249 0 0 0-.3 0L5.4 15.7a.25.25 0 0 1-.4-.2Z"></path> </svg> <span data-view-component="true" class="text-normal"> openai /</span> whisper

OpenAI Whisper est un modèle de reconnaissance vocale entraîné sur 680 000 heures de données multilingues faiblement supervisées. Le repo GitHub contient le code, les modèles pré-entraînés et les benchmarks de performance sur plusieurs langues et conditions acoustiques.

OpenAIVoixOpen source
SIG
85
HYP
15
arXiv cs.AI·

Taxonomy and Consistency Analysis of Safety Benchmarks for AI Agents

Analyse systématique de 40 benchmarks de sécurité pour agents IA (2023-2026). Les benchmarks présentent des modèles de menace incompatibles, des métriques fragmentées et une couverture de risques incohérente. Test de concordance (Kendall's W = 0.10, p = 0.94) révèle l'absence d'alignement entre évaluations. Publication de métadonnées structurées et standards minimaux de reporting.

Agents IASécurité IAÉvaluations
SIG
85
HYP
15
OpenAI Blog·

Video generation models as world simulators

OpenAI présente Sora, un modèle de diffusion texte-conditionnel entraîné sur vidéos et images de durées, résolutions et formats variables. Basé sur une architecture transformer opérant sur des patches spacetime, Sora génère jusqu'à une minute de vidéo haute fidélité. OpenAI propose que l'échelle des modèles de génération vidéo soit un chemin vers des simulateurs génériques du monde physique.

OpenAIGénération de vidéosRaisonnement
SIG
85
HYP
45