arXiv cs.AI·18 juin 2026

TxBench-PP: Analyzing AI Agent Performance on Small-Molecule Preclinical Pharmacology

Signal

Hype

En 3 lignesTxBench-PP est un benchmark vérifié pour évaluer les agents IA sur la pharmacologie préclinique de petites molécules. 100 évaluations couvrent mécanisme d'action, pharmacodynamique, engagement composé-cible et sécurité. Sur 16 configurations (11 modèles, 4800 trajectoires), Claude Opus 4.8 atteint 59.3% de réussite, GPT-5.5 55.3%. Aucun système ne maîtrise fiablement ces décisions.

Lire la source

Ton avis ?

Agents IA Benchmarks Claude GPT Évaluations

Résumé généré par Claude — vérifié par l'humain

TxBench-PP: Analyzing AI Agent Performance on Small-Molecule Preclinical Pharmacology

Autres angles sur ce sujet