TxBench-PP: Analyzing AI Agent Performance on Small-Molecule Preclinical Pharmacology
Signal
82
Hype
15
En 3 lignesTxBench-PP est un benchmark vérifié pour évaluer les agents IA sur la pharmacologie préclinique de petites molécules. 100 évaluations couvrent mécanisme d'action, pharmacodynamique, engagement composé-cible et sécurité. Sur 16 configurations (11 modèles, 4800 trajectoires), Claude Opus 4.8 atteint 59.3% de réussite, GPT-5.5 55.3%. Aucun système ne maîtrise fiablement ces décisions.Lire la source
Ton avis ?
Résumé généré par Claude — vérifié par l'humain