Retour au feed
arXiv cs.CL·

AstroMind: A High-Fidelity Benchmark for Spacecraft Behavior Reasoning Based on Large Language Models

Signal
75
Hype
15
En 3 lignesAstroMind est un benchmark pour évaluer le raisonnement des LLM sur le comportement des engins spatiaux. Basé sur des simulations astrodynamiques haute fidélité, il teste l'inférence d'intention, l'estimation de paramètres de manœuvre et l'évaluation des menaces. Qwen3 (32B) excelle en inférence d'intention, QwQ (32B) en évaluation de menaces, GPT-OSS (20B) en qualité de raisonnement.
Lire la source
Ton avis ?
BenchmarksRaisonnementQwenGPT

Résumé généré par Claude — vérifié par l'humain