arXiv cs.CL·26 mai 2026

AstroMind: A High-Fidelity Benchmark for Spacecraft Behavior Reasoning Based on Large Language Models

Signal

Hype

En 3 lignesAstroMind est un benchmark pour évaluer le raisonnement des LLM sur le comportement des engins spatiaux. Basé sur des simulations astrodynamiques haute fidélité, il teste l'inférence d'intention, l'estimation de paramètres de manœuvre et l'évaluation des menaces. Qwen3 (32B) excelle en inférence d'intention, QwQ (32B) en évaluation de menaces, GPT-OSS (20B) en qualité de raisonnement.

Lire la source

Ton avis ?

Benchmarks Raisonnement Qwen GPT

Résumé généré par Claude — vérifié par l'humain

AstroMind: A High-Fidelity Benchmark for Spacecraft Behavior Reasoning Based on Large Language Models

Autres angles sur ce sujet