Retour au feed
STORY · MULTI-SOURCES·2 sources·SIG 65

I trained gpt-1 on my local machine (RTX 2060 Super 8GB VRAM)

Un utilisateur a entraîné GPT-1 sur une RTX 2060 Super (8 GB VRAM) en ~1 heure, en utilisant du code généré par Claude basé sur l'implémentation originale. Le coût de reproduction des modèles GPT a baissé de 500–1000× depuis GPT-2 (43 000 $ → 48 $ pour une exécution sur cluster H100).

ClaudeOpen sourceFine-tuningBenchmarks

Chronologie

  1. 31 mai 20:10
    Reddit r/LocalLLaMAI trained gpt-1 on my local machine (RTX 2060 Super 8GB VRAM)

    Un utilisateur a entraîné GPT-1 sur une RTX 2060 Super (8 GB VRAM) en ~1 heure, en utilisant du code généré par Claude basé sur l'implémentation originale. Le coût de reproduction des modèles GPT a baissé de 500–1000× depuis GPT-2 (43 000 $ → 48 $ pour une exécution sur cluster H100).

    SIG 65
  2. 31 mai 20:54
    Reddit r/LocalLLaMAI trained gpt-1 on my local machine (RTX 2060 Super 8GB VRAM)

    Un développeur a entraîné GPT-1 (1B paramètres) sur une RTX 2060 Super 8GB en 1 heure. Il démontre qu'un gamer peut pré-entraîner localement un modèle spécialisé <1B sans infrastructure cloud. Code et modèle publiés sur GitHub et HuggingFace.

    SIG 45

Convergences

Entités citées par plusieurs sources.

Angles divergents

Topics présents seulement dans certaines sources.

Lire la source primaire