1

2024-11-30 20:02:04 +08:00
parent b78d6a17a4
commit 9d95edfa11
4 changed files with 22 additions and 11 deletions
@@ -7,7 +7,7 @@ def train_model():
    env = MahjongEnv()

    # 使用 PPO 算法训练模型
-    model = PPO("MlpPolicy", env, verbose=1, tensorboard_log="./ppo_mahjong_tensorboard/")
+    model = PPO("MlpPolicy", env, verbose=1, tensorboard_log="../logs/ppo_mahjong_tensorboard/")

    # 训练模型，训练总步数为100000
    model.learn(total_timesteps=100000)