import gym
from stable_baselines3 import PPO
from src.environment.chengdu_majiang_env import MahjongEnv

def train_model():
    # 创建 MahjongEnv 环境实例
    env = MahjongEnv()

    # 使用 PPO 算法训练模型
    model = PPO("MlpPolicy", env, verbose=1, tensorboard_log="./ppo_mahjong_tensorboard/")

    # 训练模型，训练总步数为100000
    model.learn(total_timesteps=100000)

    # 保存训练后的模型
    model.save("ppo_mahjong_model")

    # 测试模型
    obs = env.reset()
    done = False
    while not done:
        action, _states = model.predict(obs)  # 使用训练好的模型来选择动作
        obs, reward, done, info = env.step(action)  # 执行动作
        env.render()  # 打印环境状态

if __name__ == "__main__":
    train_model()