1. Qwen-AgentWorld、RL向けに環境予測モデルを学習

    [PROGRAMMING]

    Qwen-AgentWorldは、現在の観測と行動から次の環境状態を予測する言語モデルを学習し、強化学習用の分離型シミュレーターとして使う手法を公開した。実環境に依存せず学習経験を増やせるという。