训练 AI 使用强化学习玩口袋妖怪红-表盘吧

许多用途、生产力技巧、自动化、工作流程和其他使用 AI 来提高您的结果、技能等的方法。然而，到目前为止，我们还没有介绍的一个应用程序是使用 AI 来玩神奇宝贝红。本指南提供了了解有关使用强化学习训练 AI 模型的更多信息的机会。以及AI在游戏中的学习过程，AI的成功和失败，AI开发的技术细节，有效运行实验的策略，未来的改进以及如何在自己的计算机上运行程序，如果您有兴趣。 Training-AI-to-Play-Pokemon-Red-using-reinforcement-learning.webp

人工智能被训练使用强化学习来玩神奇宝贝红，这个过程始于人工智能对游戏一无所知，只有按下随机按钮的能力。在五年的模拟游戏时间里，人工智能学会了捕捉神奇宝贝，进化它们，甚至击败了健身房的领导者。这个学习过程由奖励系统指导，该系统激励人工智能完成目标并通过反复试验来学习。

训练AI使用强化学习玩口袋妖怪

人工智能的学习过程被可视化，以了解其行为和决策。这种可视化为人工智能的学习过程提供了宝贵的见解，并有助于指导人工智能训练的未来改进。观看下面的视频，了解有关该过程的更多信息并查看其实际效果。

鼓励人工智能探索游戏地图并寻找新奇事物，发现新屏幕会给予奖励。然而，这一学习过程并非没有挑战。由于新颖性奖励系统，人工智能有时会专注于某些领域。为了调整AI的行为，修改了奖励系统，例如提高新颖性奖励的门槛，以鼓励探索新地点。添加了额外的奖励以激励 AI 参与战斗并升级其神奇宝贝。

人工智能学会了导航游戏地图，参与战斗，甚至利用游戏的随机数生成器。对人工智能的行为进行了分析和可视化，以了解其学习过程和决策。该分析表明，AI与游戏环境的交互以及奖励功能的设计是训练过程中的关键考虑因素。

人工智能使用称为近端策略优化的强化学习算法进行训练。选择该算法是因为它能够处理神奇宝贝红的复杂和动态环境。然而，人工智能的训练并非没有挑战。在游戏中回溯的需要、运行训练的成本以及仔细设计奖励函数的需要都是必须考虑的因素。

运行AI的训练可以在个人计算机上完成，并在项目的GitHub存储库中提供说明。但是，请务必注意，默认情况下，游戏将在 32K 步或大约一小时后终止。这可以通过调整ep_length变量来增加，但它也会使用更多的内存。默认情况下，这最多可以使用大约 100G 的 RAM。这可以通过减少num_cpu或ep_length来减少，但它可能会影响结果。此外，在开始改进之前，模型行为可能会在前 50 次左右的训练迭代中退化。

使用强化学习训练 AI 模型的步骤：

1. 问题表述：

状态空间：定义代理可能遇到的所有可能状态的集合。
操作空间：定义代理可以执行的所有可能操作的集合。
奖励函数：定义一个基于状态-操作对提供标量奖励的函数。
策略：代理用来根据当前状态确定下一步操作的策略。
目标：通常，目标是最大化预期的累积奖励，通常会随着时间的推移而打折。

2. 环境设置：

您可以使用预先构建的环境（如OpenAI Gym），也可以构建一个模拟您尝试解决的问题的自定义环境。

3. 初始化参数：

初始化策略和其他参数，如折扣系数、学习率等。

4. 训练循环：

观察：观察环境的当前状态。
操作选择：使用当前策略选择要在观察状态下执行的操作。
执行：执行操作并观察新的状态和奖励。
学习：根据观察到的奖励和过渡更新策略或中间函数（如价值函数或行动-价值函数）。
循环：继续此过程，直到满足终止条件，该条件可以是最大迭代次数、问题定义的令人满意的学习水平或其他条件。

5. 政策改进：

经过充分培训后，优化或优化策略以获得更好的性能，这可以使用策略迭代、价值迭代等技术或通过更高级的方法（如参与者-评论家模型）来完成。

6. 评估：

在测试环境或实际方案中运行经过训练的代理以评估其性能。

算法：

在学习阶段可以使用不同的算法，每种算法都有自己的优点和缺点：

价值迭代、策略迭代：主要用于教育目的的基本方法。
Q-Learning，Sarsa：适用于高维状态空间的无模型方法。
深度Q网络（DQN）：将Q学习与深度学习相结合。
策略梯度：直接优化策略功能。
参与者-评论家：结合基于价值和基于策略的方法。

库和工具：

Python库，如TensorFlow，PyTorch，用于构建神经网络，如果你使用函数逼近器。
用于环境模拟的OpenAI Gym。

通过强化学习，人工智能已经学会了在游戏世界中导航、参与战斗，甚至利用游戏的机制。尽管面临挑战，但人工智能的培训为人工智能的学习过程和决策提供了宝贵的见解，并为人工智能在游戏中的未来改进和应用铺平了道路。

未经允许不得转载：表盘吧 » 训练 AI 使用强化学习玩口袋妖怪红

训练 AI 使用强化学习玩口袋妖怪红