Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

feat:add action #15

Open
wants to merge 1 commit into
base: main
Choose a base branch
from
Open

feat:add action #15

wants to merge 1 commit into from

Conversation

carlo-ccc
Copy link

训练的是虎先锋
感觉在没有视觉识别功能的情况下,agent实际上类似一个坐在电脑前的盲人,只通过点击各种按键总结哪种按键通关成功率更高,实际上无法对boss的攻击进行识别闪避。

所以逻辑方面改成了被攻击后闪避,尝试放弃闪避所有第一下攻击,避免被连击打死,并提高喝酒奖励并添加了新的喝酒动作防止暴毙。
另外也添加了点动作,偷a和连续闪避

大佬看着改,我这里用一周目98级的数据感觉大概3小时能成功通过一次?主要还是没有视觉识别的问题。

另外就是感觉如果一开始ai训练走了弯路要及时修改,比如很喜欢开局放分身然后挨揍,因为分身奖励太高会非常依赖分身。得到奖励之后就很难修正这个动作了,我一般都是删了重来

@XR-stb
Copy link
Owner

XR-stb commented Dec 1, 2024

  1. “实际上无法对boss的攻击进行识别闪避。“
    其实是可以的,只是目前action_size太大了,画面矩阵是有进行输入的,能根据矩阵的值大致判断出当前是否需要闪避。当然,加入yolo识别动作再输入给模型简化矩阵是可以的,只是yolo还得针对每个单独的boss做动作识别
  2. “3小时能成功通过一次“
    跑一下train_data/下的两个python脚本,把train_data/image下的两个图给我看看数据
  3. 关于训练方法,我也是第一次训练强化AI,确实处于摸索和学习中,如果你有好的效果可以将方法总结在文档中,目前动作空间太大了,观赏性虽然高了,但是Ai的决策却更糟糕了,目前还在搜寻两者之间的一个平衡点。像隐身+蓄力这种连招动作,我觉得应该交给AI自己学会,而不是通过预设连招打固定的动作。

@carlo-ccc
Copy link
Author

  1. “实际上无法对boss的攻击进行识别闪避。“
    其实是可以的,只是目前action_size太大了,画面矩阵是有进行输入的,能根据矩阵的值大致判断出当前是否需要闪避。当然,加入yolo识别动作再输入给模型简化矩阵是可以的,只是yolo还得针对每个单独的boss做动作识别
  2. “3小时能成功通过一次“
    跑一下train_data/下的两个python脚本,把train_data/image下的两个图给我看看数据
  3. 关于训练方法,我也是第一次训练强化AI,确实处于摸索和学习中,如果你有好的效果可以将方法总结在文档中,目前动作空间太大了,观赏性虽然高了,但是Ai的决策却更糟糕了,目前还在搜寻两者之间的一个平衡点。像隐身+蓄力这种连招动作,我觉得应该交给AI自己学会,而不是通过预设连招打固定的动作。

用的是大圣套+豪华版的23攻击棒子,那个图表的数据应该不准,实际上我计算里面只真正打赢了一次才对。

另外还有个问题就是由于没有视觉模块检测来控制和boss的距离,感觉agent也是无法自己移动的,所以感觉可能隐身+蓄力也暂时没办法训练出来。

@carlo-ccc
Copy link
Author

  1. “实际上无法对boss的攻击进行识别闪避。“
    其实是可以的,只是目前action_size太大了,画面矩阵是有进行输入的,能根据矩阵的值大致判断出当前是否需要闪避。当然,加入yolo识别动作再输入给模型简化矩阵是可以的,只是yolo还得针对每个单独的boss做动作识别
  2. “3小时能成功通过一次“
    跑一下train_data/下的两个python脚本,把train_data/image下的两个图给我看看数据
  3. 关于训练方法,我也是第一次训练强化AI,确实处于摸索和学习中,如果你有好的效果可以将方法总结在文档中,目前动作空间太大了,观赏性虽然高了,但是Ai的决策却更糟糕了,目前还在搜寻两者之间的一个平衡点。像隐身+蓄力这种连招动作,我觉得应该交给AI自己学会,而不是通过预设连招打固定的动作。
  1. “实际上无法对boss的攻击进行识别闪避。“
    其实是可以的,只是目前action_size太大了,画面矩阵是有进行输入的,能根据矩阵的值大致判断出当前是否需要闪避。当然,加入yolo识别动作再输入给模型简化矩阵是可以的,只是yolo还得针对每个单独的boss做动作识别
  2. “3小时能成功通过一次“
    跑一下train_data/下的两个python脚本,把train_data/image下的两个图给我看看数据
  3. 关于训练方法,我也是第一次训练强化AI,确实处于摸索和学习中,如果你有好的效果可以将方法总结在文档中,目前动作空间太大了,观赏性虽然高了,但是Ai的决策却更糟糕了,目前还在搜寻两者之间的一个平衡点。像隐身+蓄力这种连招动作,我觉得应该交给AI自己学会,而不是通过预设连招打固定的动作。

用的是大圣套+豪华版的23攻击棒子,那个图表的数据应该不准,实际上我计算里面只真正打赢了一次才对。

另外还有个问题就是由于没有视觉模块检测来控制和boss的距离,感觉agent也是无法自己移动的,所以感觉可能隐身+蓄力也暂时没办法训练出来。

哦不好意思更正一下,我也不太清楚ai检测有没有真正使用上,所以隐身跑蓄自动训练这一块也是自己猜测的。

训练的方式其实也没有了,我大概训练了100+小时。
总结是大概开始的3小时之后,ai的这次训练就会固定下大致的行为模式,如果错误的话只能删除重新来,继续往后训练也只是在原有的基础上优化这样。

@flufy3d
Copy link
Contributor

flufy3d commented Jan 3, 2025

哇 你好厉害 训练了100小时 我最多训练了 一天 就放弃了

@XR-stb
Copy link
Owner

XR-stb commented Jan 3, 2025

哇 你好厉害 训练了100小时 我最多训练了 一天 就放弃了

我最近也训练了2500局,不过没收敛😂🤣
image

@flufy3d
Copy link
Contributor

flufy3d commented Jan 3, 2025

大佬 新年快乐哈 有没有什么新的突破

@XR-stb
Copy link
Owner

XR-stb commented Jan 3, 2025

大佬 新年快乐哈 有没有什么新的突破

新年快乐,没有进展。暂时没啥思路

@flufy3d
Copy link
Contributor

flufy3d commented Jan 3, 2025

deepseek有点牛 居然都追上gpt4o了

@XR-stb
Copy link
Owner

XR-stb commented Jan 3, 2025

现在代码结构太复杂了,需要简化process的逻辑,restart逻辑还是不能用配置的方式,用代码写最后,灵活度最高,什么场景都能满足,现在用配置有局限性(在官方支持boss复战后,复战复活时是在选择面板,看不到血条),不过没有收敛的趋势,我暂时也没啥动力修改了,目前主要在看业界格斗游戏强化ai的训练方法和思路

@flufy3d
Copy link
Contributor

flufy3d commented Jan 3, 2025

嗯 有点伤 道心了 希望 哪个能人异士 能带来新动力

@flufy3d
Copy link
Contributor

flufy3d commented Jan 3, 2025

我会持续关注

@XR-stb
Copy link
Owner

XR-stb commented Jan 3, 2025

嗯 有点伤 道心了 希望 哪个能人异士 能带来新动力

或许真如我问了某个b站大佬所说的:某处有bug导致的不收敛

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
None yet
Projects
None yet
Development

Successfully merging this pull request may close these issues.

3 participants