Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

自定义多视图数据集在fine train阶段中止 #215

Open
EchoPickle opened this issue Dec 1, 2024 · 3 comments
Open

自定义多视图数据集在fine train阶段中止 #215

EchoPickle opened this issue Dec 1, 2024 · 3 comments

Comments

@EchoPickle
Copy link

您好!我在使用自定义多视图数据集运行时遇到一个问题。前面很顺利,3000轮coarse train顺利完成,但是每次进入15000轮的fine train时,总是训练若干轮(最多1260轮)后突然终止,会自动重新开始3000轮的coarse train,如此往复。我想知道是哪里出了问题?
我的数据集包含11个视角,视频区间15s,fps=20,图像分辨率为3840*2160。本机GPU为4070。
以下是我一次运行时的截图:
微信图片_20241201172414
能告诉我可能是什么地方出现问题了吗?超级感谢!

@guanjunwu
Copy link
Collaborator

guanjunwu commented Dec 2, 2024

会不会是4D-GS在训练时出现梯度或者loss为nan的问题,目前最靠谱的解决方法就是在每次backward之后重新检测一遍所有变量的梯度是否有nan,如果有nan重新本次iteration。
出现问题的原因基本都是在大场景中有些gaussian过远,xyz过大,而4D-GS好像没有对坐标做规范化。导致神经网络的梯度太大,进而难以优化。

@EchoPickle
Copy link
Author

会不会是4D-GS在训练时出现梯度或者loss为nan的问题,目前最靠谱的解决方法就是在每次backward之后重新检测一遍所有变量的梯度是否有nan,如果有nan重新本次iteration。 出现问题的原因基本都是在大场景中有些gaussian过远,xyz过大,而4D-GS好像没有对坐标做规范化。导致神经网络的梯度太大,进而难以优化。

感谢回复,可能确实是大场景的问题,我再尝试修改一下。非常感谢~

@oyzg
Copy link

oyzg commented Dec 15, 2024

想请问一下 解决了吗?

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
None yet
Projects
None yet
Development

No branches or pull requests

3 participants