-
Notifications
You must be signed in to change notification settings - Fork 6
关于Retrieval-Augmented Generator部分的问题 #4
Comments
你好,你的lightning版本是 |
是的,我的软件版本都按照了您代码里的要求。 |
你好,能再检查下torch和lighting的版本吗?这是目前的scheduler的定义, 满足PyTorch's LRScheduler API: SelfMemory/src/utils/optim_utils.py Lines 2 to 19 in 58d8b61
|
是的,我检查了我的这两项:我的CUDA 版本为12.1,pytorch版本为符合12.1CUDA的torch 2.1.1。 lightning 版本为 |
请尝试下这个版本 |
我尝试安装了这个版本后,在执行
后同样会报 |
在这里可以找到安装pytorch 1.x的命令: https://pytorch.org/get-started/previous-versions/ |
是的,我一开始的pytorch1.8版本是在这里安装的。但是执行了pip intsall pytorch-lightning==1.8.0.post1命令后,就会自动变为2.3.0版本。我尝试了两个新的conda环境都是如此 |
经过调研,我认为出现这个问题的原因在于torch的版本。当我将pytorch版本下降到2.0.0以下后就可以运行了。答案来源参考了Lightning-AI/pytorch-lightning#15912 |
作者先前提到的pytorch==1.8.1+cu111应该是不支持pytorch-lightning==1.8.0.post1,因此执行 |
作者您好,我在尝试复现Retrieval-Augmented Generator部分## train a vanilla Transformer model 环节的工作时,代码报错
lightning_lite.utilities.exceptions.MisconfigurationException: The provided lr scheduler
LambdaLRdoesn't follow PyTorch's LRScheduler API. You should override the
LightningModule.lr_scheduler_stephook with your own logic if you are using a custom LR scheduler.
,这个报错我没能很好的解决,请问作者有遇到这个情况吗?网上查询是说要在 LightningModule 中覆盖 lr_scheduler_step 方法,并添加自己的逻辑。此外,我在注释了以上报错的代码(python文件包中的代码)后继续执行命令语句,发现模型训练后无法结束(会一直占用显卡内存),请问训练好了 vanilla Transformer model后 ,会主动结束进程吗?
最后想请教作者,模型训练好后会以一个什么形式储存呢?我的result文件夹(SelfMemory/results/generator/bigpatent/bart_large)里只有多个版本的lightning_logs,不知道是不是训练vanilla Transformer model 没完成,所以只有logs呢?
希望作者可以解答我的疑惑,谢谢~
The text was updated successfully, but these errors were encountered: