51B模型ckpt转换的疑问，模型iter_0000000可以直接使用吗？ #82

yuki772049 · 2024-01-03T07:06:20Z

问题如题
根据提供的下载链接，51B模型文件是iter_0000000，运行过程会报错parsing metadata file error

  File "/Yuan-2.0/megatron/checkpointing.py", line 163, in read_metadata
    assert iteration > 0 or release, 'error parsing metadata file {}'.format(
AssertionError: error parsing metadata file /Yuan2.0-51B/51B/latest_checkpointed_iteration.txt
0       /tmp/yuan2.0/ckpt-51B-mid

检查megatron/checkpointing.py代码发现似乎要iteration > 0，否则会报error?
尝试修改51B iter_00的大小和latest_checkpointed_iteration内容为1就能正常。

def read_metadata(tracker_filename):
    # Read the tracker file and either set the iteration or
    # mark it as a release checkpoint.
    iteration = 0
    release = False
    with open(tracker_filename, 'r') as f:
        metastring = f.read().strip()
        try:
            iteration = int(metastring)
        except ValueError:
            release = metastring == 'release'
            if not release:
                print_rank_0('ERROR: Invalid metadata file {}. Exiting'.format(
                    tracker_filename))
                sys.exit()
    assert iteration > 0 or release, 'error parsing metadata file {}'.format(
        tracker_filename)

请帮忙解答一下这个问题

The text was updated successfully, but these errors were encountered:

zhaoxudong01 · 2024-01-03T07:14:43Z

#40

Shawn-IEITSystems · 2024-01-09T03:27:53Z

@yuki772049 请问问题是否已经解决？

yuki772049 · 2024-01-12T09:10:15Z

@Shawn-IEITSystems 非问题，只是疑问，12月份提供的模型文件是iter_0000000，但是脚本限制iteration > 0，这是自相矛盾的。不过看到新上传的模型是iter_0000001了，不再存在上述疑问。

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

51B模型ckpt转换的疑问，模型iter_0000000可以直接使用吗？ #82

51B模型ckpt转换的疑问，模型iter_0000000可以直接使用吗？ #82

yuki772049 commented Jan 3, 2024

zhaoxudong01 commented Jan 3, 2024

Shawn-IEITSystems commented Jan 9, 2024

yuki772049 commented Jan 12, 2024

51B模型ckpt转换的疑问，模型iter_0000000可以直接使用吗？ #82

51B模型ckpt转换的疑问，模型iter_0000000可以直接使用吗？ #82

Comments

yuki772049 commented Jan 3, 2024

zhaoxudong01 commented Jan 3, 2024

Shawn-IEITSystems commented Jan 9, 2024

yuki772049 commented Jan 12, 2024