-
Notifications
You must be signed in to change notification settings - Fork 5.6k
PaddlePaddle Duty Log
Caretaker : @sunxinghai
-
无 Issue 问题
-
用户群问题1:
- 问题描述: yq01-idl-gpu-offline14 机器卡住,任务提交失败。
- 跟进情况:已解决。(@weibao)
-
处理历史Issue(关闭):
- https://github.com/PaddlePaddle/Paddle/issues/2697
- https://github.com/PaddlePaddle/Paddle/issues/2677
- https://github.com/PaddlePaddle/Paddle/issues/2794
- https://github.com/PaddlePaddle/Paddle/issues/2861
- https://github.com/PaddlePaddle/Paddle/issues/2475
- https://github.com/PaddlePaddle/Paddle/issues/2476
- https://github.com/PaddlePaddle/Paddle/issues/2470
- https://github.com/PaddlePaddle/Paddle/issues/2510
- https://github.com/PaddlePaddle/Paddle/issues/2531
- https://github.com/PaddlePaddle/Paddle/issues/2875
值班人:曹莹
用户群问题 : 8 个,已解答 8 个
github isssue :7 个,3 个已关闭,3 个已解答,1 个需要进一步排查
关闭 历史 issue: 3 个
- 用户群问题
- C-API 有文档吗?
- 已解答:@曹莹
- 集群训练出错询问原因。
- 已解答:@曹莹
- 单 slot 和多 slot 区别,什么时候用单slot,什么时候用多 slot
- 已解答:@曹莹
- 把Paddle保存的原始文件解压之后再压缩,模型无法加载。
- 已解答:@郭晟 @武毅
- 集群训练时,test文件夹下的文件在多结点之间怎样分配。
- 已解答:@武毅
- 集群预测时报错咨询。
- 缺少足够信息,无法确定原因。@曹莹
- 多个输入如何指定不同的 initial_std
- 已解答:@曹莹
- nmt模型训练十几个pass后,cost不降反增,进而变为nan。
- 已解答: @曹莹
- github issue
- [closed] https://github.com/PaddlePaddle/Paddle/issues/3854
- 问题 :
Table Projection: Check failed: in_->ids
- 状态:已解答 @曹莹
- 问题 :
-
https://github.com/PaddlePaddle/Paddle/issues/3867
- 问题:希望了解 embedding layer 在 PaddlePaddle 中的具体实现
- 状态:已解答解决 @曹莹
-
https://github.com/PaddlePaddle/models/issues/229
- 问题:每个 Pass 的 Test 中,各个 node 的 cost 不一致。
- 状态:有待进一步排查;谢谢 @武毅 ~
-
https://github.com/PaddlePaddle/Paddle/issues/3884
- 问题:V2 在提交任务的时候怎么关闭掉大部分的 info log日志
- 状态:已解答,用户无反馈 @曹莹
-
https://github.com/PaddlePaddle/Paddle/issues/3880
- 问题:centos 7 上面源码安装paddle
- 状态:已解答 ; 谢谢 @武毅
- [closed] https://github.com/PaddlePaddle/Paddle/issues/3879
- 问题:使用厂内二进制安装不成功;
- 状态:未解答但用户自行关闭问题
- [closed] https://github.com/PaddlePaddle/Paddle/issues/3847
- 问题:集群训练失败
- 状态:已解决,由于用户的数据处理脚本有bug 谢谢 @武毅
- 关闭历史 issue
- https://github.com/PaddlePaddle/Paddle/issues/2415
- https://github.com/PaddlePaddle/Paddle/issues/2246 fixed by https://github.com/PaddlePaddle/Paddle/pull/3845
- https://github.com/PaddlePaddle/Paddle/issues/3802 fixed by https://github.com/PaddlePaddle/Paddle/pull/3844
值班人:@yanxu @caoying @chenxi
-
关闭 10个历史 issue
-
Hi用户群: 无
-
Github issue:无新增 issue
-
关闭的 10 个 issue
- https://github.com/PaddlePaddle/Paddle/issues/1791
- https://github.com/PaddlePaddle/Paddle/issues/1738
- https://github.com/PaddlePaddle/Paddle/issues/1623
- https://github.com/PaddlePaddle/Paddle/issues/1268
- https://github.com/PaddlePaddle/Paddle/issues/1135
- https://github.com/PaddlePaddle/Paddle/issues/1930
- https://github.com/PaddlePaddle/Paddle/issues/2070
- https://github.com/PaddlePaddle/Paddle/issues/2079
- https://github.com/PaddlePaddle/Paddle/issues/2470
- https://github.com/PaddlePaddle/Paddle/issues/2291
值班人:@yanxu @caoying
-
关闭10个已解决历史issue
-
Hi用户群: 无
-
Github issue:1 个新增 issue,已回复解答
-
关闭的 10 个 issue
- https://github.com/PaddlePaddle/Paddle/issues/1316
- https://github.com/PaddlePaddle/Paddle/issues/1104
- https://github.com/PaddlePaddle/Paddle/issues/2461
- https://github.com/PaddlePaddle/Paddle/issues/2831
- https://github.com/PaddlePaddle/Paddle/issues/2794
- https://github.com/PaddlePaddle/Paddle/issues/2677
- https://github.com/PaddlePaddle/Paddle/issues/2946
- https://github.com/PaddlePaddle/Paddle/issues/3023
- https://github.com/PaddlePaddle/Paddle/issues/3384
- https://github.com/PaddlePaddle/Paddle/issues/3139
值班人:@liuyiqun @liuyibing
总结:
关闭历史issue 6 个;
用户群问题6个,已全部解答;
github issue 5个,3个已解决,1个跟进中,1个待跟进。
历史 issue:
- https://github.com/PaddlePaddle/Paddle/issues/2458
- https://github.com/PaddlePaddle/Paddle/issues/1350
- https://github.com/PaddlePaddle/Paddle/issues/2173
- https://github.com/PaddlePaddle/Paddle/issues/1725
- https://github.com/PaddlePaddle/Paddle/issues/1505
- https://github.com/PaddlePaddle/Paddle/issues/2279
用户群问题:
-
问题1:单机多cpu训练的时候,增加trainer_count数目提升计算速度不明显,
- 跟进情况:已解答。可能是单个CPU计算能力利用不充分,建议用户固定很大的batch_size进行测试。@yiqun
-
问题2:paddle 模型在wutai02机器上wget不下来
- 跟进情况:其他用户解答,用noah申请hpc的节点门神,登录机器查看
-
问题3:mpi的计算资源一般都是什么时候申请,向什么地方申请?
- 跟进情况:已解答。联系部门OP进行申请,MPI集群的使用参考wiki。@wuyi @yaming @yibing
-
问题4:mpi集群使用是否需要本地安装 hpc_client
- 问题描述:已解答。v2 api 不需要 hpc_client。@wuyi @yibing
-
问题5:使用capi加载模型,出core,报错找不到目录下的文件
- 问题描述:已解答。用户load目录的方式错误。 @yiqun
-
问题6: 使用一键安装工具安装时的编译报错
- 已解答。python环境问题。@yiqun
github issue:
-
issue 3567
- python训练配置脚本本地运行通过,MPI集群报错SIGFPE
- 已解答。已解决。推荐历史相似issue中的解决方案。@yiqun
-
issue #3565
- 问题描述: v2怎么在训练时固定某些节点的参数使之不被更新
- 跟进情况:已解决。为不同的参数设置不同的学习率。 @yiqun
-
issue #3573
- 问题描述:paddle v2 dssm demo 训练报错
- 跟进情况:待跟进
-
issue #3575
- 问题描述:paddle android capi 偶尔出现异常
Check failed: !IsGoogleLoggingInitialized()
- 跟进情况:跟进中,检查是否存在多次init。 @yiqun
- 问题描述:paddle android capi 偶尔出现异常
-
issue #3572
- 问题描述:使用paddle-capi.so库时报错
- 跟进情况:用户自行解决,issue closed。
值班人:@qijun @xinghai
用户群问题:
- 问题1. 集群训练 thirdparty 参数传递了不存在的文件导致出错。
- 跟进情况:已解决。@yanxu
- 问题2. 二分类问题不恰当使用损失函数(MultiBinaryLabelCrossEntropy)导致出错。
- 跟进情况:已解决。换用classification_cost。@yaming @caoying
- 问题3. 集群训练如何上传使用自定义数据,以及如何查看run_sentiment.sh示例数据。
- 跟进情况:已解决。@qijun
- 问题4. 集群训练dataprovider能否访问全部数据已统计全局字典。
- 跟进情况:已解决。不可以,只能预处理。@xinghai
- 问题5. 预测lib库的链接问题。
- 跟进情况:已解决, 需链接glog和mkl等相关库。@yuyang
- 问题6. 在infer时指定output的hdfs路径,并将预测结果写到./output/,但任务结束后,结果未成功保存到hdfs上。
- 跟进情况:跟进中,等待用户反馈。@yanxu
- 问题7. 集群训练失败,但另一组实验(仅有端口、output路径、参数)不同,可以成功运行。
- 跟进情况:跟进中,等待用户反馈。@qijun
- 问题9. 集群任务提交失败,可能为端口占用和配置文件有误。
- 跟进情况:跟进解答中,等待用户进一步反馈。@yanxu
- 问题10. 模型训练收敛不正常。
- 跟进情况:已解答,可能由于数据未shuffle,等待用户确认。@qijun
- 问题11. interger_value(2) 参数解释。
- 跟进情况:已解答。@caoying @xinghai
- 问题12. MPI任务receiver连接失败。
- 跟进情况:已解答。已重启 receiver。 @wuyi
- 问题13. classification_cost 和 softmax 激活的使用疑问。
- 跟进情况:已解答。@caoying
- 问题14:test时batch size使用疑问。
- 跟进情况:已解答。@xingahi
Github issue:
-
issue 3160. 关于cnn,lstm文本训练结果不收敛的问题?
- 跟进情况:跟进中,怀疑由于用户数据未shuffle,等待用户进一步反馈中。@qijun
-
issue 3175. v2的MPI任务,设置sparse update后速度没提高
- 跟进情况:跟进中,用户的v1和v2比较不严格,等待用户进一步反馈中。@wuyi
-
issue 3182. c-api是否支持多slot混合类型输入。
- 跟进情况:已标记为feature request. @qijun
-
历史issue(关闭)
- https://github.com/PaddlePaddle/Paddle/issues/1343
- https://github.com/PaddlePaddle/Paddle/issues/1359
- https://github.com/PaddlePaddle/Paddle/issues/1388
- https://github.com/PaddlePaddle/Paddle/issues/1395
- https://github.com/PaddlePaddle/Paddle/issues/1419
- https://github.com/PaddlePaddle/Paddle/issues/1415
- https://github.com/PaddlePaddle/Paddle/issues/1643
- https://github.com/PaddlePaddle/Paddle/issues/1757
- https://github.com/PaddlePaddle/Paddle/issues/1834
- https://github.com/PaddlePaddle/Paddle/issues/1867
值班人:@yanxu @caoying
总结:
用户群问题: 15个,解决15个; github issue: 5个,均已经回答用户。1个关闭,一个解决后用户无反馈。2个需要用户进一步自行排查或提供跟多信息。1个等待用户反馈。 历史issue: 关闭10个不活跃或已解决的issue;
用户群问题:
- 问题1. 文本生成自定义数据时提示需要worddict和labeldict 。如果希望程序自动完成worddict和labeldict的生成 应该怎么做?
- 跟进情况:已解决。@yongfeng @yanxu
- 问题2. 在模型里配置auc后 怎么看模型整体的auc。
- 跟进情况:已解决。V2 目前只输出当前batch 上的AUC,可以自行评估。@caoying
- 问题3. docker加载了image 0.10.0rc2,在执行train.sh的时候,提示import error,no module named paddle.trainer.config_parser
- 跟进情况:已解决。0.10.0rc2 有bug,建议更新至最新镜像。@yanxu
- 问题4. 请问paddle训练的时候,可以输入初始模型的地址么?就是在之前一个pass的基础上进行训练?
- 跟进情况:已解决。设置
init_model_path
参数@caoying
- 跟进情况:已解决。设置
- 问题5. 求v1版安装wiki
- 跟进情况:已解决。@caoying
- 问题6. slot类型是Index,Embedding之后可以pooling吗?
- 跟进情况:已解答。@caoying -问题7. 我想使用Jupter Notebook ,在个人的云主机上起的docker,不能用主机公网ip+port的方式用paddle book吗?
- 跟进情况:已解决,需要配置安全策略。 @yanxu
- 问题8. lstm训练出来的embedding后面拼接上几十个维度,这些维度都是通过一些规则来确定的。这种是否支持?
- 跟进情况:已解答。@caoying -问题9. 用ner的demo跑的序列标注模型,Test上precision,recall,F1显示0,是不是不正常?
- 跟进情况:需要用户提供更多信息。@caoying -问题10. 在LSTM的demo中,这个average_winodw是什么意思?
- 跟进情况:已解答。@caoying
- 问题11. V2 如何在infer 时输出某个中间隐层。
- 跟进情况:已解答。@caoying -问题12. 提交MPI训练任务失败了,这个receiver为什么连接不了?
- 跟进情况:已解答。已经修复 reciver 问题 @wuyi @yanxu -问题13. 训练的时候没有把layer contact起来,有没有办法使用api把模型文件contanct起来保存为一个啊?
- 跟进情况:已解答。@caoying
- 问题14:train的输入文件想用通配符
- 跟进情况:已解答。@wuyi @yanxu @wanghaoshuang
- 问题15:怎样设置L1正则
- 跟进情况:已解答。@caoying
Github issue:
- issue 1. paddle训练在不同的pass结束之后随机报错,请问这个有可能是为什么呢?
- 跟进情况:并非随机报错,和数值优化异常有关。已经解答用户问题,需要用户自己也进行进一步排查。@caoying @yanxu
- issue 2. 如何将多个embedding文件拼接起来。
- 跟进情况:已解决。@caoying
- issue 3. paddle v1 训练时save model出现的问题。
- 跟进情况:非保存模型问题,可能和sparse updata 已经模型配置都有一定关系,需要用户自己也进行进一步排查。@yanxu
- issue 4. 序列标注模型,Test上precision,recall,F1显示0。
- 跟进情况:已解答用户问题,需要用户自己也进行进一步排查,或提供更多信息。@caoying
- issue 5. 如果要修改bi-lstm中forget gate的初始bias,应该如何修改
- 跟进情况:已解答。@caoying
-历史issue
- https://github.com/PaddlePaddle/Paddle/issues/1049
- https://github.com/PaddlePaddle/Paddle/issues/1053
- https://github.com/PaddlePaddle/Paddle/issues/1056
- https://github.com/PaddlePaddle/Paddle/issues/1073
- https://github.com/PaddlePaddle/Paddle/issues/1076
- https://github.com/PaddlePaddle/Paddle/issues/1077
- https://github.com/PaddlePaddle/Paddle/issues/1117
- https://github.com/PaddlePaddle/Paddle/issues/1261
- https://github.com/PaddlePaddle/Paddle/issues/1358
- https://github.com/PaddlePaddle/Paddle/issues/1467
Caretaker:@liuyiqun @liuyibing
总结:
历史issue: 关闭10个不活跃或已解决的issue;
用户群问题: 16个,解决15个,1个正在跟进中;
github issue: 3个,解决并关闭两个,1个正在跟进中。
历史issue
https://github.com/PaddlePaddle/Paddle/issues/775 https://github.com/PaddlePaddle/Paddle/issues/1096 https://github.com/PaddlePaddle/Paddle/issues/1368 https://github.com/PaddlePaddle/Paddle/issues/1552 https://github.com/PaddlePaddle/Paddle/issues/1525 https://github.com/PaddlePaddle/Paddle/issues/1352 https://github.com/PaddlePaddle/Paddle/issues/1728 https://github.com/PaddlePaddle/Paddle/issues/1191 https://github.com/PaddlePaddle/Paddle/issues/1856 https://github.com/PaddlePaddle/Paddle/issues/1270
用户群问题
-
问题1:
- 问题描述:用户在一台机器上编译paddle,迁移到另一机器后运行时出现cuda运行错误
- 跟进情况:已解答。提示用户在新机器上重新编译paddle,以解决依赖问题。@yibing
-
问题2:
- 问题描述:本地训练正常的网络,用户在MPI机器上训练权重全为零
- 跟进情况:@wuyi @yanxu 正在跟进。
-
问题3:
- 问题描述:提交MPI任务不成功
- 跟进情况:已解答。qsub提交有超时导致receiver没反应,重启机器后重新提交任务解决。@wuyi
-
问题4:
- 问题描述:在Paddle/paddle/capi下cmake出错
- 跟进情况:已解答。提示用户如需使用capi, 要在编译paddle时加上
WITH_C_API=ON
属性,帮助提供解答。@liaogang @yuyang
-
问题5:
- 问题描述:新版本的paddle怎么设置mpi集群和队列
- 跟进情况:已解答。按wiki安装receiver的客户端。@yanxu
-
问题6:
- 问题描述:用户编译paddle报错
No CMAKE_Go_COMPILER could be found
- 跟进情况:已解答。提示用户没有安装Go环境。@yibing
- 问题描述:用户编译paddle报错
-
问题7:
- 问题描述:用wiki的一键安装脚本出现
_sqlite3.so
相关的报错 - 跟进情况:已解答。仍可按用户所贴截图的方式予以修复。@jiayi @yaming
- 问题描述:用wiki的一键安装脚本出现
-
问题8:
- 问题描述:用户使用类似book教程中的推荐模型,改变部分网络结构和cost,训练不收敛
- 跟进情况:已解答。提示用户先尝试训练教程中的模型,验证收敛性,再训练自己的模型对比实验。@yibing
-
问题9:
- 问题描述:用户咨询如何输出auc
- 跟进情况:已解答。在evaluator中存在auc,给出相关代码链接供用户参考,并发现英文文档中缺少evaluator相关部分,待@yongfeng修复。@caoying @yibing
-
问题10:
- 问题描述:用户咨询在v2 api中,reader的shuffle_size填-1是不是默认最大
- 跟进情况:已解答。答案为否,提供代码链接供用户参考。@yibing
-
问题11:
- 问题描述:用户咨询在cluster test的时候参数如何设置。
- 跟进情况:已解答。已在wiki中更新相关内容。@wuyi
-
问题12:
- 问题描述:用户咨询在使能capi编译paddle时报错找不到
libpaddle_capi_shared.so
- 跟进情况:已解答。在
CMakeLists.txt
中用link_directories
指定相关库的路径。@daoyuan
- 问题描述:用户咨询在使能capi编译paddle时报错找不到
-
问题13:
- 问题描述:用户用MPI训练模型100个pass后失败
- 跟进情况:已解答。因用户使用节点数较多,怀疑部分节点出错导致任务失败,提示用户减少节点数并手动恢复模型训练。@yaming @yibing
-
问题14:
-
问题描述:用户咨询若一个节点里开了多个线程,是每个线程都是设置的batch_size的数据量,还是多个线程平分batch_size的数据。
-
跟进情况:已解答。多个线程平分batch_size的数据。@caoying
-
问题15:
-
问题描述:用户咨询使用两个mpi节点训练一个模型时,每个节点都会在output目录下存了一份params.tar.gz,如果使用这个模型。
-
跟进情况:已解答。参考wiki中的demo。@wuyi
-
问题16:
-
问题描述:用户咨询v2版本在paddle.reader.shuffle()中,想让全部数据都放内存中,buf_size该怎么设置
-
跟进情况:已解答。可以将buf_size设置的足够大。@yaming
github issue:
-
- 问题描述:同用户群问题4.
- 跟进情况:已在hi群解答,关闭issue。@yibing
-
- 问题描述:如何查看当前的paddle版本。
- 跟进情况:运行命令
paddle version
。@yaming
-
- 问题描述:生成binary conf的时候,dotmul_projection报assert param_attr is None错误
- 跟进情况:正在跟进。@yanxu
Caretaker : @wuyi @wanghaoshuang
-
- 问题描述:使用pre-train的embedding词表初始化网络参数,加载参数异常。
- 跟进情况:@caoying继续跟进。
-
- 问题描述:PaddlePaddle存储的二进制模型参数文件的格式是什么样,如何转为明文?
- 跟进情况:@caoying 已跟进解决。另用户有需求使用v1的在pserver端存取大的稀疏模型,并应用于线上预测,需要port此功能到v2
-
- 问题描述:centos7.3 gpu 训练报错Not supported
- 跟进情况:已assign @dangqingqing,可能是v2的GPU sparse支持的问题
-
用户群问题1:
- 问题描述:内网安装Paddle错误找不到numpy头文件
- 跟进情况:与用户环境相关,多人提供了多个方案
-
用户群问题2:
- 问题描述:训练每个pass之间 参数会重新初始化吗?
- 跟进情况:@wuyi, @qiaolongfei已回答
-
用户群问题3:
- 问题描述:想问问随着训练轮数的增加,内存增长,如何估计使用的内存总量
- 跟进情况:@wuyi, @wanghaoshuang建议提交issue排查是否是某些layer的问题
-
用户群问题4:
- 问题描述:0.9版的paddle代码在1.0版的集群上显示paddle command not found?
- 跟进情况:@wuyi跟进中,仍然不太明确用户的具体问题
Caretaker : @qijun @sunxinghai
-
- 问题描述:使用pre-train的embedding词表初始化网络参数,加载参数异常。
- 跟进情况:让用户提供更准确描述;问题assign给 @luotao和@caoying跟进。(@yaming)
-
- 问题描述:网络拓扑解析时的递归调用导致某些深层网络parsing速度慢。
- 跟进情况:已修复。(@yuyang )
-
用户群问题1:
- 问题描述: Paddle编译需依赖Github网络连接,但doc描述不清。
- 跟进情况:已解答。待更新doc。(@qijun @caoying)
-
用户群问题2:
- 问题描述: doc.paddlepaddle.org 服务异常。
- 跟进情况:已修复(@yongfeng)
-
用户群问题3:
- 问题描述: Paddle编译对go依赖问题。
- 跟进情况:已解答。(@liaogang, @qijun)
-
用户群问题4:
- 问题描述: paddle如何逐时间步加权平均交叉熵loss和crf loss。
- 跟进情况:等待用户提issue。
-
用户群问题5:
- 问题描述: import paddle时报错sqlite3_enable_share_cached未定义。
- 跟进情况:已提供解决方案。(@yanxu @qijun)
-
用户群问题6:
- 问题描述: 询问c++ api说明文档。
- 跟进情况:已提供。(@qijun)
-
用户群问题7:
- 问题描述: cloud 提交任务出错(出错信息None)
- 跟进情况:等待用户进一步提供详细提交参数信息。(@yanxu)
Caretaker: @yanxu @caoying
总结:1 个github issue,6个用户群问题
- 问题1:
- 问题描述:Paddle 是否使用 Inverted Dropout?测试时如何设置Droprate。
- 跟进情况:已解答,Paddle使用Dropout常规方式,不是Inverted Dropout,测试时无需修改droprate。@caoying。
-
问题1:
- 问题描述:使用
paddle bin
进行预测,希望控制输出格式,将每个序列预测结果输出到一行,而不是每个时间步输出一行。 - 跟进情况:已解答。使用
paddle bin
进行预测试无法自由控制输出格式,建议使用v2 预测接口进行预测。@caoying
- 问题描述:使用
-
问题2:
- 问题描述:均方误差
mse_cost
是否支持序列数据 - 跟进情况:已解答。均方误差不在乎输入是否是序列,如果输入是序列,只要label是序列级别的即可。@caoying
- 问题描述:均方误差
-
问题3:
- 问题描述:v2是否支持分布式训练
- 跟进情况:已解答。支持,给出wiki连接。@wuyi
-
问题4:
- 问题描述:仿照例子中语义角色标注中双向LSTM做训练,针对多个输入使用
paddle.layer.mixed
报错。 - 跟进情况:已解答。
paddle.layer.mixed
的多个输入是序列时要求序列长度一致,否则需要填充。@caoying
- 问题描述:仿照例子中语义角色标注中双向LSTM做训练,针对多个输入使用
-
问题5:
- 问题描述:单机可以调用的
paddle.dataset
中自带的reader
函数接口,集群上却报错。 - 跟进情况:已解答。GPU版本的
paddle bin
相对较老,相关接口暂时缺失,建议把需要的代码段写在reader里,不去调用paddle
包中的接口。@yanxu
- 问题描述:单机可以调用的
-
问题6:
- 问题描述:新版的CAPI接口,混合输入数据类型是怎样组织。
- 跟进情况:已解答,给出文档和代码段。@yuyang
Caretaker: @liuyiqun @liuyibing
总结:0 个github issue,3个用户群问题
0 问题
-
问题1:
- 问题描述:集群训练提交任务出错;
- 跟进情况:目录权限问题,@wuyi已解决。
-
问题2:
- 问题描述:用自定义cost来训练序列模型,如何写训练代码;
- 跟进情况:因问题描述较复杂,已建议用户提issue,待跟进。
-
问题3:
- 问题描述:咨询某段代码参数的更新是发生在update()还是在finishBatch();
- 跟进情况:@qingqing 已解答,不同模式下不相同,有的是在update()中,有些是在finishBatch()中。
Caretaker : @qijun @sunxinghai
-
- 问题描述:swig_paddle多线程(trainer_count>1) 序列预测时,出现输出序列和输入序列不等长; trainer_count=1时正常。
- 跟进情况:等待用户使用最新版Paddle(可能含相关bug修复)复现问题,跟进中。(@qijun)
-
- 问题描述: layer.scaling 效果不符合预期。
- 跟进情况: 已解决。用户配置错误。(@qijun)
-
用户群问题1:
- 问题描述: Batch norm 的作用和使用方法。
- 跟进情况:已解答。(@caoying @xinghai)
-
用户群问题2:
- 问题描述: 集群和单机训练结果不一致。
- 跟进情况:已解决。集群配置和单机配置的 minibatch size不一致,导致收敛速度不一致。(@xinghai @zhihong)
-
用户群问题3:
- 问题描述: Paddle receiver 是否仅能固定配置一台?
- 跟进情况:已解答。是的,目前仅部署了一台。(@yanxu)
Creator @Yancey1989(yanxu) @lcy-seso(caoying)
- 问题1:paddle 集群任务提交无法提交
- 解答:用户配置写法有错误。@yanxu 已解答。
- 状态:已解决。
Caretaker: @liuyiqun @liuyibing
今日无用户问题
Creator @dangqingqing @qiaolongfei
总结: 总共7个问题: 2个咨询,5个训练问题 解答状态:3个需要继续跟进
-
issue: https://github.com/PaddlePaddle/Paddle/issues/2574
描述:集群训练,classification_cost中使用precision_recall_evalutor,不识别参数top_k
状态:已经Fix,集群receiver版本还没更新,建议用户使用其他方式,已解决 @dangqingqing @caoying -
issue: https://github.com/PaddlePaddle/Paddle/issues/2585
描述:集群训练,问题1:错误文件见导致失败, 问题2:浮点异常
状态:问题1解决,问题2提了意见,实验中,后续继续跟进 @qiaolongfei @dangqingqing -
issue: https://github.com/PaddlePaddle/Paddle/issues/2581
描述:集群训练, 第一个pass过后cost为0
状态:Hi讨论组跟进中, @qiaolongfei @dangqingqing -
issue: https://github.com/PaddlePaddle/Paddle/issues/2578
描述: 如何给参数设置一些全局的优化参数,例如momentum, decay_rate, device_id, std,mean等
状态: assign给了 @cxwangyi @qiaolongfei @yuyang , 需要继续跟进,fix一些bug -
用户群问题1:paddle book的公式渲染问题
解答:@daiwenkai @liuyongfeng 提供建议
状态:解答完毕 -
用户群问题2:旧版paddle切换到新版,加载模型继续训练出现nan
解答:@dangqingqing @caoying 提醒用户对比,发现warp_ctc中blank设置新旧版不同,改过之后,暂时正常。
状态:暂没问题 -
用户群问题3: paddle.v2中是否需要v1的outputs()?
解答:@qiaolongfei 提供v2写法
状态:解答完毕
其他问题建议转移到GitHub Issue,如上述问题。
Creator @Yancey1989(yanxu) @lcy-seso(caoying)
-
- 问题描述:用户反馈文档更新不及时的问题
- 跟进情况:目前有Project跟踪文档issue,以及提供github最新文档的网站链接。(@luotao, @yanxu)
-
- 问题描述:预测值与预期不符
- 跟进情况:问题跟进中(@caoying)
-
- 问题描述:希望提供0.10.0的deb包
- 跟进情况:提供Docker编译的deb包的文档(@yanxu)
-
- 问题描述:MPI训练中有Test Cost在不同节点不一致的情况
- 跟进情况:问题定位中(@wuyi, @longfei @yanxu)
-
用户群
- 问题描述:PaddlePaddle编译错误,缺少的依赖库需要外网下载
- 跟进情况:建议将github.com改成内网某台机器wget。 (@wangbin)
-
用户群
- 问题描述:MPI任务失败,报错
Check failed: blockSize % this->width_ == 0
- 跟进情况:建议改为独占模式,等待进一步反馈中(@yanxu)
- 问题描述:MPI任务失败,报错
-
用户群
- 问题描述:MPI任务失败,报错
Check failed: (size_t)lbl[i] < dim (3 vs. 2)
- 跟进情况:给出报错原因可能为类别数对应不上,等待进一步反馈(@yangyaming @caoying)
- 问题描述:MPI任务失败,报错
-
用户群
- 问题描述:知识图谱团队希望PaddlePaddle将源码或依赖库托管到内部Git,以便走上线流程
- 跟进情况:需要进一步和@yongfeng @yuyang 沟通确认(@yanxu)
Caretaker: @liuyiqun @liuyibing
-
- 问题描述:RNN配置英文文档为空
- 跟进情况:@luotao 建议先查看中文文档
-
- 问题描述:如何评估模型的auc以及线上预测相关问题
- 跟进情况:@dangqingqing 解决
-
docker镜像下载地址
- 跟进情况:
docker pull docker.paddlepaddle.org/paddle:0.10.0
或docker pull paddlepaddle/paddle:0.10.0
@liuyongfeng 和@liuyiqun 解决
- 跟进情况:
-
语言模型相关的例子
- 跟进情况:Neural n-gram language model @caoying 提供
-
文本分类例子报错
- 问题描述:
[... layers.py:866] Duplicated layer name: word
- 跟进情况:@caoying 提供解决方案,见PR。
- 问题描述:
-
Paddle二进制是否可以兼容不同cuda驱动版本
- 问题描述:
... hl_cuda_device.cc:453] Check failed: cudaSuccess == cudaStat (0 vs. 35) Cuda Error: CUDA driver version is insufficient for CUDA runtime version
- 跟进情况:待解决
- 问题描述:
-
提交任务没权限
- 跟进情况:@wuyi 私聊解决
-
- 问题描述:mnist v1出现错误,
... MemoryHandle.cpp:140] Check failed: size != 0 allocate 0 bytes
- 跟进情况:@caoying 和@qiaolongfei 提供建议。@caoying 建议检查数据,可能存在batch为空,读数据过程出现问题。
- 问题描述:mnist v1出现错误,
-
- 问题描述:用户自己写的data reader,运行train.py时出现错误,
TypeError: 'generator' object is not callable
- 跟进情况:@yanxu 和@caoying 提供建议并解决
- 问题描述:用户自己写的data reader,运行train.py时出现错误,
-
编译Paddle
- 问题描述:
CMake Error: No CMAKE_Go_COMPILER could be found
- 跟进情况:@liuyibing 提供解决方法,需要手动配置Go编译器( https://golang.org/dl/ )。@liuyongfeng 建议持续更新文档( https://github.com/PaddlePaddle/Paddle/issues/2458 )
- 问题描述:
-
使用浮点数值连续特征,Paddle对输入特征数量是否存在限制
- 跟进情况:@dangqingqing 理论上没有限制
-
- 问题描述:mac os上protobuf出错
- 跟进情况:@liuyiqun 跟进
Caretaker : @qiaolongfei @dangqingqing
-
- 问题描述: paddle_trainer.INFO里auc的计算机制.
- 跟进情况: @qiaoglongfei 和 @caoying 解释了log中的auc信息
-
- 问题描述:训练序列标注模型用于预测新数据,发现预测结果都是空
- 跟进情况:Hi讨论组私聊 @qinglongfei @qingqing @caoying, @caoying在issue中提出建议。
Caretaker : @hedaoyuan @pkuyym (yangyaming)
- v1 outputs layer exception
- problem description : In v1 configuration, user tries to print result of auc_evaluator using outputs and PaddlePaddle throws an fatal exception in type checking.
- fix : Suggest that he should print loss only using outputs and upgrade the configuration to v2 api. The usr asks how to print precision metric and we assign @luotao1 for following up.
Caretaker : @gongweibao @dzhwinter(dongzhihong)
- v1 slot configuration error
- problem description : user config model in v1 API, when the data format cannot match slot config, paddle will crash and throw slot shape exception.
- fix : suggest him upgrade configuration with V2, and assign@dzhwinter @lcy-seso for follow up. thanks @lcy-seso explains the error reason.
Caretaker : @typhoonzer(wuyi) @wanghaoshuang
-
receiver down
- @typhoonzer(wuyi) and @yancey1989(yanxu) fixed.
-
slurm cluster submit fails
- @typhoonzer(wuyi) work in progress.
-
- assign @lcy-seso
Caretaker : @qijun @sunxinghai
-
-
问题描述:想利用PADDLE的训练程序对训练数据进行预测,为加快预测速度,对训练数据按照图片的宽度进行排序,batch_size=32, 然后在network.conf里面增加对输出层的信息输出,在程序运行完成后,发现log里面的输出信息有丢失。
-
跟进情况:@qijun 待进一步跟进解决
-
-
-
问题描述:Error : Wrong number or type of arguments for overloaded function 'IVector_create'
-
跟进情况:@lcy-seso 已解决,是用户配置网络不当造成的
-
Caretaker : @gangliao @guosheng
-
-
问题描述:没有定义prelu的接口,activation func只定义了brelu,softrelu和relu函数,而且好像也没有完整的说明文档。请教一下如果想用prelu的话需要怎么修改接口呢。
-
跟进情况:@lcy-seso 正在解决
-
-
-
问题描述:The documentation of building doc is not consistent with the code.
-
跟进情况:@luotao1 答疑中
-
-
-
问题描述: semantic_role_labeling demo中预测predict.sh无法跑通
-
跟进情况:@lcy-seso 已解决 :建议使用 paddle book 下 SRL 相关的代码。demo 目录下旧版本的 paddle 例子目前已经被移除。
-
-
-
问题描述:Is cuDNN/BLAS, MKL, Neon all BLAS compatible?
-
跟进情况:@gangliao 答疑中
-
-
-
问题描述: Markdown documents can not use Chinese link
-
跟进情况: @luotao @Qijun 待跟进
-
-
总结: 5个issue中,其中有三个与代码文档的一致性有关,建议开展文档梳理工作。
Caretaker: @luotao @fengjiayi
-
Threaded MKL for paddle #2379
问题描述:在Intel Xeon Phi上跑Paddle,启动10个trainer。用多线程的MKL库libmkl_intel_thread.so,比使用单线程的MKL库libmkl_sequential.so,来的慢。
- 跟进情况:@liuyiqun01 排查中。
-
FC等layer的序列信息在哪里被保存下来?
- 跟进情况:已引导提问到 Issue #2377,并完成解决。
-
book里面对于image的输入都是flatten成一维vector以后读入的,data layer也没有指定width和height,那是如何实现convolution的呢?
- 跟进情况:已引导提问到 Issue #2380,并完成解决(@dangqingqing 帮忙)。
-
按照示例脚本提交任务至MPI集群,训练完成后模型参数没有上传到HDFS。
- 跟进情况:升级示例脚本,已经解决。
-
MPI集群任务,修改MPI集群后提交失败
- 跟进情况:武毅(@wuyi)排查中。
-
相关性问题如何处理
- 跟进情况:已引导提问到 Issue #2382,排查中。