-
Notifications
You must be signed in to change notification settings - Fork 27
模型复现 #11
New issue
Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.
By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.
Already on GitHub? Sign in to your account
Comments
一般100个epoch能到ExpRate=35左右,然后添加noise,再训100个epoch能到ExpRate=45左右。即训到模型收敛,仅需200个epoch,一般都是200以内
… 2021年4月14日 下午7:14,Jorsen0 ***@***.***> 写道:
您好,我尝试使用pytorch架构的v2模型进行复现,在实现整个模型的搭建后,两个架构分别传入相同的输入和权重,验证了Tracker输出ctx、Attention输出ctxs、Parser输出proj_h、模型类别输出概率probs、损失值cost等值均相等,优化器使用带有梯度截断的adadelta,使用相同数据集和配置参数进行训练(唯一的区别是没有添加noise),然而训练了超过400个Epoch模型并为收敛。
是我训练的Epoch还没足够才会未收敛么?请问您训练了多少个Epoch模型可以收敛呢?
还是需要其他的策略才能让模型收敛呢?
期待您任何有帮助的回复。
—
You are receiving this because you are subscribed to this thread.
Reply to this email directly, view it on GitHub <#11>, or unsubscribe <https://github.com/notifications/unsubscribe-auth/AETNJULXWOYEGOCWHS2FJQ3TIV2KVANCNFSM425FR3AQ>.
|
好的,感谢您的回复 |
您好,您使用pytorch复现的代码可以分享一下么? |
您好,我尝试使用pytorch架构的v2模型进行复现,在实现整个模型的搭建后,两个架构分别传入相同的输入和权重,验证了Tracker输出ctx、Attention输出ctxs、Parser输出proj_h、模型类别输出概率probs、损失值cost等值均相等,优化器使用带有梯度截断的adadelta,使用相同数据集和配置参数进行训练(唯一的区别是没有添加noise),然而训练了超过400个Epoch模型并为收敛。
是我训练的Epoch还没足够才会未收敛么?请问您训练了多少个Epoch模型可以收敛呢?
还是需要其他的策略才能让模型收敛呢?
期待您任何有帮助的回复。
The text was updated successfully, but these errors were encountered: