同一个batch中相同的句子一起输入模型，在这一次正向传播中 dropout是一样的吧? #12

lihaixiang · 2021-10-24T03:26:27Z

No description provided.

HitAgain · 2022-03-01T08:12:21Z

同问，相当于正例通过的是同一个模型，这个和原论文不符合~

Doufanfan · 2023-01-07T16:40:57Z

一个batch内的dropout mask理论上是一样的，一个batch同一个句子重复两遍，经过的也是相同的dropout mask，理论上encoder输出的向量是一样的，感觉没有引入dropout noisy啊

——
尴尬😓review了一遍dropout层的实现，正常在不传入noisy_shape时，noisy_shape默认与input shape一致，即[N,xx,xx]或[N,xx]，这样dropout mask是样本维度，所以重复的样本会计算不同的dropout mask，实现和原论文逻辑一致。

Provide feedback