Skip to content
This repository has been archived by the owner on Aug 16, 2022. It is now read-only.

Latest commit

 

History

History
8 lines (6 loc) · 1.64 KB

7.how-large-do-the-dev-and-test-sets-need-to-be.md

File metadata and controls

8 lines (6 loc) · 1.64 KB

7. 开发集/测试集需要多大?

开发集应该足够大,以检测你尝试的算法之间的差异。例如,如果分类器A具有90.0%的精确度,分类器B具有90.1%的精确度,那么100个样本的开发集将不能检测出这0.1%的精度差异。从我看到的机器学习算法来看,100个样本的开发集太小了。常见的开发集的大小在1,000到10,000个样本之间。有10,000个样本,你将有很好的机会检测到这0.1%的提升。

在理论上,我们可以测试算法的变化是否对开发集产生统计上显着的性能差异。 在实践中,大多数团队不会为此困扰(除非他们出版学术研究论文),我发现通常统计显著性测试对衡量临时进展是没什么用的。

​对于成熟和重要的应用,例如广告投放,网络搜索和产品推荐 --- 因为算法性能对公司的利润有直接影响,我也看到了很多团队,甚至为提升0.01%性能而竭尽全力。在这种情况下,开发集大小可以远大于10,000,以便检测出更小的提升。 ​ 那么测试集的大小应该多大?它应该足够大到能使系统的整体性能有一个高的置信度。一个流行的启发式方法是将30%的数据用于测试集。当你有适量的样本,比如100到10,000的样本,它会工作的很好。但在大数据的时代,我们现在面临的机器学习问题有时会超过十亿个样本,这时我们分配给开发集/测试集的比例一直在缩小,即使开发集 /测试集中的样本绝对数量一直在增长。满足了评估算法的性能需求之后,没有必要提供过大的开发集/测试集。