开发集应该足够大,以检测你尝试的算法之间的差异。例如,如果分类器A具有90.0%的精确度,分类器B具有90.1%的精确度,那么100个样本的开发集将不能检测出这0.1%的精度差异。从我看到的机器学习算法来看,100个样本的开发集太小了。常见的开发集的大小在1,000到10,000个样本之间。有10,000个样本,你将有很好的机会检测到这0.1%的提升。
在理论上,我们可以测试算法的变化是否对开发集产生统计上显着的性能差异。 在实践中,大多数团队不会为此困扰(除非他们出版学术研究论文),我发现通常统计显著性测试对衡量临时进展是没什么用的。
对于成熟和重要的应用,例如广告投放,网络搜索和产品推荐 --- 因为算法性能对公司的利润有直接影响,我也看到了很多团队,甚至为提升0.01%性能而竭尽全力。在这种情况下,开发集大小可以远大于10,000,以便检测出更小的提升。 那么测试集的大小应该多大?它应该足够大到能使系统的整体性能有一个高的置信度。一个流行的启发式方法是将30%的数据用于测试集。当你有适量的样本,比如100到10,000的样本,它会工作的很好。但在大数据的时代,我们现在面临的机器学习问题有时会超过十亿个样本,这时我们分配给开发集/测试集的比例一直在缩小,即使开发集 /测试集中的样本绝对数量一直在增长。满足了评估算法的性能需求之后,没有必要提供过大的开发集/测试集。