这里有组合多个评估指标的另一种方法。
假设你同时关心学习算法的准确率和运行时间。你需要在如下三个分类器中进行选择:
将准确率和运行时间通过如下一个公式得到单个评估指标的做法会看起来不太自然,例如:
Accuracy − 0.5*RunningTime
你可以这样做:首先,定义一个“可接受” (acceptable) 的运行时间。例如任何运行时间在100ms以内的算法都是可接受的。然后,根据满足运行时间标准的分类器,最大化准确率。这里,运行时间就是一个 “满足性指标” (satisficing metric) --- 你的分类器只要在这个指标上表现得“足够好” (good enough) 就行,比如只需要不超过100ms即可。准确率是一个 “优化指标” (optimizing metric)。
如果你正在权衡 N 个不同的标准,例如模型的二进制文件大小(这对于移动app很重要,因为用户不想要下载很大的app)、运行时间和准确率,你可以考虑将其中 N-1 个标准设置为“满足性指标”。也就是说你只需要他们满足特定的值即可。然后将最后一个定义为“优化指标”。例如,将二进制文件大小和运行时间设定到一个可接受的阈值之下,并尝试在给定这些约束条件的情况下,不断优化准确率。
作为最后一个例子,假定你正在构建一个硬件设备,该设备使用麦克风监听用户说出的某个特定的“唤醒语” (wakeword),从而唤醒系统。例如:Amazon Echo监听“Alexa”;苹果Siri监听“Hey Siri”;Android监听“Okay Google”;百度app监听“Hello Baidu”。你同时关心 假阳性的比率 (false positive rate, FPR) --- 当没有人说唤醒语时系统唤醒的频率和 假阴性的比率 (false negative rate, FNR) --- 当有人说出唤醒语时系统没有唤醒的频率。该系统性能的一个合理目标是最大限度的减少假阴性的比率,同时满足每24小时操作出现不超过一个假阳性的例子。这就是说假阴性比率是优化指标,假阳性指标是满足性指标。
一旦你的团队关于优化哪个评估指标达成一致意见,他们将能够取得更快的进展。