请问`18. 在深度神经网络中，引入了隐藏层，放弃了训练问题的凸性，其意义何在` 该如何解答？ #1

imhuay · 2018-06-07T13:20:16Z

原书 p119-122 主要在将激活函数，应该怎样回答该问题？

elviswf · 2018-06-10T16:22:31Z

原书 p119-122讲了几种隐藏层的设计。我个人结合资料回答这个问题：

加入隐藏层，训练问题不再是一个凸优化问题，放弃凸性意味着神经网络很难训练出最优解。“1993年Blum和Rivest发现的事实更糟：即使一个只有两层和三个节点的简单神经网络的训练优化问题仍然是NP-hard问题。”（http://baijiahao.baidu.com/s?id=1561255903377484&wfr=spider&for=pc）
"幸运的是我们在实践中可以非常高效地接近这些最优结果：通过运行经典的梯度下降优化方法就可以得到足够好的局部最小值。"（http://baijiahao.baidu.com/s?id=1561255903377484&wfr=spider&for=pc）
意义是增强了模型的学习（或者称拟合）能力，如原书中说“maxout单元可以以任意精度近似任何凸函数”。至于放弃凸性后的优化问题可以在结合工程实践来不断改进。 “似乎传统的优化理论结果是残酷的，但我们可以通过工程方法和数学技巧来尽量规避这些问题，例如启发式方法、增加更多的机器和使用新的硬件（如GPU）。”

imhuay · 2018-06-11T02:29:02Z

非常感谢！！

imhuay closed this as completed Jun 11, 2018

Provide feedback