扫码打开虎嗅APP
在上一支视频中我们提到过,强化学习中的主体会依据环境采取行动,使用神经网络构建强化学习主体的方法,就是深度强化学习。
游戏、机械臂、自动驾驶,强化学习面对的情景多种多样,环境、行为、回报很难穷尽。但只要有输入就一定会有输出,神经网络面对没有见过的情况也能做出选择,这就是我们使用深度强化学习的原因。
别打CALL,打钱
0人已赞赏
好的内容,值得赞赏
您的赞赏金额会直接进入作者的虎嗅账号