每个孩子都应该有机会学习计算机

“AlphaGo战胜围棋世界冠军!”

演讲|「AlphaGo 之父」David Silver最新演讲

 

想必是去年每个人都听到过的话题,而AlphaGo项目的负责人正是David Silver,因此很多人称David Silver为AlphaGo之父。

演讲|「AlphaGo 之父」David Silver最新演讲

 

9 月 9 日-14 日,Deep Learning Indaba 2018 大会在南非斯泰伦博斯举行。会上,DeepMind 强化学习研究小组负责人、首席研究员、AlphaGo 之父David Silver 发表演讲,介绍了强化学习的十大原则。

Silver的演讲中提出的强化学习10大要点涵盖涉及算法评估状态控制建模函数等方面的心得和建议,非常值得开发者和机器学习爱好者参考学习。

01

原则一:评估方法推动发展

1)客观、量化的估计会产生进步,对评估尺度的选择会决定进步的方向。

2)重要的是对结果的理解,而不是一味地追求排名。

02

算法的可扩展性决定是否成功

1)算法的可扩展性是指其性能随资源的梯度变化。这里的资源可能是计算、存储和数据。

2)算法的可扩展性决定了能否项目能否成功,它几乎永远比算法的起点重要。最终,好的算法总是无限资源条件下的最优解决方案。

03

稳定算法的通用性

1)算法通用性是指算法在不同深度学习环境下的表现。

2)要广泛验证,建立现实的机器学习环境。

04

信任智能体的经验

1)经验(包括观察、动作、奖励)是指深度学习的数据。

2)信任这些经验,将其作为唯一知识来源。尽管这些经验看上去不可学习,但最终长期来看,经验终将取得成功。

05

状态是主观的

1)智能体应该基于经验建立自身的状态,智能体的状态是关于其先前状态和新观察数据的函数。

2)任何时候不要定义某一环境下的“真实”状态。

06

控制数据流

1)智能体处于大量数据流传感器环境中,智能体的行为会对数据流造成影响。

2)控制特征——控制数据流——控制未来——实现任何回报的最大化。

07

价值函数可以对世界建模

1)价值函数是对未来的高效归纳和缓存。多关注固定时间段的查找,而非指数级的前瞻。

2)可以独立计算和学习。利用多价值函数可以在不同时间范围内,对世界各个方面进行高效建模。

3)应避免使用原始的时间步长对世界进行建模。

08

从想象的经验中进行学习

想象接下来会发生什么,从想象的经验中进行学习,同时关注在当前时刻的值函数估计。

09

加强函数逼近器

1)差异化网络架构是一种有力工具,可以用来:以丰富的方式表示状态,实现差异化存储、差异化规划、层级控制。

2)将算法的复杂性融入网络架构,可以降低算法的复杂度,增加网络架构的可表达性。

10

要学习“如何学习”

人工智能的发展史呈现出一条清晰的发展脉络。

第一代:“美好的”老式人工智能。手动控制预测,不学习任何内容。

第二代:浅度学习。手动控制特征,学习预测。

第三代:深度学习。手动控制算法(优化器、目标、架构),学习特征和端对端预测。

第四代:Meta学习。无手动环节,学习算法、特征和端对端预测。

这十条建议在学习方面可以延伸出这几点建议:

★五大建议★

1)除了成绩排名,更要分析成绩背后存在的问题。

一张试卷的分数代表了这场考试前你的学习水平,并不代表之后的学习成绩,因此更重要的是分析成绩背后存在哪些待改进的问题。比如学习态度、学习方法、学习环境等。

2)不同学习程度的孩子要以不同的评价标准去判断。

比如原来孩子排在班级20名,这次排在第10名,就是有进步的,不能一味地要和班级第一或年级第一。而应该和之前的自己作比较。

3)总结进步和退步的原因,这很重要。

比起看自己对了哪些题目,更重要的是看错了哪些题目,然后查漏补缺,掌握这些之前没掌握的知识点。

4)学会对未来进行预估,尽可能把事情做在前面。

不能一味地拖延,因为谁也不知道未来还有多少事情在等着你做。

5)要学会学习。

不能把学习等同于看书、作业,而应该知道最重要的是掌握学习的方法,掌握了学习方法,就可以在不同学科快速掌握各种知识。

不知道这五条学习建议有没有给你一点帮助呢?

演讲|「AlphaGo 之父」David Silver最新演讲

 

helloworld少儿编程

 

电话:17361882359

地址:南京市玄武区仙鹤新天地广场2栋-302

www.helloworldroom.com

欢迎来电咨询,还可以预约试听噢!