首页 > 科技资讯 > 正文

热闻

  • 图片

2050大会丨“深度强化学习”论坛,我们一起聊点什么?

2014年,我还是一个在英国伦敦大学学院计算机系的留学生,有一天突然有一个叫做Demis Hassabis的人到我们学校做演讲,展示了如何用深度强化学习训练出超越人类玩家水平的Atari 2600游戏智能。

在我们都惊讶于打砖块游戏中AI是如何每次都把球打到砖块层上面去完成很多次反弹时,Demis无比帅气地提出了一个概念Artificial General Intelligence,即通用。通用人工智能主要有两个特点,一是端对端(end-to-end)的学习,二是任务自适应, 无需人类调参而胜任不同的任务。从那时起,Deepmind给无数学者、工程师以及吃瓜群众植入了一个观点,即深度强化学习是打开通用人工智能大门的钥匙。

从那以后到现在的四年时间里,深度强化学习得到了迅猛的发展,被视为机器学习领域的明星方向。Deepmind开发的AlphaGo围棋智能打败了李世石、柯洁。Facebook在DOTA2游戏中打败了顶级职业选手。CMU团队研发的德州扑克AI冷扑大师轻松击败顶级玩家。Deepmind运用深度强化学习优化了数据中心的耗能。谷歌则利用深度强化学习完成深度神经网络的自动架构搜索,提出了酷炫无比的AutoML服务,借此将机器学习作为一种服务推广到千家万户。

深度学习

中国的技术公司并不示弱,其实,他们做得更加激进,用深度强化学习做直接跟钱挂钩的业务落地。阿里、腾讯、百度、滴滴和天壤等国内团队将深度强化学习应用到搜索、推荐、营销、派单和路径规划等实际问题的决策任务中。并且有公司宣称自己使用了深度强化学习在产品中。

一切看起来都是如此华丽而美妙,利用深度强化学习我们已经无限接近通用人工智能,不是么?当然不是!

深度强化学习,顾名思义,将深度神经网络整合到强化学习框架当中。两者恰恰是机器学习领域中最难调试成功的两个子类。正如谷歌大脑团队研究员Alex Irpan所说,深度强化学习是个大坑,别着急进坑!它的成功案例其实不算很多,但每个都太有名了,导致不了解的人对它产生了很大的错觉,高估能力从而低估了难度。

没错,从学术论文到PR软文,人们只会展示华丽的成功案例,没有人会仅仅展示失败的案例。然而做过深度强化学习的科学家和工程师其实都深知,这是一个连随机种子都会大大影响学习效果的模型框架。同样的模型,训练10次可能7次是失败的,3次是成功的。以至于在深度强化学习圈子里面有“随时种子工程”的自嘲概念。

其次,深度强化学习及其容易过拟合到智能体当前交互的环境中,所以环境稍有改变,之前看起来表现出色的智能体很可能变成一个犯低级错误的傻子。另外,深度强化学习需要超级超级多的数据和超级超级强大的算力支持,而如果将场景扩展到多智能体的深度强化学习,那么需要的数据和算力是呈指数级上升的,这是一个极其烧钱的行业。

人工智能

有了深度强化学习,我们离通用人工智能还远吗?

我们是站在智能奇点面前,还是离它仍然遥不可盼?

如果深度强化学习最终能实习通用人工智能,世界的格局是什么样子,至少,在普及通用人工智能的过程中,世界将会如何变化?

面对这一系列犹如科幻小说构思般的问题,每个人都有自己的见解。而我们通过问自己这些问题,能否对当前我们在实现通用人工智能道路上做出新的改变?

云栖,世界的有志年轻人相聚在一起。我们聚集了在深度强化领域的11位国内外顶级学者和产业界大牛来畅谈他们在关心的场景中和深度强化学习的恩怨情仇,在通向通用人工智能的路上的酸甜苦辣。

“如何建成天壤围棋智能的罗马城?”

围棋自我学习中的若干问题探讨

张雷-天壤智能CTO

张雷,天壤智能CTO,负责公司深度强化学习技术的研发和应用。在加入天壤智能之前,张雷在百度搜索广告部门任主任架构师。在此之前,张雷在IBM中国研究院任高级研究员,领导了IBM DeepQA开放问答系统中国团队的技术工作。该问答系统在2011年战胜了人类冠军选手,并演化为如今的IBM Watson系统。

“随着机器智能的提升,人类如何与机器协作,利用其提升人类自身的能力?”

人机协作技术与挑战

袁泉-启元世界(inspir.ai)创始人兼CEO

袁泉,启元世界(inspir.ai)创始人兼CEO,前阿里认知计算实验室资深总监,淘宝推荐算法创始人,曾获双11 CEO特别贡献奖。加入阿里之前,袁泉是IBM中国研究院的研究员。

“我们是如何借助深度强化学习迎战双十一?”

强化学习在展示广告实时竞价中的应用

靳骏奇

靳骏奇,来自阿里妈妈精准展示技术算法团队,从事机器学习在互联网广告系统应用方面的研究工作。靳骏奇在清华大学自动化系获得工学学士、工学博士学位,在清华大学经济管理学院获得经济学学士学位。

“如何用强化学习支撑阿里搜索排序?”

游戏之外:电商场景下强化学习建模与应用

曾安祥

曾安祥,阿里巴巴资深算法专家.于2009年加入阿里巴巴,作为淘宝搜索的创始人之一,先后参与组建了Query分析团队和排序团队等算法团队,在工作中追求卓越,和伙伴们一起创造了在全球范围内领先的商品搜索技术。专注于大规模机器学习,在线学习等技术,近两年来,他的团队主要研究深度学习与强化学习等技术在电商环境中的大规模实际应用。

“强化学习如何赋能阿里广告主?”

强化学习在搜索营销客户优化中的实践与思考

仇光

仇光,博士,阿里巴巴集团阿里妈妈事业部高级算法专家,负责搜索营销客户优化方向的算法工作。2005年本科毕业于浙江大学,获得计算机科学与技术专业学士学位,同年保送直接攻读博士学位,师从陈纯院士,于2010年获得博士学位。2008-2009年在美国芝加哥大学Bing Liu教授访问学者。

“如何自动设计有趣的游戏?”

Learning to Design Games: Strategic Environment in Reinforcement Learning

海峰

Haifeng Zhang is a PhD student in the Department of Computer Science, Peking University. His research interests include reinforcement learning, game playing and computational advertising. He has published research papers in professional conferences and journals, such as IJCAI, WSDM, CIKM and Journal of Software. Haifeng also visited University College London as a joint PhD student. He obtained his Bachelor Degree in Peking University.

“如何将虚拟环境迁移到物理环境、以及物理环境虚拟化?”

强化学习:从虚拟走向现实

俞杨

俞扬,博士,南京大学副教授。主要研究领域为机器学习、强化学习,目前研究集中于提升强化学习样本利用效率。分别于2004年和2011年获得南京大学计算机科学与技术系学士学位和博士学位,获2013年全国优秀博士学位论文奖、2011年CCF优秀博士学位论文奖。2011年8月加入南京大学计算机科学与技术系、机器学习与数据挖掘研究所(LAMDA)从事教学与科研工作。发表论文40余篇,包括多篇Artificial Intelligence、IJCAI、AAAI、NIPS等,获得5项国际论文和竞赛奖。

“语言学习如何支持通用人工智能?”

Language grounding with human hindsight advice

yuhuai

Yuhuai Wu is a 3rd year PhD student at University of Toronto, under the supervision of Roger Grosse. In the past, he was a student of Geoffrey Hinton, Yoshua Bengio, and Ruslan Salakhutdinov. He is a recipient of Google PhD Fellow in machine learning of 2017. He had done an internship at OpenAI in 2017 with John Schulman and Pieter Abbeel, and will join Deepmind for an internship in the summer of 2018. His main research interests are reinforcement learning and optimization.

“智能体之间如何有效通讯?”

Communication in Multi-Agent Reinforcement Learning

yingwen

Ying Wen is a PhD Candidate in the Department of Computer Science, University College London. His research interests include reinforcement learning and deep learning techniques for real-world scenarios, such as computational advertising, multi-agent system. He has published several papers in international journals and conferences, such as AAMAS, IJCAI, ICDM. Ying earned his MRes with Distinction Honor from University College London in 2016 and B.Eng. with First Class Honor from Queen Mary, University of London and Beijing University of Posts and Tel. in 2015. He was an intern at MediaGamma, Amazon and Baidu.

“如何寻找通往无间断强化学习之路?”

Deep Reinforcement Learning for Robotics: Frontiers and Beyond

shixiang

Shixiang (Shane) Gu is a PhD candidate at University of Cambridge and Max Planck Institute for Intelligent Systems, where he is co-supervised by Richard E. Turner, Zoubin Ghahramani, and Bernhard Schoelkopf. He holds BASc. in Engineering Science from University of Toronto, where he completed this thesis with Geoffrey Hinton. His research interests span deep reinforcement learning, deep learning, robotics, approximate inference and causality, and his research has been featured by MIT Technology Review and Google Research Blog. He also collaborates closely with Sergey Levine from UC Berkeley/Google Brain and Tim Lillicrap from DeepMind. He will start as a research scientist at Google Brain in the summer 2018.

“如何用强化学习来完成学习本身?”

Learning how to Active Learn: A Deep Reinforcement Learning Approach

刘晗

刘晗,腾讯AI Lab机器学习负责人;Meng Fang is a senior research scientist at Tencent AI Lab, focusing on developing novel reinforcement learning models and applying them to real-world applications. Prior to Tencent, Meng was a member of NLP group at University of Melbourne and worked on the DARPA LORELEI Project, collaborating with Carnegie Mellon University, primarily about low resource language processing and exploiting sparse human supervision. His research interests are in the areas of natural language processing, deep learning and reinforcement learning.

it资讯 化工资讯 农业信息 五金资讯 医药资讯 电商资讯 财经理财 小说 美食资讯 时尚资讯 人工智能 娱乐资讯 科技资讯 面试技巧 新能源 教育资讯