通过激光混沌时分复用技术实现可扩展光子强化学习
浏览量(250)
近日,日本情报通信研究机构(NICT)研究人员通过引入混沌振荡超快时间序列的时分复用,证明了一种可扩展的、流水线化的解决多臂赌博机(Multi-armed Bandit)的原理。并给出了多达64臂赌博问题的实验证明。该研究成果以" Scalable photonic reinforcement learning by time-division multiplexing of laser chaos "为题发表在7月18号出版的《Scientific Reports》上。
强化学习涉及动态和不确定环境下的决策,是人工智能的重要组成部分。以前的工作中,实验证明了激光的超快混沌振荡动力学可以有效地解决双臂赌博机(Two-armed Bandit)问题,这就需要对一种叫做探索-利用困境(Exploration-exploitation Dilemma)的困难权衡做出决策。然而,在这项研究中只使用了两种选择,因此,应该澄清激光混沌强化学习的可扩展性。在本研究中,作者通过引入混沌振荡超快时间序列的时分复用,证明了一种可扩展的、流水线化的解决多臂赌博机的原理。并给出了激光混沌时间序列明显优于准周期信号、计算机生成的伪随机数和有色噪声的多达64臂赌博问题的实验证明。详细分析了在不同物理条件下产生的激光混沌信号的性能比较,这与时间序列固有扩散性是一致的。本研究利用光波的超高带宽和实用的辅助技术,为超快强化学习铺平了道路。
基于激光混沌的可扩展强化学习体系结构
分享至好友和朋友圈
免责声明:
网站内容来源于互联网、原创,由网络编辑负责审查,目的在于传递信息,提供专业服务,不代表本网站及新媒体平台赞同其观点和对其真实性负责。如因内容、版权问题存在异议的,请在 20个工作日内与我们取得联系,联系方式:021-80198330。网站及新媒体平台将加强监控与审核,一旦发现违反规定的内容,按国家法规处理,处理时间不超过24小时。