
在机器人运动会的足球5V5决赛上,再次上演了证明中国科技实力的一幕。清华火神队的「大力射门」算法在关键时刻发挥作用,成功气走劲敌的德国队HT⁃WK Robots+Nao Devils(下称「德国HTWK」),也将世界首场全自主机器人5V5足球赛冠军留在中国。
新京报报导,2009年,德国HTWK开始训练机器人「踢」足球,2018年获RoboCup标准平台(SPL)冠军,今年7月夺得RoboCup小型组冠军;面对这样的劲敌,直到比赛结束哨声吹响的前一刻,清华火神队都没有获胜的绝对把握。
然而在决赛当天,火神队在上半场12分钟,以一记远射拿下关键1分,最后始终咬紧优势,成功赢得胜利。在比赛结束时,所有队员击掌欢呼,围住写下「大力射门」算法的队员王与时,将他抛向空中,庆祝他的算法为火神队再拿下一个冠军。
强化学习 达成连贯策略
「大力射门」算法是火神队独有的策略,相较于3V3比赛,5V5比赛的场地更宽阔,对机器人踢球的速度要求更高。「大力射门」是王与时基于深度强化学习设计出来的算法,当识别到外部环境达到射门的条件时,机器人就会将控制策略切换为该算法训练出的模型。
报导指出,目前机器人使用的算法基本都是分层模型,运行动作的时候需要分阶段进行,导致机器人踢球时出现决策延迟,与踢球动作脱节,从而丧失最佳射门时机。今年年初,王与时开始思考利用强化学习的方式实现「找球-追球-踢球」全过程的连贯统一策略,于是就想到了利用端到端强化学习的技术范式训练该策略,增加机器人射门机会。
测试过程并不顺利,王与时在写这套算法时也经历过无数次失败。今年3月,他第一次将此套算法在仿真环境中部署到真实物理场景中尝试,尽管动作不太优雅、踢球的力度不是很大、准确度也并不高,甚至还会摔倒,但至少可以完成,也就是从那个时候起,王与时和团队看到了该算法的可行性。他们不断调整参数,反复尝试机器人与球门的角度、与球的位置达到何种角度射进门的概率更大。在赛前准备时,他每晚都要将机器人和球放在训练场上不同的位置测试成功率,测试更合适的射门角度。
想赢得比赛,仅靠「大力射门」还不够,更需要考虑的是团队之间的配合策略。在5V5赛场上,机器人「叠罗汉」、「摔倒」的频率远高于3V3赛场,一旦场上多了两个球员,机器人感知决策的逻辑链条就会变得更难设置。火神队队长罗长盛表示,「距离正式比赛还剩最后几个小时的时候,我们才写好了一套新的算法。」
赛前几小时 新算法出炉
因为与德国HTWK有过两次交锋,罗长盛和团队开始研究对手的策略,「我们前几天熬夜研究德国队的战术,发现他们只有一个球员带球,所以我们的策略就是轮流上去传球,而不是一窝蜂地上去传球」,事实上该策略也获得了很好的效果。
火神队2005年开始征战RoboCup,直到今年7月前,最好的成绩是亚军。而清华火神队前任队长陈蓬辉的快速起身算法、王与时的端到端算法,结合加速进化人形机器人T1的硬件能力,刷新了得奖纪录。
「今年我们不但拿到了冠军,还推动组委会做了很大的改革,包括很多关键性的技术和比赛的方式。」清华大学自动化系研究员、机器人控制实验室主任赵明国表示,例如去掉了机器人背后的保护员、保证硬件能力能够支持3V3比赛、快速起身保证比赛流畅度等。
今年4月,在Robo⁃Cup新加坡公开赛上,组委会同意使用火神队的3V3足球赛Demo。而这次公开赛也传递出一个信号:中国机器人的算法和硬件已经能做出比原来2V2足球赛更好的效果。
不再冲撞 实现通信配合
当机器人在球场上不再冲撞守门员,能够很好地实现通信、配合队友传球时,也许也能够合作搬起一把椅子,在家庭里穿梭时不会撞到老人、孩子。RoboCup机器人世界杯国际联合会副主席、RCAP亚太机器人世界杯国际理事会主席周长久说表示,「足球赛事真正是机器人技术的标准测试,同时也是一种展示」。
在周长久看来,世界人形机器人运动会有发展成机器人奥运会的可能。「对人形机器人产业未来发展而言,它构建的生态系统将起到标竿作用,发挥每个参与国的优势。世界各地都可能举办类似的比赛。但无论比赛在哪个国家或地区举行,大家都将意识到这一赛事起源于中国北京。」