前言
利用Python出个强化学习的Chrome浏览器的小恐龙游戏版本吧。废话不多说,让我们愉快地开始吧~
开发工具
Python版本: 3.6.4
相关模块:
opencv-python模块;
numpy模块;
selenium模块;
pillow模块;
以及一些Python自带的模块。
环境搭建
安装Python并添加到环境变量,pip安装需要的相关模块即可。
原理简介
T-Rex Rush是谷歌浏览器里自带的一个彩蛋小游戏,电脑断网的时候按下空格键就可以触发。或者直接访问如下链接也可以:
https://chromedino.com/
大概长这个样子:
玩法很简单,玩家通过操纵空格键来控制小恐龙跳跃或者不跳跃,从而躲避路上的障碍物。当小恐龙不小心撞到障碍物时,游戏结束。
之前我们设计过用简单的强化学习算法来自动玩这个游戏:
DQN玩T-Rex Rush(上)
今天我们不打算搞这些花里胡哨的东西,直接设计一个简单的策略,就可以轻松实现上万的跑分:
具体而言,你只需要每次截取小恐龙前面的图像区域,然后检测一下是否有障碍物出现就ok了:
具体而言,截取图像的函数实现如下:
'''screenshot'''
def screenshot(self, area):
image_b64 = self.driver.execute_script("canvasRunner = document.getElementById('runner-canvas'); return canvasRunner.toDataURL().substring(22)")
image = Image.open(BytesIO(base64.b64decode(image_b64))).convert('RGB')
image = image.crop(area)
return image
根据截图来生成小恐龙当前需要进行的动作的智能体实现如下:
'''agent'''
class Agent():
def __init__(self, bbox_area, **kwargs):
self.bbox_area = bbox_area
self.bg_color = 255
self.reference_frame = np.full((bbox_area[3]-bbox_area[1], bbox_area[2]-bbox_area[0], 3), self.bg_color)
'''return action according to the game frame'''
def act(self, frame):
action = [1, 0]
frame = np.array(frame)
if self.bg_color != frame[0][0][0]:
self.bg_color = frame[0][0][0]
self.reference_frame = np.full((self.bbox_area[3]-self.bbox_area[1], self.bbox_area[2]-self.bbox_area[0], 3), self.bg_color)
diff = np.subtract(self.reference_frame, frame).sum()
if diff != 0:
action = [0, 1]
return action