时间差分算法(Temporal difference methods,TD)是一类模型无关的强化学习算法.该算法拥有较低的方差和可以在线(On-line)学习的优点,得到了广泛的应用.但对于一种给定的TD算法,往往只能通过调整步长参数或其他超参数来加速收敛,这也就造成了加速TD算法收敛的方法匮乏.针对此问题提出了一种利用蒙特卡洛算法(Monte Carlo methods,MC)来加速TD算法收敛的方法(Accelerate TD by MC,ATDMC).该方法不仅可以适用于绝大部分的TD算法,而且不需要改变在线学习的方式.为了证明方法的有效性,分别在同策略(On-policy)评估、异策略(Off-policy)评估和控制(Control)三个方面进行了实验.实验结果表明ATDMC方法可以有效地加速各类TD算法.
电容式触摸按键(Capacitive Touch Keys,CTouch)因灵敏度高、功耗低和无机械磨损等优点,越来越多地使用在高端乘用车的车门控制系统中。目前市场上使用电容式触摸按键的车门产品存在环境适应性差和抗干扰能力差的问题。主要体现在不能有效拟制雨水干扰和电磁干扰,用户体验差。针对电容式触摸按键环境适应性差和干扰抑制能力差问题,本文设计了一款基于电容分压原理的电容式触摸按键系统,创新的自适应环境补偿机制、时间差分算法(TPD,Time Per Deviation)和定点峰值算法(FTP,Fixed Time Peak)能够有效抑制雨水干扰和电磁干扰。该系统使用Microchip公司PIC16LF1559微控制器。设计满足中国一汽集团的《JA3700-MH-3》(电磁兼容)、《JA3700-MH-6》(环境和耐久性)和《JA3700-MH-4》(电气性能)标准。为了加强系统的环境适应能力,本文在检测算法上提出了自适应环境补偿机制,通过四种环境检测值维护机制,包括上电维护、负值维护、滑动窗维护和超时维护机制,抵消环境变化带来的影响。为了提高雨水干扰和电磁干扰抑制能力,提出了TPD算法和FTP算法。以检测信号的差分值和峰值作为特征,识别人手信号并抑制干扰信号。同时,为满足客户对系统软件的在线更新需求,本文还开发了Bootloader功能。该系统通过了客户指定的第三方检测机构的严格测试,包括环境和耐久测试、电气性能测试、电磁兼容测试以及防雨水测试。测试结果表明,该系统能够获得很好的按键感知功能,且具有良好的环境适应性、鲁棒性和抗扰能力,满足用户要求。目前,该系统已经应用在某高端车型上,进入量产。
暂无评论