自从E. J. Corey提出逆合成分析,利用计算机来辅助合成路线设计一直是有机化学家的愿景。现有的大多数的方法都是基于反应规则模板来预测合成路线,主要分为两种,分别是专家手写规则和自动反应规则提取。但是,手写反应规则耗时耗力,而新...
详细信息
自从E. J. Corey提出逆合成分析,利用计算机来辅助合成路线设计一直是有机化学家的愿景。现有的大多数的方法都是基于反应规则模板来预测合成路线,主要分为两种,分别是专家手写规则和自动反应规则提取。但是,手写反应规则耗时耗力,而新的有机反应规则一直在不断增长,这也给这种基于模板的开发策略带来一定困难。而自动反应规则提取的提取算法本身存在一定缺陷,而且仅考虑了反应中心和邻近原子,很难准确的描述好化学反应。最近几年基于深度学习的seq2seq模型提供一种端对端的策略,只需要输入目标分子的SMILES表达式,就能预测出产物到原料的单步逆合成分析结果。在此,我们进一步报道了一种新策略来做逆合成路线预测。基于目前最好的机器翻译模型Transformer,我们发展的seq2seq深度学习方法在单步逆合成反应预测中获得了目前最好的top-1准确率(54.6%/63.0%)。进一步,以4个上市或者潜在的候选药物分子为例,利用启发性的蒙特卡洛树搜索(MCTS),我们的模型可以自动预测出完整的合成路线,很好的复现了文献报道的路线,证明了我们的模型具有逆合成路线预测的潜力。总的来说,我们突破了基于规则的传统思路,提出一种template-free的新策略来做逆合成路线预测,而且得到了很好的初步结果。
暂无评论