有机合成在老药的优化以及新药的创新研究中发挥着重要的作用.作为有机合成领域重要而富有挑战性的研究热点之一,交叉偶联反应也备受关注.然而,该类反应仍存在催化剂昂贵且具有毒性、反应底物的选择性等难题.传统的实验需要不断尝试,效率低且成本高.而利用机器学习对交叉偶联反应的性能进行智能预测和分析可以极大地提高效率并降低成本.因此,本学位论文基于拓扑数据分析(Topological Data Analysis,TDA)和LightGBM(Light Gradient Boosting Machine)等机器学习方法构建了两个智能预测和分析系统,旨在智能辅助优化设计反应体系和评价反应条件,从而实现降本增效.主要工作如下:
(1)基于TDA和LightGBM构建了一个有机合成系统OS-TGBM(Organic Synthesis based on TDA and LightGBM).该系统首先结合TDA聚类和多因素方差分析深入分析了反应条件和产率之间的关系.然后,引入LightGBM模型进行产率智能预测,并基于TDA聚类结果提出了分层多样性采样,进一步增强了LightGBM的性能.最后,采用特征重要性、累积局部效应(Accumulated Local Effects,ALE)图和SHAP(SHapley Additive ex Planations)值分析对LightGBM的预测结果进行解释分析.实验表明,该系统在分析和预测交叉偶联反应性能方面优于其他方法,进而可以为实验人员提供更多的参考信息.
(2)基于卷积神经网络(CNN)和LightGBM构建了一个更高效的有机合成系统OS-MSWGBM(Organic Synthesis based on Multi-scale Subtraction Weighted,CNN and LightGBM).为了多角度获得交叉偶联反应的特征信息,该系统首先提取了交叉偶联反应的三维特征和拓扑特征,并级联二维特征作为后续模型的输入.然后,设计了一个轻量级的多尺度减法加权网络,OS-MSW,用于提取输入特征的深层抽象特征,并将抽象特征应用于LightGBM模型进行产率智能预测.此外,还基于OS-MSW模型进行了可解释性分析.结果表明,该系统有助于提高产率的预测精度和模型的可解释性,在交叉偶联反应领域具有重要的应用价值.
暂无评论