A pesticide molecular generation model based on deep learning and scaffold structure MHA-RNN
-
摘要:
近年来,深度学习模型在农药发现和从头分子设计方面取得了显著进展。然而目前用于农药分子设计的深度生成模型中,基于骨架的分子生成模型较少。并且基于骨架的分子生成方法面临着生成分子质量和多样性不足的挑战。为此,该研究提出了一种基于骨架结构的循环神经网络模型(multi head attention-recurrent neural network,MHA-RNN),首先生成简化分子线性输入规范(simplified molecular input line entry system,SMILES)格式的分子骨架,然后对骨架进行装饰以生成新的分子。试验结果表明,模型生成的分子在有效性、新颖性和唯一性方面分别达到了97.18%、99.87%和100.00%。此外,生成分子在脂水分配系数(logarithm of partition coefficient,LogP)、拓扑极性表面积(topological polar surface area,TPSA)、相对分子质量(molecular weight,MW)、类药性(quantitative estimate of drug-likeness,QED)、氢键受体(hydrogen bond acceptor,HBA)、氢键供体(hydrogen bond donor,HBD)、旋转键数(rotatable bonds,RotB)等性质上的分布与现有分子高度相似,研究结果为农药新药研发提供了技术支持与参考。
Abstract:Pesticides to control pests and diseases can play an important role in crop yields in modern agriculture. However, the pesticide translation can be the long-term, expensive development with a low success rate. Fortunately, deep learning can be expected to significantly improve the efficiency of pesticide research and application in recent years. The molecular generation can be fabricated as the atoms, fragments, reactions, and scaffolds, indicating the unique characteristics. Among them, scaffold-based approaches demonstrate significant potential in drug discovery and compound design. Existing chemical knowledge can be effectively utilized to adjust molecular structures during generation, in order to meet the requirements of different drug targets and biological activity. However, the quality and validity of generated molecules are required to explore new compounds with molecular characteristics. Furthermore, existing models cannot fully capture the complex structural features of molecules during generation. In this study, a scaffold-based generation model of pesticide molecular was proposed, called multi-head attention and recurrent neural network (MHA-RNN). The structural features of the molecules were better captured to maintain the rationality and validity of the molecule generation using the molecular scaffold. The uniqueness of the generated molecules was also enhanced significantly. The MHA-RNN model was used to first generate the molecular scaffolds in SMILES format, and then decorate these scaffolds for new molecules. The data preprocessing involved two steps: the first step was to slice the molecules, breaking them down into combinations of scaffolds and decorations; In the second step, data augmentation was applied to expand the dataset of scaffolds and decorations. Multiple representations of a single molecule were learned to enhance the robustness and generalization of the model. The entire model consisted of three parts: an encoder, a multi-head attention layer, and a decoder. Among them, the encoder part was a simple bidirectional RNN encoder to encode the input sequence. The multi-head attention mechanism layer was used to perform the attention operations on the encoder's output during decoding, in order to focus on important information. This layer was used to calculate the attention weights and context vectors. The decoder was used to dynamically select the most relevant encoder information for each output, thereby improving the accuracy and validity of the generation. The decoder part was a unidirectional RNN decoder using attention mechanisms and linear layers, in order to generate the output sequence. The better parameters were then adjusted on the num-heads, num-layers, learning start rate, layer size, and embedding layer size. The value of num-heads was set to 2, 4, 8; num-layer was set to 2, 3, 4; learning-start-rate was set to 1E-3, 1E-4, 1E-5; layer-size was set to 512 and 1024; embedding-layer-size was chosen as 256 and 512. The results indicate that the generated molecules shared the outstanding performance, when num-heads is 2, num-layers is 3, learning-rate-start is 1E-3, layer-size is 512, and embedding-layer-size is 256. The efficacy, novelty, and uniqueness were achieved 97.18%, 99.87%, and 100.00%, respectively. The generation of this model was compared with four commonly-used molecule generation models. According to the same dataset and training equipment, this model was more effective and innovative in generating pesticide molecules. Additionally, the parameter tuning experiments indicate that the properties of the generated molecules (such as LogP, TPSA, MW, QED, HBA, HBD, and RotB) were highly similar to that of existing molecules when num-heads is 2, num-layers is 3, learning-rate-start is 1E-5, layer-size is 512, and embedding-layer-size is 256. The generalization of the generated model was verified to generate 100 new molecules using a specific scaffold and then compared with 100 molecules with the same scaffold selected from the training set. Morgan's fingerprints and similarities were calculated for the two datasets of molecules. A similarity matrix was constructed to analyze the differences between the two datasets. Next, a validation test of the model was performed with the molecules corresponding to ALS enzymes. The generated molecules performed well, in terms of validity, novelty, and uniqueness, as well as physicochemical properties. Finally, molecular docking of the generated new molecule to the ALS enzyme was carried out to determine the binding properties of the small molecules with ALS enzymes. The generated new molecules shared the high binding. In summary, the MHA-RNN model demonstrated outstanding performance in pesticide molecular generation. The findings can also provide new ideas for pesticide research and development. This model can be expected for highly efficient and sustainable production in modern agriculture.
-
0. 引 言
农药的持续创新和健康发展是实现农业可持续发展的重要保障。农作物病虫害防治过程中,由于过度使用化学农药导致的病虫害抗药性增加、农药残留超标、环境污染严重等问题仍然存在[1]。因此,设计出合理的、对病虫害有针对性的农药,对于提升农业可持续发展具有重要的意义。分子生成在药物研发中被广泛应用,可用于发现新药物化合物并优化药物设计,提高药物研发的效率和成功率。据估计,化学空间中类药物化合物的数量可能高达1023~1060种[2],因此如何从如此庞大的化学空间中有效地发现新的先导化合物成为药物发现的真正挑战。传统的方法包括高通量筛选[3]、虚拟筛选[4]、定量构效关系方法[5]等,但这些方法通常倾向于从现有的化学文库中搜索具有理想性质的分子。相较于传统方法,分子生成旨在通过计算机辅助方法,从无到有地设计出具有理想活性、药代动力学和安全性的新药分子,以补充现有的化学文库[6]。
近年来,随着计算能力的指数级增长和数据量的增加,药物化学家已经开始将深度学习方法应用于新的分子设计。这些方法可以根据其生成策略大致分为四类:基于原子的方法[7]、基于片段的方法[8]、基于反应的方法[9]和基于骨架的方法[10]。基于原子的方法从最基本的单位原子开始,逐步构建分子[11-12]。它提供了最大的灵活性,可以探索广阔的化学空间,这种方法的优点在于它能够直接捕捉分子内部的相互作用,从而生成更符合化学规律的新分子。但是,该方法的缺点在于生成的分子通常较短,限制了其在复杂化合物上的应用,并且在分子唯一性方面表现不佳,影响了其在新药发现中的实用性。基于片段的方法则侧重于从与靶标结合较弱的片段开始开发有效的小分子化合物[13-14]。这种方法通过系统地筛选和优化小片段,并结合不同的片段来探索新的化合物空间,从而有效利用已有的化学知识,生成结构合理的化合物。然而,基于片段的方法在创新性方面可能受限,生成的分子往往在已知化合物的基础上变化,容易导致结构的重复性和缺乏多样性。基于反应的方法则通过模拟化学反应过程生成新分子[15-16]。这种方法模拟了真实的化学合成过程,通常依赖于预定义的反应规则或反应模板库。它可以从简单的起始分子出发,通过一系列虚拟化学反应步骤,逐步构建目标分子。这种方法能够在一定程度上保证生成分子的化学合理性,但由于反应路径的复杂性,生成效率和准确性往往受到限制。此外,反应模板的一个缺点是它们匹配反应位点时不考虑分子中的其他反应基团,而这些基团在实际情况下可能会影响反应。基于骨架的方法[17-18]则专注于提取分子的核心结构,并在此基础上进行改造和生成,具有良好生物活性的骨架常被用作化合物合成和多样化的起始点。利用分子骨架进行设计,以保持分子潜在的特征,已经成为药物发现的标准方法之一[19]。该方法的最大优势在于能够保持分子的核心结构特征,同时引入足够的多样化以探索新的化合物。这不仅增强了模型在生成分子时的准确性和多样性,还在某种程度上提高了生成分子的效率。如ARUS-POUS等[20]提出了一种基于SMILES生成模型的架构,通过骨架生成多样化的分子,显著提高了生成结果的质量。MAZIARZ等[21]基于MoLeR模型将分子骨架作为生成的起始点,在无约束的分子优化任务上进行了测试,展示了其在新化合物设计中的潜力。与其他方法相比,基于骨架的方法在生成新颖和复杂结构方面具有显著优势,能够更好地满足实际应用需求。
目前,基于骨架的分子生成方法面临着生成分子质量和多样性不足的挑战,常常难以在保留分子特征的同时探索新的化合物。此外,现有模型在生成过程中可能无法充分捕捉分子的复杂结构特征,这就导致了生成分子的合理性和有效性受到影响。为了解决这些问题,本文开展了基于骨架的分子生成模型的研究。本文设计了一种基于骨架结构的循环神经网络模型(multi head attention-recurrent neural network,MHA-RNN)用于分子生成,该模型融合了多头注意力机制;将该模型与目前常用的分子生成深度学习模型进行对比分析;对该模型的泛化性进行测试;利用乙酰乳酸合成酶(acetolactate synthase,ALS酶)对应的分子对模型进行验证,并进行分子对接分析,以期为利用深度学习技术进行新农药的研发提供参考。
1. 材料与方法
1.1 分子表示方式
目前,深度学习模型中分子结构的表示方式主要为图和序列。本文采用以简化分子线性输入规范(simplified molecular input line entry system,SMILES)[22]为序列的分子表示方式。SMILES是一种用ASCII字符串明确描述分子结构的规范。SMILES字符串是一种编码分子结构、几何和拓扑特性的行表示法[23]。SMILES操作简单,易于获取,可以实现快速训练。分子转换为SMILES序列的规则如表1所示。
表 1 分子转换为SMILES序列规则表Table 1. Molecular conversion to SMILES sequence rules名称Name 表示方式Representation 原子Atom C、N、O、P、S、F、Cl、Br 离子Ion [H+]、[OH-]、[Fe+2]、[Na+]、[Cl-] 化学键Chemical bond 单键 -、双键=、三键 #、芳香键: 环己烷Cyclohexane C1CCCCC1 2,4-二甲基己-1-烯2,4-Dimethylhex-1-ene CCC(C)CC(=C)C 手性Chirality @、@@ 1.2 关键分子性质
在药物早期设计中,通常依据类药物五原则(rule of five,Ro5)进行初步的评估和筛选[24]。Ro5包括多个关键性质,其中主要有:脂水分配系数(logarithm of partition coefficient,LogP)、分子量(molecular weight,MW)、氢键受体(hydrogen bond acceptor,HBA)、氢键供体(hydrogen bond donor,HBD)以及旋转键数(rotatable bonds,RotB)。除了这些Ro5指标外,还有其他几个重要性质需要考虑,例如类药性(quantitative estimate of drug-likeness,QED)[25]和极性表面积(topology polar surface area,TPSA)[26]。
1)脂水分配系数(LogP)分布
脂水分配系数LogP为化合物亲疏水性的度量标准,反映了物质在油水两相中的分配情况。LogP通常范围是-10~10之间,较大的LogP值通常表示分子在脂质相中更溶解,而较小的LogP值则表示分子更溶解于水相。LogP的计算如式(1)所示:
LogP=∑fi(Si,Vi,qi) (1) 式中S表示原子在分子中所占的可及表面积,V代表原子所占的范式体积,q代表电荷,fi(Si,Vi,qi)是分子中第i个原子对LogP的贡献。
2)极性表面积(TPSA)分布
极性表面积TPSA即分子中极性原子所占据的表面积。极性部分通常在诸如氧或氮的杂元素周围,因此可以认为这些部分结构是加在一起的。越大的TPSA意味着越高的极性,更容易被水分子溶解。TPSA的计算如式(2)所示:
TPSA = ntypes∑anacf (2) 式中ntypes表示极性片段的类型数,na是片段a在分子中的概率,cf是优化系数。
3)相对分子质量(MW)分布
分子相对质量MW指分子中所有原子的相对原子质量之和。相对分子质量的分布可以用于描述分子集合的组成、大小和多样性等信息。MW值的范围一般在几百到几千之间,具体取决于药物的化学结构和功能。相对分子质量最小的氧化物的化学式为H2O。MW的计算如式(3)所示:
MW=∑aibi (3) 式中ai代表分子中第i类原子的数量,bi代表第i类原子的相对原子质量。
4)类药性(QED)分布
QED是一种用于预测化合物能否成为药物的多元指标,用来估计一个分子成为候选药物的可能性,取值在[0,1],较接近1的QED值表示该化合物更有可能拥有药物活性和药代动力学性质。测定分子的QED值,可以最大限度地提高合成药物的有效性。QED的计算如式(4)所示:
QED=exp(1n∑ni=1lndi) (4) 式中n表示分子性质描述符的数量,di是每种分子性质相应的数值。
5)氢键受体(HBA)分布
氢键受体HBA是指分子中接受氢键作用的原子或基团。HBA通常是不含氢的原子或基团,如氧、氮、氯、硫等,它们具有强的电负性,能够吸引另一种含氢原子或基团的氢原子形成氢键。在分子中,氢键是一种重要的相互作用力,可以影响分子的物理性质和化学性质。
6)氢键供体(HBD)分布
氢键供体HBD是指分子中能够提供电子给氢原子,从而形成氢键的原子或基团。HBD通常是带有氢原子的活泼原子或基团,如羟基(OH)、胺基(NH)和硫醇(SH)等。在氢键作用中,氢原子会被HBA的电负原子所吸引,形成一个更强的化学键,而HBD提供氢原子。HBD可以作为药物分子和受体分子之间相互作用的重要结构因素。
7)旋转键数(RotB)分布
旋转键数RotB是指分子中可以自由旋转的化学键的数量。旋转键是指两个相邻原子之间形成的化学键,其结构不会受到其他键或基团的限制而固定住。一般来说,具有较少RotB的分子更加稳定,因为分子中的键相对固定,不易发生形变。
1.3 数据准备
1.3.1 数据集
深度学习的成功与否在很大程度上取决于训练数据的质量、数量和代表性。良好的训练数据可以帮助模型更好地学习任务,提高性能并增强泛化能力。本文从ExCAPE-DB获得数据集。ExCAPE-DB是一个大型化学数据库,主要用于计算化学和计算生物学研究。该库结合了PubChem和ChEMBL两个数据库,由955 386种化合物组成,包含了大量的化学信息和属性,包括物理化学性质、生物活性和药理学信息等。ExCAPE-DB的数据是经过精心筛选和加工的,以确保其准确性和可靠性。本方法使用了ExCAPE-DB数据集中的4 211个分子作为试验数据库,原子类型为S、N、Br、F、O、Cl、C,分子中最大的原子数量为48。并且还对分子的LogP、TPSA、MW、QED、HBA、HBD、RotB值进行了预测。本文统计了ExCAPE-DB数据集中上述7个指标的分布,如图1所示,其中LogP的数值主要分布在−7.33~10.02之间,TPSA的数值主要分布在3.24~288.40Å2之间,MW的数值主要分布在174.25~658.89之间,QED的数值主要分布在0.09~0.94之间,HBA的数值主要分布在1~15之间,HBD的数值主要分布在0~11之间,RotB的数值主要分布在0~21之间。
1.3.2 骨架生成
任何分子集在用作模型的训练集之前都必须进行预处理。该过程分两步完成:首先对4 211个分子进行切片处理,考虑到每一个分子可以以许多不用的方式切片,这种方法通常会使每一个分子产生不止一种情况,所以一共拆分为137 023个骨架与装饰的组合。为了确保模型能够充分学习数据中的复杂模式以及维持训练效果与模型评估之间的平衡,将这些组合分为训练集(约95.74%)和验证集(约4.26%)。此外,未为模型设置测试集,因为该模型与识别网络不同,不需要测试集,通过评估指标的有效性、新颖性和唯一性即可充分反映模型的性能。然后用数据增强算法对这些骨架和装饰进行扩充,从而保证模型能够学习到一个分子的多个字符串。数据预处理流程如图2所示,首先选取了一个分子(以CCc1ccc(OC)c(C(=O)NCC2CCCN2CC)c1Cl为例)进行切片处理,将其切片为骨架和装饰,其中R1和R2代表着两个连接点,然后对骨架和装饰分别进行数据扩充处理。
1.4 模型结构
1.4.1 模型总体结构
本文构建的基于多头注意力机制的循环神经网络模型结构如图3所示,该模型由编码器、多头注意力层和解码器三部分组成。该模型的编码器负责将输入的序列(以[*:0]CCN1CCN([*:1])C1=O为例)编码成隐藏状态。
图 3 基于多头注意力机制的循环神经网络模型结构图注:Encoder为编码器,Decoder为解码器,Bi-RNN为双向循环神经网络层,Hidden states为隐藏状态,RNN为循环神经网络层,Multi-head attentin为多头注意力,Linear为线性层,Softmax为激活函数。Figure 3. Structure of recurrent neural network model based on multiple attention mechanismNote: Encoder is the encoder, Decoder is the decoder, Bi-RNN is the bi-directional recurrent neural network layer, Hidden states is the hidden states, RNN is the recurrent neural network layer, Multi-head attentin is the multi-head attentin, Linear is the linear layer, Softmax is the activation function.首先,通过嵌入层将解码器输入转换为向量表示,然后它通过一个单向LSTM层来提取输入序列的上下文信息,接下来解码器使用多头注意力机制来计算注意力权重和上下文向量,以增强解码器的表示能力。最后,解码器通过一个线性层将上下文向量映射为输出的概率分布,并使用softmax函数得到最终的输出(以Cc1ccccc1N1CCN(CCN2CCCCCC2)C1=O为例)。模型通过训练使得输出的概率分布接近于真实的输出序列。
1.4.2 循环神经网络模块
循环神经网络(recurrent neural network,RNN)[27-28]是一种能够处理序列数据的神经网络模型。一个典型的RNN网络架构包含一个输入,一个输出和一个神经网络单元。其中,xi为输入层,Ai为带有循环的隐含层,yi为输出层。其中隐含层包含一个循环,将循环进行展开。
当分子以SMILES形式作为输入时,RNN模块的工作流程如下:首先,对SMILES字符串进行数据预处理,将其转换为数值表示,通常使用one-hot编码来表示每个字符。然后,将one-hot编码的SMILES输入给RNN模块,RNN模块可以是长短期记忆网络(long short-term memory, LSTM)[29]、双向循环神经网络(bidirectional recurrent neural network,Bi-RNN)[30]等。在循环计算中,RNN模块依次接受每个字符,并根据当前的输入字符和之前的隐藏状态计算新的隐藏状态和输出。通过在每个时间步骤中更新隐藏状态,RNN模块可以捕捉到序列中的时序依赖性和分子的结构信息。输出生成阶段,RNN模块根据隐藏状态生成下一个字符的预测。通过逐个生成字符,从给定的起始字符开始,可以生成整个分子的SMILES字符串。循环神经网络模块工作流程图如图4所示。
1.4.3 多头注意力机制模块
注意力机制[31-32]在深度学习中扮演关键角色,主要用于捕捉输入序列内各位置间的关系。然而,单头注意力在处理复杂信息时存在局限性。为解决这一问题,多头注意力机制应运而生。它通过并行的多个“头部”同时关注输入的多个方面,提高了信息提取效率,降低了单一视角带来的信息损失。这种方法使模型能更全面地捕捉数据的多样性和复杂性,通过多个映射学习不同的注意力机制,从而关注输入的不同方面和信息。给定一个输入序列X=(x1,x2,...,xn),多头注意力机制可以被描述为式(5):
\begin{split} & {\mathrm{MultiHead}}({\boldsymbol{Q}},{\boldsymbol{K}},{\boldsymbol{V}})= \\ & {\mathrm{Concat}}(head_1,head_2,\ldots,head_i){\boldsymbol{W}}^O \end{split} (5) 式中Q,K和V分别表示查询(Query)、键(Key)和数值(Value)的输入矩阵,headi表示第i个注意力头的计算结果,WO是输出权重矩阵。每个注意力头的计算过程包括计算注意力权重、加权求和等步骤,最终通过拼接和线性变换得到多头注意力的输出。
通过多头注意力机制,模型可以更好地学习输入序列中不同位置之间的依赖关系,提高了模型在处理序列数据时的表征能力和泛化能力。这种方法大大增强了模型的表达能力,尤其在处理长距离依赖时表现得尤为突出。多头注意力机制结构图如图5所示。
1.5 评价指标
目前,分子生成模型的数量日益增多,针对这些模型的优劣评估需求愈发迫切。为此,研究人员已经开发出许多评估标准,旨在全面衡量分子的生成质量与实用性。MOSES(molecular sets)是一个专门用于评估和比较分子生成模型的基准测试平台,它提供了一套用于评估生成结构的质量和多样性的指标[33]。在MOSES中,有效性、新颖性和唯一性是评估模型性能的重要指标,这些指标帮助我们了解生成模型的性能和生成分子集合的特征。
有效性(validity,V):生成分子中有效分子数量在总生成分子数量中的比例。它衡量的是模型生成的分子是否真正符合化学规则,如果模型的有效性高,那么它生成的分子更有可能是实际存在的,并且在化学上是合理的。
唯一性(uniqueness,U):生成的分子中有效分子之间不重复的比例。它指的是模型生成的分子集合中有多少唯一的结构,高唯一性表示模型能够提供更多的多样化的候选化合物,对于药物研发需要大量新化合物的情况非常重要。
新颖性(novelty,N):生成分子中与训练集分子不重复的程度。它衡量的是模型生成的分子在已知化学空间中的相对罕见程度或创新性。它可以通过计算生成物与现有数据集的相似度,来评估生成的化学结构的新颖性。
有效性、唯一性和新颖性的计算方法如式(6)所示:
\left\{\begin{aligned} & V=\frac{{\mathrm{num}}({\mathrm{valid}}({\mathrm{gens}}))}{{\mathrm{num({\mathrm{gens}})}}} \\ & U=\frac{{\mathrm{num}}({\mathrm{unique}}({\mathrm{gens}}))}{{\mathrm{num}}({\mathrm{valid}}({\mathrm{gens}}))} \\ & N=\frac{{\mathrm{num}}({\mathrm{unique}}\ \& {\mathrm{novel}}({\mathrm{gens}}))}{{\mathrm{num}}({\mathrm{unique}}({\mathrm{gens}}))}\end{aligned}\right. (6) 式中V代表模型生成分子的有效性,num(gens)代表模型生成分子的总数量,num(valid(gens))代表模型生成的有效分子数量。U代表模型生成分子的唯一性,num(unique(gens))代表模型生成的有效分子中去除重复分子后的剩下的分子数量。N代表模型生成分子的新颖性,num(unique&novel(gens))代表模型生成的有效分子去除重复分子和训练集中已经存在的分子之后剩下的分子数量。
综合考虑这3个指标可以全面评估生成模型的性能,因为它们从不同维度全面反映了模型的性能。首先,有效性是生成分子的基本要求,它评估生成的分子是否实际有效,确保生成的分子符合基本的化学规则和结构要求[34]。其次,新颖性是生成分子中不存在于训练集中的部分,反映了生成模型的创新性,低新颖性表明过拟合[33]。最后,唯一性是生成分子中不重复的分子所占的比重,高唯一性表明生分子是非冗余的,通过减少重复分子的出现,能够提高候选化合物库的多样性[35]。
1.6 试验软件及依赖库
在本试验中主要使用的软件及依赖库包括Python3.6.13[36]、Numpy1.19.2[37]、PyTorch1.4.0[38]、cudatoolkit10.1[39]、RDKit2019.09.1[40]、Matplotlib3.3.4[41]、tensorboard2.10.1[42]。用于训练的GPU硬件是CUDA12.1,驱动程序版本为NVIDIA RTX-4090。
2. 结果和分析
2.1 模型训练结果
本节在ExCAPE-DB数据集上进行了试验验证。试验过程中轮次设置为100,每个轮次的训练损失如图6所示。
模型在前17个轮次内经历了显著的损失下降,在第0个轮次,损失值为7.90,而到第16个轮次,损失值已经下降到了2.05,这意味着在前17个轮次中,模型学习速度较快,损失减少了大约74.1%。在第17至50个轮次这个阶段,损失的下降速度开始放缓,但仍然保持稳定的下降趋势。损失值从第17个轮次的2.03逐渐降低到第50个轮次的1.57,下降幅度约为22.7%。这表明模型在经过初始的快速学习后,进入了更为稳定的调整阶段。在训练的后期,损失的下降变得更加缓慢和平稳。损失值从第51个轮次的1.57降至第99个轮次的1.38,下降幅度约为12.1%。这意味着模型已经接近其最佳性能,进一步的微调虽然仍在进行,但改善的幅度已经不大。
2.2 有效性、新颖性、唯一性结果
选择合适的超参数对神经网络的性能影响很大,而头数、层数、初始学习率、层大小和嵌入层大小等参数是非常重要的超参数。对这些参数进行调整是为了寻求更好的模型性能。在本文中,针对模型进行了多组试验,设置头数的值分别为2、4、8,层数的值分别为2、3、4,初始学习率的值分别为1E-3、1E-4、1E-5,层大小和嵌入层大小的值分别为512和256、
1024 和512。对每组试验的有效性、新颖性和唯一性进行了测试,结果表明,不同参数组合对模型性能产生了显著的影响。当头数为2、层数为3、初始学习率为1E-3、层大小为512、嵌入层大小为256时,模型在有效性、新颖性和唯一性方面表现出最佳性能。试验结果如表2所示。需要注意的是,如果两个分子之间只存在骨架跃迁或者只存在取代基位置的不同,这将被判定为不同的分子结构。这是因为分子的化学性质和反应活性往往与骨架的结构和取代基的位置密切相关,即使是微小的变化也可能导致其生物活性和物理性质的显著不同。表 2 不同参数对生成分子性能的影响Table 2. Effects of different parameters on the properties of generated molecules头数
Num-heads层数
Num-layers初始学
习率
Learning-rate-start层大小\
嵌入层大小Layer-size\
Embedding-
layer-size有效性
Validity/%新颖性
Novelty/%唯一性
Uniqueness/
%2 2 1E-4 512,256 93.74 99.39 100.00 2 3 1E-4 512,256 89.60 99.35 100.00 2 4 1E-4 512,256 84.97 99.22 100.00 2 3 1E-3 512,256 97.18 99.87 100.00 2 3 1E-5 512,256 94.29 99.74 100.00 2 3 1E-4 1024 ,51269.64 99.41 100.00 4 2 1E-4 512,256 84.97 99.22 100.00 4 3 1E-4 512,256 89.84 99.07 100.00 4 4 1E-4 512,256 70.42 98.00 100.00 4 3 1E-3 512,256 79.52 98.21 100.00 4 3 1E-5 512,256 96.97 99.96 100.00 4 3 1E-4 1024 ,51269.84 97.73 100.00 8 2 1E-4 512,256 50.00 86.39 100.00 8 3 1E-4 512,256 90.82 94.71 100.00 8 4 1E-4 512,256 78.95 55.11 100.00 8 3 1E-3 512,256 58.33 61.22 100.00 8 3 1E-5 512,256 90.14 99.93 100.00 8 3 1E-4 1024 ,5120.00 0.00 0.00 2.3 理化性质分布
此外,本文还考虑了模型的生成结果在以下7个理化性质方面的分布:LogP、TPSA、MW、QED、HBA、HBD、RotB。这7个理化性质主要用于从结构和性质上评估分子的特征,通过对这些理化性质的计算和比较,可以更全面地了解生成的分子在药物研究和设计中的潜在应用价值,以及其可能的药理活性和毒性特征[43]。同时,这些理化性质也可以为药物分子的吸收、分布、代谢和排泄等性质评估提供重要信息,有助于筛选和优化具有潜力的药物候选化合物[44]。本文比较了这些试验结果与训练集的数据在这7个理化性质上分布的差异。在进行验证时,通过对头数、层数、初始学习率、层大小和嵌入层大小这些数据进行调参,一共进行了18组试验,设置头数的值分别为2、4、8,层数的值分别为2、3、4,初始学习率的值分别为1E-3、1E-4、1E-5,层大小和嵌入层大小的值分别为512和256、
1024 和512。对于这些试验的生成结果,使用rdkit计算出它们的上述7种理化性质分布,并与训练集中的数据进行了相应理化性质分布上的比较。试验结果表明,当头数为2、层数为3、初始学习率为1E-5、层大小为512、嵌入层大小为256时,生成结果与训练集中的数据在这7个理化性质上的分布更加相似,如图7所示。生成的分子与原始分子这种高度的相似性证明了该模型在生成分子时能够保持原始分子的重要特征,为进一步的药物设计和发现提供了可靠的基础。图中,深色区域与浅色区域分别代表训练集分子与生成集分子的理化性质分布,在图的上方标注出了训练集分子和生成集分子理化性质的范围以及各自的平均值。从图中可以发现,生成集分子的7种理化性质的分布全部都在训练集分子的理化性质的范围之内,且生成集分子与训练集分子对应理化性质的平均值也很接近,表明模型在对训练集分子理化性质分布的学习方面具有较好的性能,并具有较好的重现能力。
2.4 模型泛化能力分析
模型的泛化能力在化学生成模型中尤为关键,它指的是模型在未见过的数据上表现良好的能力。在化学领域,分子的多样性扮演着重要的角色,代表着分子集合中结构与性质的丰富程度,同时也反映了生成模型的泛化能力。如果生成的分子与现有分子相似度过高,可能存在过拟合的风险,无法很好地适应新数据。相反,如果生成的分子与现有分子的差异较大,则证明模型可以在广泛的化学空间中生成多样性结构,这表明其泛化能力较强。为了对模型泛化能力进行验证,选取了一个骨架(图8a),利用本文设计的模型在这个骨架基础上生成了190个分子,从中随机选取其中100个分子进行试验。同时,从训练集中选择具有相同骨架结构的100个分子,对这两个集合中的分子进行比较,并分析分子多样性[10]。通过这种方式,可以更清晰地评估模型在特定结构上的生成能力,且更容易解释生成分子与训练集中分子的异同,具有更强的针对性和可解释性。然后利用RDKit库计算每个分子的Morgan指纹,并计算指纹之间的相似性,构建一个相似性矩阵,从而得到两个数据集之间的差异性,如图8b所示。
图8b中,横轴表示训练集中存在的100个分子,纵轴表示模型生成的100个分子,纵轴和横轴的交点为这两个分子之间的差异性。两组分子之间的差异性由颜色进行区别,两个集合中的分子之间的相似性越低,则颜色越浅。这说明生成的分子与训练集中的分子相比具有较大的结构变化,即多样性较高,反映出模型具有较强的泛化能力。
为了进一步测试模型的泛化能力,选取了2个训练集中不存在分子骨架。模型在不控制分子性质的情况下,利用这两个骨架生成新分子。第一个骨架生成了48个分子,第二个骨架生成了56个分子。图9展示了模型依据这两个骨架生成的分子,从图9中可以看出,生成的新分子保留了给定骨架的结构,同时还具有多样性的化学结构,这表明该模型的泛化能力很好,即可以通过在给定骨架的不同位置上添加不同类型的侧链或环状结构,将骨架扩展为多样化的新分子。
2.5 与当前常用分子生成模型的比较
将本模型生成的结果与现有的几种分子生成模型重构骨架装饰(reinvent-scaffold-decorator)[20],分子流(molecular flow,Moflow)[45],目标强化生成对抗网络(objective-reinforced generative adversarial network,ORGAN)[46]以及本团队之前设计的融合门控图神经网络和生成对抗网络的模型(gated graph neural network-generative adversarial network,GGNN-GAN)在有效性、唯一性、新颖性3个评价指标上进行了比较,对照模型使用与本模型同样的数据集、同样的设备进行训练,对比结果如表3所示。
表 3 模型的性能评估Table 3. Performance evaluation of models模型
Model有效性Validity/
%新颖性Novelty/
%唯一性Uniqueness/
%生成时间
Generation time/
min重构骨架装饰Reinvent-scaffold-decorator 83.50 99.70 100.00 50 分子流Moflow 100.00 92.10 92.10 113 目标强化生成对抗网络ORGAN 14.60 99.97 99.37 37 融合门控图神经网络和生成对抗网络GGNN-GAN 100.00 99.79 76.10 22 基于骨架结构的循环神经网络MHA-RNN 97.18 99.87 100.00 47 根据表3的数据可知,与Reinvent-scaffold-decorator模型相比,本模型在有效性和新颖性方面表现更优,两者在唯一性方面均达到了100.00%。尽管GGNN-GAN模型在有效性上得分完美,但其唯一性仅为76.10%。另一方面,ORGAN模型在唯一性和新颖性方面均取得了很高的分数,然而其有效性得分较低,而分子的有效性是计算唯一性和新颖性的基本要求。相对于Moflow模型,本模型与其在这3个方面差距不大。
图10所示为不同模型综合性能比较图,从图中可以看出ORGAN模型在有效性方面存在明显的短板。GGNN-GAN模型在唯一性方面存在一定的不足,Reinvent-scaffold-decorator模型在有效性方面存在一定的不足。Moflow模型和本文设计的MHA-RNN模型都表现出了较好的综合性能,但是MHA-RNN模型在3个性能指标上的得分均超过了97%,其表现优于Moflow模型。此外,由表3可知,MHA-RNN模型在生成分子的速度上比Moflow模型更快。这主要是因为基于骨架的生成模型只需向已知的分子骨架添加特定的官能团或原子来进行扩展,而无需从头开始构建整个分子结构。
2.6 农药分子生成试验
2.6.1 靶标蛋白ALS酶
ALS酶[47]是一种关键的酶,参与植物、细菌和真菌的氨基酸合成。催化丙酮酸与乙酰辅酶A的缩合反应生成乙酰乳酸,这是合成支链氨基酸的重要中间产物。ALS酶在植物生长发育中至关重要,且是一些农药(如ALS抑制剂)的靶点,通过抑制其活性可以有效控制杂草生长,因此,ALS酶的研究在生物化学和植物生物技术领域备受关注。本文选了已经证实对ALS酶起作用且展现出良好效果的73个分子作为训练样本,由此来生成新的农药分子。这些分子中最大的原子数是34,包括C、N、O、S、F、Cl、Br元素。图11为ALS酶的三维结构模型图。对ALS酶对应的73个分子计算了在LogP、TPSA、MW、QED、HBA、HBD、RotB理化性质方面的分布情况,其中分子的LogP的数值大致集中在0.56~5.29之间,TPSA的数值则主要落在25.78~144.19Ų之间,MW的数值范围为147.13~485.68,QED的数值分布在0.22~0.91之间。此外,HBA的数值范围为2~11,HBD的数值在0~3之间,RotB的数值主要集中在0~10之间。
2.6.2 分子生成结果
为了进一步验证本文构建模型的性能,应用ALS酶对应的分子进行了试验,结果表明,当num-heads=2、num-layers=3、learning-rate-start=1E-3、layer-size=512、embedding-layer-size=256时,共生成了921个分子。这些分子在有效性、新颖性和唯一性方面分别达到91.09%、99.90%和100.00%,显示出了优越性能。并且分析了此参数配置下生成分子的7个理化性质,生成分子的LogP值大致集中在-2.68~5.19之间,TPSA值主要分布在35.01~153.23Ų之间,MW范围为123.06~402.12,QED值的分布则在0.18~0.93之间,HBA的数值范围为3~9,HBD的数值则在0~5之间,RotB的值主要集中在1~16之间,如图12所示。
在图12中,深色点与浅色点分别代表训练集分子与生成集分子的理化性质分布,在图的上方标注出了训练集分子和生成集分子理化性质的范围以及各自的平均值。从图中可以发现,生成集分子的理化性质分布大部分位于训练集分子的范围之内,有些生成分子的值虽然未完全落在训练集范围内,但与训练集的值相比也十分接近,这表明生成模型能够有效地捕捉训练集分子的特征和规律,从而生成出具有相似理化性质的新分子。
2.6.3 分子对接
在药物发现和开发的过程中,分子对接是一种重要的计算方法,旨在模拟小分子配体与靶标蛋白质之间的相互作用[48]。通过对接,可以验证小分子配体与靶蛋白之间的结合能力,从而评估其作为潜在药物的可行性。对接完整步骤:①蛋白质处理:去水、加全氢处理、导出PDBQT文件;②小分子处理:加全氢、设置为配体、选择扭转中心,设置扭转键、导出PDBQT文件;③进行分子对接:以结合口袋为中心,设定Grid Box的坐标为(X:10.799,Y:128.587,Z:105.746),其尺寸为82.45×61.43×72.75。此外,配置参数为energy_range=4、exhaustiveness=8。最后,通过使用AutoDock Vina进行分子对接,选择基于遗传算法的全局搜索和局部优化相结合的策略,同时采用半柔性对接模式,以寻找最佳的配体结合模式。
根据本文的初步研究结果,能够与ALS酶进行对接的分子的结合能绝对值范围一般为27.2~32.6 kJ/mol。本文设计的MHA-RNN模型针对ALS酶生成的921个分子,将这些分子与ALS酶进行了对接,评分结果如图13所示。从图中可以看出,结合能绝对值在20.5~23.0 kJ/mol之间的有81个分子,在23.4~25.1 kJ/mol之间的有266个分子,在25.5~27.2 kJ/mol之间的有338个分子,在27.6~29.3 kJ/mol之间的有173个分子,而在29.7~31.4 kJ/mol之间的有49个分子。最后,在31.8~33.5 kJ/mol之间的有8个分子,在33.9~34.7 kJ/mol之间的有6个分子。这些数据反映了小分子与ALS酶的结合特性,整体来看,结果显示出显著的结合能力。
3. 结 论
药物设计过程的主要目的是找到能够以期望的方式调节给定靶标活性的新化合物。基于深度学习的分子生成模型对药物设计来说具有良好应用前景的。本文提出了一种基于多头注意力机制的循环神经网络模型,用于分子生成方面的研究。通过调整参数,得出了当头数为2、层数为3、初始学习率为1E-3、层的大小为512、嵌入层的大小为256时,模型在生成结果的有效性、新颖性和唯一性方面的值达到最优,分别为97.18%、99.87%、100.00%。并且评估了当头数为2,层数为3、初始学习率为1E-5、层的大小为512、嵌入层的大小为256时,生成结果与训练集中的数据在脂水分配系数(logarithm of partition coefficient,LogP)、拓扑极性表面积(topological polar surface area,TPSA)、相对分子质量(molecular weight,MW)、类药性(quantitative estimate of drug-likeness,QED)、氢键受体(hydrogen bond acceptor,HBA)、氢键供体(hydrogen bond donor,HBD)、旋转键数(rotatable bonds,RotB)这七个理化性质上的分布最相似。另外对模型的泛化能力进行了全面评估,并针对特定靶标蛋白ALS酶进行了农药分子生成测试,试验结果表明生成的分子与靶标蛋白ALS酶具有结合能力。这些结果为基于多头注意力机制的循环神经网络模型在新型农药和兽药研发中的应用提供了有力的支持和参考。
-
图 3 基于多头注意力机制的循环神经网络模型结构图
注:Encoder为编码器,Decoder为解码器,Bi-RNN为双向循环神经网络层,Hidden states为隐藏状态,RNN为循环神经网络层,Multi-head attentin为多头注意力,Linear为线性层,Softmax为激活函数。
Figure 3. Structure of recurrent neural network model based on multiple attention mechanism
Note: Encoder is the encoder, Decoder is the decoder, Bi-RNN is the bi-directional recurrent neural network layer, Hidden states is the hidden states, RNN is the recurrent neural network layer, Multi-head attentin is the multi-head attentin, Linear is the linear layer, Softmax is the activation function.
表 1 分子转换为SMILES序列规则表
Table 1 Molecular conversion to SMILES sequence rules
名称Name 表示方式Representation 原子Atom C、N、O、P、S、F、Cl、Br 离子Ion [H+]、[OH-]、[Fe+2]、[Na+]、[Cl-] 化学键Chemical bond 单键 -、双键=、三键 #、芳香键: 环己烷Cyclohexane C1CCCCC1 2,4-二甲基己-1-烯2,4-Dimethylhex-1-ene CCC(C)CC(=C)C 手性Chirality @、@@ 表 2 不同参数对生成分子性能的影响
Table 2 Effects of different parameters on the properties of generated molecules
头数
Num-heads层数
Num-layers初始学
习率
Learning-rate-start层大小\
嵌入层大小Layer-size\
Embedding-
layer-size有效性
Validity/%新颖性
Novelty/%唯一性
Uniqueness/
%2 2 1E-4 512,256 93.74 99.39 100.00 2 3 1E-4 512,256 89.60 99.35 100.00 2 4 1E-4 512,256 84.97 99.22 100.00 2 3 1E-3 512,256 97.18 99.87 100.00 2 3 1E-5 512,256 94.29 99.74 100.00 2 3 1E-4 1024 ,51269.64 99.41 100.00 4 2 1E-4 512,256 84.97 99.22 100.00 4 3 1E-4 512,256 89.84 99.07 100.00 4 4 1E-4 512,256 70.42 98.00 100.00 4 3 1E-3 512,256 79.52 98.21 100.00 4 3 1E-5 512,256 96.97 99.96 100.00 4 3 1E-4 1024 ,51269.84 97.73 100.00 8 2 1E-4 512,256 50.00 86.39 100.00 8 3 1E-4 512,256 90.82 94.71 100.00 8 4 1E-4 512,256 78.95 55.11 100.00 8 3 1E-3 512,256 58.33 61.22 100.00 8 3 1E-5 512,256 90.14 99.93 100.00 8 3 1E-4 1024 ,5120.00 0.00 0.00 表 3 模型的性能评估
Table 3 Performance evaluation of models
模型
Model有效性Validity/
%新颖性Novelty/
%唯一性Uniqueness/
%生成时间
Generation time/
min重构骨架装饰Reinvent-scaffold-decorator 83.50 99.70 100.00 50 分子流Moflow 100.00 92.10 92.10 113 目标强化生成对抗网络ORGAN 14.60 99.97 99.37 37 融合门控图神经网络和生成对抗网络GGNN-GAN 100.00 99.79 76.10 22 基于骨架结构的循环神经网络MHA-RNN 97.18 99.87 100.00 47 -
[1] PATHAK V M, VERMA V K, RAWAT B S, et al. Current status of pesticide effects on environment, human health and it’s eco-friendly management as bioremediation: A comprehensive review[J]. Frontiers in Microbiology, 2022, 13: 962619. doi: 10.3389/fmicb.2022.962619
[2] HUMAYUN F, KHAN F, KHAN A, et al. De novo generation of dual-target ligands for the treatment of SARS-CoV-2 using deep learning, virtual screening, and molecular dynamic simulations[J]. Journal of Biomolecular Structure and Dynamics, 2024, 42(6): 3019-3029. doi: 10.1080/07391102.2023.2234481
[3] LYNCH C, SAKAMURU S, OOKA M, et al. High-throughput screening to advance in vitro toxicology: Accomplishments, challenges, and future directions[J]. Annual Review of Pharmacology and Toxicology, 2024, 64(1): 191-209. doi: 10.1146/annurev-pharmtox-112122-104310
[4] LYU J, IRWIN J J, SHOICHET B K. Modeling the expansion of virtual screening libraries[J]. Nature Chemical Biology, 2023, 19(6): 712-718. doi: 10.1038/s41589-022-01234-w
[5] CAI Z, ZAFFERANI M, AKANDE O M, et al. Quantitative structure–activity relationship (QSAR) study predicts small-molecule binding to RNA structure[J]. Journal of Medicinal Chemistry, 2022, 65(10): 7262-7277. doi: 10.1021/acs.jmedchem.2c00254
[6] HAN R, YOON H, KIM G, et al. Revolutionizing medicinal chemistry: The application of artificial intelligence (AI) in early drug discovery[J]. Pharmaceuticals, 2023, 16(9): 1259. doi: 10.3390/ph16091259
[7] RAGOZA M, MASUDA T, KOES D R. Generating 3D molecules conditional on receptor binding sites with deep generative models[J]. Chemical Science, 2022, 13(9): 2701-2713. doi: 10.1039/D1SC05976A
[8] ADAMS K, COLEY C W. Equivariant shape-conditioned generation of 3d molecules for ligand-based drug design[EB/OL].[2022-10-06]https://arxiv.org/abs/2210.04893.
[9] MEUWLY M. Transformative applications of machine learning for chemical reactions[EB/OL].[2022-10-06]https://arxiv.org/abs/2101.03530.
[10] 徐天旭. 基于骨架的深度生成模型用于药物分子设计[D]. 烟台:烟台大学,2023. XU Tianxu. Scaffold-Based Deep Generative Model for Drug Molecule Design[D]. Yantai: Yantai University, 2023. (in Chinese with English abstract)
[11] ZHANG O, ZHANG J, JIN J, et al. ResGen is a pocket-aware 3D molecular generation model based on parallel multiscale modelling[J]. Nature Machine Intelligence, 2023, 5(9): 1020-1030. doi: 10.1038/s42256-023-00712-7
[12] VELICKOVIC P. Everything is connected: Graph neural networks[J]. Current Opinion in Structural Biology, 2023, 79: 102538. doi: 10.1016/j.sbi.2023.102538
[13] CHEN Z, MIN M R, PARTHASARATHY S, et al. A deep generative model for molecule optimization via one fragment modification[J]. Nature machine intelligence, 2021, 3(12): 1040-1049. doi: 10.1038/s42256-021-00410-2
[14] GHORBANI M, GENDELEV L, BEROZA P, et al. Autoregressive fragment-based diffusion for pocket-aware ligand design[EB/OL]. [2023-12-15] https://arxiv.org/abs/2401.05370.
[15] QIANG B, ZHOU Y, DING Y, et al. Bridging the gap between chemical reaction pretraining and conditional molecule generation with a unified model[J]. Nature Machine Intelligence, 2023, 5(12): 1476-1485. doi: 10.1038/s42256-023-00764-9
[16] HORWOOD J, NOUTAHI E. Molecular design in synthetically accessible chemical space via deep reinforcement learning[J]. ACS Omega, 2020, 5(51): 32984-32994. doi: 10.1021/acsomega.0c04153
[17] LIAO Z, XIE L, MAMITSUKA H, et al. Sc2Mol: A scaffold-based two-step molecule generator with variational autoencoder and transformer[J]. Bioinformatics, 2023, 39(1): btac814. doi: 10.1093/bioinformatics/btac814
[18] XU C, LIU R, HUANG S, et al. 3D-SMGE: A pipeline for scaffold-based molecular generation and evaluation[J]. Briefings in Bioinformatics, 2023, 24(6): bbad327. doi: 10.1093/bib/bbad327
[19] LIM J, HWANG S Y, MOON S, et al. Scaffold-based molecular design with a graph generative model[J]. Chemical Science, 2020, 11(4): 1153-1164. doi: 10.1039/C9SC04503A
[20] ARUS-POUS J, PATRONOV A, BJERRUM E J, et al. SMILES-based deep generative scaffold decorator for de-novo drug design[J]. Journal of Cheminformatics, 2020, 12: 1-18. doi: 10.1186/s13321-019-0407-y
[21] MAZIARZ K, JACKSON-FLUX H, CAMERON P, et al. Learning to extend molecular scaffolds with structural motifs[EB/OL].[2024-05-15].https://arxiv.org/abs/2103.03864.
[22] SCHOENMAKER L, BEQUIGNON O J M, JESPERS W, et al. UnCorrupt SMILES: A novel approach to de novo design[J]. Journal of Cheminformatics, 2023, 15(1): 22. doi: 10.1186/s13321-023-00696-x
[23] FERNANDEZ-TORRAS A, COMAJUNCOSA-CREUS A, DURAN-FRIGOLA M, et al. Connecting chemistry and biology through molecular descriptors[J]. Current Opinion in Chemical Biology, 2022, 66: 102090. doi: 10.1016/j.cbpa.2021.09.001
[24] POLLASTRI M P. Overview on the rule of five[J]. Current Protocols in Pharmacology, 2010, 49(1): 9-12.
[25] LI B, WANG Z, LIU Z, et al. DrugMetric: quantitative drug-likeness scoring based on chemical space distance[J]. Briefings in Bioinformatics, 2024, 25(4): bbae321. doi: 10.1093/bib/bbae321
[26] ARGIKAR U, BLATTER M, BEDNARCZYK D, et al. Paradoxical increase of permeability and lipophilicity with the increasing topological polar surface area within a series of PRMT5 inhibitors[J]. Journal of Medicinal Chemistry, 2022, 65(18): 12386-12402. doi: 10.1021/acs.jmedchem.2c01068
[27] 赫晓慧,罗浩田,乔梦佳,等. 基于CNN-RNN网络的中国冬小麦估产[J]. 农业工程学报,2021,37(17):124-132. doi: 10.11975/j.issn.1002-6819.2021.17.014 HE Xiaohui, LUO Haotian, QIAO Mengjia, et al. Yield estimation of winter wheat in China based on CNN-RNN network[J]. Transactions of the Chinese Society of Agricultural Engineering (Transactions of the CSAE), 2021, 37(17): 124-132. (in Chinese with English abstract) doi: 10.11975/j.issn.1002-6819.2021.17.014
[28] JAHIN A M , SHOVON H S M , MRIDHA F M , et al. A hybrid transformer and attention based recurrent neural network for robust and interpretable sentiment analysis of tweets. [J]. Scientific Reports, 2024, 14(1): 24882.
[29] 王书献,张胜茂,唐峰华,等. CNN-LSTM在日本鲭捕捞渔船行为提取中的应用[J]. 农业工程学报,2022,38(7):200-209. WANG Shuxian, ZHANG Shengmao, TANG Fenghua, et al. Extracting the behavior of Scomber japonicus fishing vessel using CNN-LSTM[J]. Transactions of the Chinese Society of Agricultural Engineering (Transactions of the CSAE), 2022, 38(7): 200-209. (in Chinese with English abstract)
[30] GUO X, WANG J, GAO G, et al. Improving text classification in agricultural expert systems with a bidirectional encoder recurrent convolutional neural network[J]. Electronics, 2024, 13(20): 4054. doi: 10.3390/electronics13204054
[31] 林华浦,张凯,李浩,等. 基于多尺度融合注意力机制的群猪检测方法[J]. 农业工程学报,2023,39(21):188-195. doi: 10.11975/j.issn.1002-6819.202306166 LIN Huapu, ZHANG Kai, LI Hao, et al. Detecting herd pigs using multi-scale fusion attention mechanism[J]. Transactions of the Chinese Society of Agricultural Engineering (Transactions of the CSAE), 2023, 39(21): 188-195. (in Chinese with English abstract) doi: 10.11975/j.issn.1002-6819.202306166
[32] 郑权,乔江伟,李婕,等. 融合多尺度特征和注意力机制的油菜倒伏分类[J]. 农业工程学报,2024,40(11):186-194. doi: 10.11975/j.issn.1002-6819.202401199 ZHENG Quan, QIAO Jiangwei, LI Jie, et al. Integration of multiscale characterization and attention mechanisms for oilseed rape lodging classification methodology[J]. Transactions of the Chinese Society of Agricultural Engineering (Transactions of the CSAE), 2024, 40(11): 186-194. (in Chinese with English abstract) doi: 10.11975/j.issn.1002-6819.202401199
[33] POLYLOVSKIY D, ZHEBRAK A, SANCHEZ-LENGELING B, et al. Molecular sets (MOSES): A benchmarking platform for molecular generation models[J]. Frontiers in Pharmacology, 2020, 11: 565644. doi: 10.3389/fphar.2020.565644
[34] BROWN N, FISCATO M, SEGLER M H S, et al. GuacaMol: benchmarking models for de novo molecular design[J]. Journal of Chemical Information and Modeling, 2019, 59(3): 1096-1108. doi: 10.1021/acs.jcim.8b00839
[35] MORET M, FRIEDRICH L, GRISONI F, et al. Generative molecular design in low data regimes[J]. Nature Machine Intelligence, 2020, 2(3): 171-180. doi: 10.1038/s42256-020-0160-y
[36] JALOLOV T S. Python instrumentlari bilan katta ma'lumotlarni qayta ishlash[J]. Educational Research in Universal Sciences, 2023, 2(11): 320-322.
[37] JONES. N L. Fast annual daylighting simulation and high dynamic range image processing using NumPy[J]. Science and Technology for the Built Environment, 2024, 30(4): 327-340. doi: 10.1080/23744731.2024.2324626
[38] NAMIOT E D, BIDZHIEV M T. Attacks on machine learning models based on the pytorch framework[J]. Automation and Remote Control, 2024, 85(3): 263-271. doi: 10.1134/S0005117924030068
[39] MULLER S K, HOFFMANN J. Modeling and analyzing evaluation cost of CUDA kernels[J]. ACM Transactions on Parallel Computing, 2024, 11(1): 1-53.
[40] SCALFANI V F, PATEL V D, FERNANDEZ A M. Visualizing chemical space networks with RDKit and NetworkX[J]. Journal of Cheminformatics, 2022, 14(1): 87. doi: 10.1186/s13321-022-00664-x
[41] OKURA Y. [Fundamentals] 4. Visualization in python programming: How to use matplotlib and seaborn[J]. Nihon Hoshasen Gijutsu Gakkai zasshi, 2023, 79(7): 723-731. doi: 10.6009/jjrt.2023-2228
[42] SUNDARALINGAM S, RAMANATHAN N. Efficient plastic categorization for recycling and real-time annotated data collection with TensorFlow object detection model[J]. Environmental Research Communications, 2023, 5(10): 105005. doi: 10.1088/2515-7620/acfecf
[43] YANG J, CAI Y, ZHAO K, et al. Concepts and applications of chemical fingerprint for hit and lead screening[J]. Drug Discovery Today, 2022, 27(11): 103356. doi: 10.1016/j.drudis.2022.103356
[44] LAMBRINIDIS G, TSANTILI-KAKOULIDOU A. Challenges with multi-objective QSAR in drug discovery[J]. Expert opinion on drug discovery, 2018, 13(9): 851-859. doi: 10.1080/17460441.2018.1496079
[45] ZANG C, WANG F. Moflow: An invertible flow model for generating molecular graphs[C]//Association for Computing Machinery. Proceedings of the 26th ACM SIGKDD International Conference on Knowledge Discovery & Data Mining. Virtual Event, CA, USA: Association for Computing Machinery, 2020: 617–626.
[46] GUIMARAES G L, SANCHEZ-LENGELING B, OUTEIRAL C, et al. Objective-reinforced generative adversarial networks (organ) for sequence generation models[EB/OL]. [2023-12-15]https://arxiv.org/abs/1705.10843v1.
[47] PALMIERI V E, ALVAREZ C E, PERMINGEAT H R, et al. A122S, A205V, D376E, W574L and S653N substitutions in acetolactate synthase (ALS) from Amaranthus palmeri show different functional impacts on herbicide resistance[J]. Pest Management Science, 2022, 78(2): 749-757. doi: 10.1002/ps.6688
[48] RAVAL K, GANATRA T. Basics, types and applications of molecular docking: A review[J]. IP International Journal of Comprehensive and Advanced Pharmacology, 2022, 7(1): 12-16. doi: 10.18231/j.ijcaap.2022.003