当前大语言模型的兴起为自然语言处理、搜索引擎、生命科学研究等领域的研究者提供了新思路,但大语言模型存在资源消耗高、推理速度慢,难以在工业场景尤其是垂直领域应用等方面的缺点。针对这一问题,提出了一种多尺度卷积神经网络(convolutional neural network,CNN)与双向长短期记忆神经网络(long short term memory,LSTM)融合的唐卡问句分类模型,本文模型将数据的全局特征与局部特征进行融合实现唐卡问句分类任务,全局特征反映数据的本质特点,局部特征关注数据中易被忽视的部分,将二者以拼接的方式融合以丰富句子的特征表示。通过在Thangka数据集与THUCNews数据集上进行实验,结果表明,本文模型相较于Bert模型在精确度上略优,在训练时间上缩短了1/20,运算推理时间缩短了1/3。在公开数据集上的实验表明,本文模型在文本分类任务上也表现出了较好的适用性和有效性。
针对新闻标题文本分类任务,文章提出的EWLTC(ERNIE with Whole Layers for ***)模型旨在获取文本的不同层级的特征信息,通过抽取预训练模型ERNIE的12层Eneoder层输出中的CLS向量,利用注意力机制进行加权求和作为全连接层的输入。通过实...
详细信息
针对新闻标题文本分类任务,文章提出的EWLTC(ERNIE with Whole Layers for ***)模型旨在获取文本的不同层级的特征信息,通过抽取预训练模型ERNIE的12层Eneoder层输出中的CLS向量,利用注意力机制进行加权求和作为全连接层的输入。通过实验证明,EWLTC模型在中文新闻标题文本数据集上能够获得更为优秀的表现。
文章搜集了678部电影并将其作为数据,选择电影制式、电影题材、制片地区、发行公司、是否I P续集、主演、导演、编剧以及档期等作为主要影响因素,使用合理方法将这些影响因素进行量化并归一化处理后,随机选取其中300部电影使用随机森林算法计算特征重要性,并使用对数变换计算权重,之后使用BP神经网络对剩余电影进行票房预测。实验表明,对电影影响因素赋予权重后的模型十折交叉验证R-Sq ua red均值为0.7998,高于未进行权重赋予的0.6641,并且在对知名电影进行预测时,权重赋予后的模型的预测值总体上也更接近实际值,可见使用随机森林特征重要性分数进行权重赋予可以在一定程度上提高票房预测效果。
暂无评论