针对新闻标题文本分类任务,文章提出的EWLTC(ERNIE with Whole Layers for ***)模型旨在获取文本的不同层级的特征信息,通过抽取预训练模型ERNIE的12层Eneoder层输出中的CLS向量,利用注意力机制进行加权求和作为全连接层的输入。通过实...
详细信息
针对新闻标题文本分类任务,文章提出的EWLTC(ERNIE with Whole Layers for ***)模型旨在获取文本的不同层级的特征信息,通过抽取预训练模型ERNIE的12层Eneoder层输出中的CLS向量,利用注意力机制进行加权求和作为全连接层的输入。通过实验证明,EWLTC模型在中文新闻标题文本数据集上能够获得更为优秀的表现。
文章搜集了678部电影并将其作为数据,选择电影制式、电影题材、制片地区、发行公司、是否I P续集、主演、导演、编剧以及档期等作为主要影响因素,使用合理方法将这些影响因素进行量化并归一化处理后,随机选取其中300部电影使用随机森林算法计算特征重要性,并使用对数变换计算权重,之后使用BP神经网络对剩余电影进行票房预测。实验表明,对电影影响因素赋予权重后的模型十折交叉验证R-Sq ua red均值为0.7998,高于未进行权重赋予的0.6641,并且在对知名电影进行预测时,权重赋予后的模型的预测值总体上也更接近实际值,可见使用随机森林特征重要性分数进行权重赋予可以在一定程度上提高票房预测效果。
暂无评论