近年来,信息技术的迅猛发展不断助推金融全球化、网络化和虚拟化,人工智能、区块链、大数据等驱动的金融创新不仅改变了传统金融业态,也给其带来了新的风险与挑战。首次代币发行(Initial Coin Offering,ICO)即是这种金融科技创新的典型例子,其融合区块链以及加密代币的使用权,来为开发、维护、交换相关产品或者服务的项目进行融资,现在常被用来为区块链项目筹集资金。然而,随着ICO市场的发展,金融欺诈的风险也随之增加。由于ICO的去中心化特性,其融资过程缺乏证监会等机构的严格监管,ICO欺诈者或进行虚假承诺,或实行庞氏骗局,或销售假币,给投资人造成了巨大的经济损失。虽然我国已发布禁令,禁止国内所有ICO交易,但国际上仍有大量区块链项目公开面向中国公民募集资金,单靠我国监管机构的阻挡,无法完全杜绝中国相关资本外流。由此可见,此种金融欺诈行为对我国的金融秩序造成了极大地威胁,不利于我国未来加密代币体系的成熟和加密代币市场的繁荣。因此,要降低ICO投资者的投资风险,保护人民群众的财产安全,就需要及时发现和识别ICO项目的欺诈可能性。ICO项目一般通过发行白皮书来对其项目背景、目标、技术细节等进行详细阐述,因此白皮书是投资者了解ICO信息的重要来源。然而通过人工阅读白皮书的方式区分欺诈与合法ICO,是一项具有挑战性、耗时且容易出错的任务。此外,由于ICO项目发展历史不长,最终司法判决的发生率较低,很难确定真正欺诈的案件,尚未被起诉欺诈的项目也未必是完全可靠的,这就需要制定严格的筛选规则来筛选欺诈与非欺诈样本,且最终确认的欺诈项目数往往小于非欺诈项目数,存在数据非平衡问题。针对以上现状,本文的主要工作与贡献如下:(1)提出了一套不仅包含欺诈ICO项目筛选规则,还规定了非欺诈项目需满足要求的白皮书文本数据集的构建方案。非欺诈ICO项目需满足以下要求:在多个ICO项目评价网站上获得较高评分;筹集到其设立的目标金额;在社交网站上活跃的项目。欺诈ICO项目则:应在评价网站上已被列为欺诈或获得较低评分;不再在社交平台上更新和互动;已从上市平台上摘牌;有针对其的官方诉讼发生。最终该方案收集到194个非欺诈和73个欺诈白皮书样本。(2)提出基于方差迁移的过采样算法(Variance Transfer Oversampling,VTO)以生成新少数类样本,提高欺诈检测模型的分类效果。该算法假设多数类相较于少数类具有更丰富的类内方差,故而将从多数类获取到的类内方差迁移至少数类来创建新样本,以期提升分类效果。该方法首先分别计算多数类和少数类的样本中心点,然后计算多数类样本至其中心的偏移向量,过滤以符合置信条件,最后将经两类特征重要性权重调整的偏移向量置加到少数类样本中心点上,以此构建少数类新样本,使数据集达到类间数量平衡。对比SMOTE、BD-SMOTE等其他过采样算法,VTO在六个KEEL公开数据集上取得了F-score平均排名1.66,PR-AUC平均排名1.5的良好效果。(3)利用自然语言处理技术从文本分析的角度对ICO欺诈问题进行研究,训练机器学习分类器检测ICO欺诈项目,并对其数据非平衡问题分别用修改算法对不同类别的学习权重、VTO等过采样方法进行数据过采样处理、修改代价敏感的损失函数三种非平衡问题处理方法进行处理,建立相应的金融欺诈风险识别模型。实验发现,XGBoost算法相较其他模型具有最好的分类效果,且在对数据集使用VTO算法进行过采样处理后,该模型达到了0.9473的AUC值与83.22%的准确率,优于其他过采样方法,证明本文提出针对非平衡数据进行处理的金融欺诈风险识别模型具有良好的检测效果。
暂无评论