本发明公开了一种基于文本多向量相互学习的垃圾评论过滤方法,所述方法首先对训练集的评论文本进行预处理后用多种不同的文本向量表示方法对同一文本进行向量化表示,然后采用同一种分类器训练方法根据这些不同的向量表示方式训练出多个不同的分类器,之后借鉴协同训练的思想让这些分类器间相互学习,并不断将添加集的数据进行标注并移到训练集中;最终可以得到能力都有所提升的多个分类器。本发明借鉴协同训练的思想,只需要人工标注部分数据,即可对剩余数据进行自动标注,这样不仅减少了大量的人工标注数据工作,同时也提升了分类器的分类能力,使得垃圾评论的过滤精度得以提高。
咨询热线:020-38033421
传真号码:020-38061201
电子邮箱:jm@jiaquanip.cn
Copyright © 嘉权专利商标事务所 All Rights Reserved. 粤ICP备2023151901号