本发明提供了一种基于爬虫的贴音乐标签的方法及系统,本发明在爬虫爬取多个音乐网站的音乐标签记录的基础上,通过对音乐标签记录进行预处理,提高了音乐标签记录的可用性,同时保证了来自不同音乐网站的音乐标签记录具有统一的格式;另外通过歌单标签可信值计算,将歌单标签转化为歌曲标签;利用编辑距离算法,将爬虫爬取到的音乐标签记录中的歌曲名与未贴标签的曲库中的歌曲名进行模糊匹配,建立对应关系,提高了爬虫音乐标签记录的利用率,在保证标签准确性的前提下,最大限度地给曲库贴上更多的音乐标签;同时根据多个音乐网站的音乐标签构建一套完整的音乐标签体系,以音乐标签体系的标签为基准,进行标签融合。
咨询热线:020-38033421
传真号码:020-38061201
电子邮箱:jm@jiaquanip.cn
Copyright © 嘉权专利商标事务所 All Rights Reserved. 粤ICP备2023151901号