1. 首页
  2. 课程学习
  3. 数据库
  4. 中文歌词语义处理数据库【NLP自然语言处理数据资源】

中文歌词语义处理数据库【NLP自然语言处理数据资源】

上传者: 2023-12-03 09:32:00上传 ZIP文件 34.15MB 热度 65次

ChineseLyrics中文歌词数据库【NLP自然语义处理数据集】包含超过10万首歌曲的丰富数据,为从事NLP和数据分析领域的同行提供了有价值的参考。该数据库通过网络采集并整理,包括2019年之前的绝大多数华语歌手的作品,涵盖4019位歌手,其中有1086位歌手的作品数量达到20首以上,233位歌手的作品数量超过100首,总计102,197首歌曲。平均每位歌手贡献了25.4首歌曲。这些歌词数据已经被分别记录在5个json文件中,按歌手进行了聚类,同时根据作品数量进行了降序排列。文件包括歌名、歌手名、歌词等信息,方便进行多维度的分析和研究。此外,数据库还提供了词频统计的相关信息,包括将所有歌词的词频排序、将用作句子开头的词语按词频排序以及根据拼音押韵表统计得到的拼音押韵信息。这为研究歌词语义、歌手风格和音乐文化提供了丰富而全面的素材。

用户评论