KeyBERT:使用BERT进行最少的关键字提取 源码
基伯特 KeyBERT是一种最小且易于使用的关键字提取技术,它利用BERT嵌入来创建与文档最相似的关键字和关键字短语。 相应的媒体帖子可以在 找到。 目录 2.1。2.2。2.3。2.4。2.5。 1.关于项目 尽管已经有很多方法可用于关键字生成(例如 , ,TF-IDF等),但我想创建一种非常基本但功能强大的方法来提取关键字和关键字。这就是KeyBERT进来的地方!它使用BERT嵌入和简单的余弦相似性来查找文档中与文档本身最相似的子短语。 首先,使用BERT提取文档嵌入,以获得文档级表示。然后,针对N元语法词/短语提取词嵌入。最后,我们使用余弦相似度来查找与文档最相似的词/短语。然后,可以将最相似的词识别为最能描述整个文档的词。 KeyBERT绝不是唯一的,它是一种用于创建关键字和关键词的快速简便的方法。虽然有许多伟大的论文和解决方案,在那里,使用BERT-嵌入物(如, , ,
用户评论