医疗数据命名实体识别项目600份电子病历文本标注数据
医疗文本的 NER 项目,用的还挺顺手的。600 份标注好的电子病历,格式清晰,实体类型也蛮丰富,主要包括解剖部位、疾病名称、药物这些常见医学信息,适合做深度学习模型的训练和测试。如果你正好在搞医疗方向的自然语言,拿这个数据练手还挺合适。
数据都是专业标注的,省去你自己搞标注的时间,挺省事的。预部分能直接上手,比如清洗格式、拆分训练集和测试集,甚至能直接拿来跑个CRF或者LSTM模型。你也可以用spaCy或Transformers做微调,更灵活。
项目代码风格上也比较干净,逻辑结构清楚,适合当模板来改。用的是Python,自然语言那一套工具基本全上了,像NLTK
、gensim
、scikit-learn
这些你都能找到应用。你要是想把 NER 接到自己项目里,这份资源可以当个好的起点。
下面这些资源我也顺手翻了下,有的讲方法,有的能下源码:
如果你刚好在搞医疗 NLP 的实验,或者想找个质量还不错的中文 NER 语料,这份数据和代码可以先试试。记得看清楚实体类别和标注规范,调模型的时候别搞错了格式哈。
下载地址
用户评论