ctb9.0_LDC2016T13 Chinese Treebank 9.0
介绍Chinese Treebank 9.0 包含大约 200 万字的注释和解析文本,来自中文新闻专线、政府文件、杂志文章、各种广播新闻和广播对话节目、网络新闻组、博客、论坛、聊天消息和转录的对话电话语音。中国树库项目于 1998 年在宾夕法尼亚大学开始,在科罗拉多大学继续,然后转移到布兰代斯大学。该项目的目标是提供一个大型的、词性标记的和完全括号的中文语料库。第一个交付,中国树库 1.0,包含来自新华社新闻专线的 100,000 个句法注释词。它后来被更正并于 2001 年作为中国树库 2.0 (LDC2001T11)发布,由大约 100,000 字组成。2004年, LDC发布了中文树库4.0(LDC2004T05),更新版本约40万字。一年后,LDC发布了50万字的中文树库5.0(LDC2005T01)。2007年发布的中文树库6.0(LDC2007T36),包含78万字。Chinese Treebank 7.0 (LDC2010T07)于 2010 年发布,增加了新的带注释的新闻专线数据、广播材料和网络文本,总字数约为 100 万字。 Chinese Treebank 8.0 ( LDC2013T21 ) 包括来自新闻专线、杂志文章和政府文件的新注释数据。Chinese Treebank 9.0 增加了更多带注释的网络数据和两个新的流派——聊天消息和转录的对话电话语音。数据本次发布共有文本文件3,726个,包含132,076个句子,2,084,387个单词,3,247,331个字符(汉字或外文)。数据以 UTF-8 编码提供,注释具有 Penn Treebank 样式的标记括号。注释标准的详细信息可以在随附的分段、POS 标记和括号指南中找到。数据以四种不同的格式提供:原始文本、分词、POS 标记和句法括号格式。所有文件都经过自动验证和手动检查。