1. 首页
  2. 数据库
  3. 其它
  4. EN data_mining:数据挖掘历史报纸元数据(METSALTO格式) 源码

EN data_mining:数据挖掘历史报纸元数据(METSALTO格式) 源码

上传者: 2021-03-09 06:06:01上传 ZIP文件 48.43MB 热度 7次
EN-data_mining 数据挖掘历史报纸的元数据(欧洲报纸项目) 概要 欧洲数字图书馆馆藏的报纸是由Europeana Newspapers( )项目进行的OLR(光学布局识别)数据集的一部分。 OLR的改进包括使用METS / ALTO格式描述每个问题和文章的结构(空间范围,标题和字幕,内容类型的分类)。 从每个数字文档中得出一组书目元数据(出版日期,标题)和与内容和布局有关的定量元数据(页面,文章,单词,插图等的数量)。 Shell和XSLT或Perl脚本用于从METS清单或ALTO文件中提取一些元数据。 安装 您可以使用XSLT样式表(使用DOS脚本调用)或Perl脚本(更快
用户评论