1. 首页
  2. 数据库
  3. 其它
  4. CS196W21 源码

CS196W21 源码

上传者: 2021-04-26 23:02:45上传 ZIP文件 4KB 热度 11次
CS196 W21研究项目 一种Python运算法则,用于处理带字幕的视频,并以纯语音形式(仅包含人类对话)返回映射到时间戳的字幕语料库。 先决条件 Python> = 3.7.0 pip(应使用python自动安装,在某些Linux发行版中可能会有所不同) 要求 为了运行此python脚本,请运行pip -r requirements.txt以便安装所需的依赖项。 输入 该算法将视频文件作为输入,如下所示: python3 subtitleExtract.py a_subtitled_video_clip.mp4 然后,它会创建一个文件夹,其中包含根据时间范围命名的捕获帧以及修剪后的音频。 动机 开发用于语音识别的语料库需要大量的体力劳动来转录音频文件并将其映射到给定的单词。但是,存在大量以字幕视频形式存在的原始数据,当前在语音识别任务中无法使用这些原始数据。使用预先存在的字幕视频自动
用户评论