星空对话BERT第11课:论文解读、数学推导与完整实现
星空对话 BERT 的第 11 课,挺适合想搞清楚 BERT 源码细节的朋友。课程内容不只是讲讲架构图这么简单,而是把Token Embeddings、Attention、LayerNorm这些模块都一行行地过,还原了整个BERT Encoder的结构。讲得比较清楚,能跟着改、跟着调试那种。
每节课都有侧重点,比如第 2.2 节直接上论文讲Bidirectional机制、MLM和NSP,挺适合搭配原文食用,不然只看 paper,光看公式真心头大。
源码方面也不藏着掖着,像vocab 构建、数据预这些步骤都有完整演示,照着抄就能跑。再加上晚上 9 点在 B 站直播,有啥不懂还可以去问,贴心。
比较推荐几个配套资源:BERT_Transformer_Summary 源码、图解 BERT 实战附代码、Python 大规模 Transformer 模型,一起看更爽。
如果你是刚入门Transformer、准备撸BERT项目,或者想深挖下注意力机制背后的数学推导,这套视频和源码,蛮值得花点时间看一看。
下载地址
用户评论