第二次打卡
过拟合、欠拟合及其解决方案 初始化模型参数 定义L2范数惩罚项 定义训练和测试 观察过拟合 使用权重衰减 梯度消失、梯度爆炸 获取和读取数据集 预处理数据 训练模型 K折交叉验证 模型选择 预测并在Kaggle中提交结果 循环神经网络进阶 GRU LSTM 深度循环神经网络 双向循环神经网络 机器翻译及相关技术 数据预处理 分词 建立词典 载入数据集 Encoder-Decoder 注意力机制与Seq2seq模型 注意力机制 点积注意力 多层感知机注意力 Transformer Transformer 多头注意力层 基于位置的前馈网络 位置编码 编码器 解码器 作者:一只菜狗
用户评论