零阶优化器MeZO在大型语言模型微调中的内存高效应用

上传者：cabin1234 2023-12-18 12:41:03上传 PDF文件 714.56KB 热度 65次

语言模型（LM）的微调在各类下游任务中取得了显著的成功，然而，随着LM规模的增加，反向传播所需的内存量也随之增大。传统的零阶（ZO）方法理论上可以通过仅使用两次前向传递来估计梯度，但在优化大型模型时速度极其缓慢。在本研究中，我们提出了一种内存高效的零阶优化器，即MeZO。MeZO采用经典的ZO-SGD方法进行就地操作，使得在微调LM时只需使用与推理相同的内存占用。我们进行了综合实验，涵盖了不同模型类型（屏蔽和自回归LM）、不同模型规模（高达66B）和不同下游任务（分类、多项选择和生成）。研究结果表明：（1）MeZO相比上下文学习和线性探测取得了显著的优势；（2）MeZO在性能上达到了与跨多个任务的反向传播微调相当的水平，最多减少了12倍的内存；（3）MeZO兼容全参数和参数高效调优技术，如LoRA和前缀调优；（4）MeZO能够有效地优化不可微分的目标，例如最大化精度或F1。我们的实验发现得到了理论支持，强调充分的预训练和任务提示是如何使MeZO能够成功微调大型模型的关键。

下载地址

用户评论

更多下载

下载地址

立即下载

用户评论

零阶优化器MeZO在大型语言模型微调中的内存高效应用

语言模型（LM）的微调在各类下游任务中取得了显著的成功，然而，随着LM规模的增加，反向传播所需的内存...

大小：714.56KB | 2023-12-18 12:41:03
大型语言模型综合应用器，微调本地知识库模式

大型语言模型综合应用器整合了当前市场上流行的主流大型语言模型，并结合了langchain本地知识库模...

大小：17.46MB | 2023-11-27 04:52:55
Meta大型语言模型LLaMA 2

Meta公司开发的大型语言模型LLaMA 2，拥有强大的文本处理能力。

大小：5.06MB | 2024-05-07 00:00:08
大型语言模型能够自我改进

大型语言模型能够自我改进.pdf

大小：531.56KB | 2023-07-22 12:27:23
大型语言模型在教育中的应用和挑战探究

大型语言模型在人工智能领域取得了重大进展，也为教育领域带来了机遇和挑战。本文从学生和教师的角度分析了...

大小：180.6KB | 2023-07-26 22:03:22
聊天GPT和大型语言模型（LLMs）的应用指南

想了解聊天GPT的实际工作原理吗？这门课程将给您提供大型语言模型（LLM）的所有信息，包括提示设计、...

大小：220.22MB | 2023-06-26 07:09:51
大型语言模型是零样本推理者.pdf

大型语言模型是零样本推理者.pdf

大小：744.58KB | 2023-07-22 12:24:20
大型语言模型在人工智能领域的应用与发展趋势

近年来，随着深度学习技术的发展，大型语言模型在人工智能领域中扮演着越来越重要的角色。ChatGPT4...

大小：56.4KB | 2023-06-03 01:08:26
关于评估基于代码训练的大型语言模型.pdf

本文主要探讨了评估基于代码训练的大型语言模型的相关问题。语言模型在计算机编程领域具有重要的作用，因此...

大小：1.8MB | 2023-07-22 12:28:17
有哪些大型语言模型比ChatGPT更先进？

除了ChatGPT之外，还有很多大型的语言模型。下面小编介绍一些主要的大型语言模型。 1. BERT...

大小：10.65KB | 2023-05-20 07:47:26
ChatGPT大型语言模型的“涌现”能力在哪儿？

ChatGPT等大型语言模型的出现使得其表现出了令人惊讶的涌现能力。这些模型只接受一串文本作为输入，...

大小：113.62KB | 2023-05-08 19:43:59
GPT技术：大型语言模型生成文本的新突破

GPT技术正在取得新的突破，其大型语言模型生成文本的能力让其能够进行规划和推理。未来潜力无穷！尽管现...

大小：20.77KB | 2023-06-22 13:29:56
基于大型语言模型的电池研究工具的机遇和挑战

基于大型语言模型的电池研究工具，对于电池研究领域而言，既是机遇也是挑战。这种基于大型语言模型的工具能...

大小：1.24MB | 2023-09-04 00:29:39
OpenAI最新多模态大型语言模型GPT-4的测试与应用

最近，人工智能领域内最为关注的莫过于OpenAI的最新多模态大型语言模型GPT-4。虽然目前仅对部分...

大小：125.73KB | 2023-05-08 08:53:03
电池研究的机遇与挑战——基于大型语言模型的工具的应用前景

本文探讨了基于大型语言模型的工具在电池研究中的机遇和挑战。电池作为能源存储和转换的核心技术，在各个领...

大小：1.24MB | 2023-07-22 18:11:02
ChatGPT的工作原理详解（透析大型语言模型的生成奥秘）

ChatGPT（Generative Pre-trained Transformer）是一种基于神经...

大小：11.24MB | 2023-06-13 06:34:06