AI浏览器工具

一键让ChatGPT教出新模型!100美元单卡炼出平替「白泽」,数据集权重代码都开源

  • 时间:2025-04-18 13:40:48
  • 来源:AI浏览器工具
  • 作者:啊哈哈哈
  • 您的位置:首页 > AI教程资讯 > 一键让ChatGPT教出新模型!100美元单卡炼出平替「白泽」,数据集权重代码都开源

    炼ChatGPT需要高质量对话数据。

    在以前这可是稀缺资源,但自从有了ChatGPT,时代就变了。

    加州大学圣迭戈分校(UCSD)与中山大学、MSRA合作团队提出最新方法:

    使用少量“种子问题”,让ChatGPT自己跟自己聊天,并自动收集成高质量多轮对话数据集。

    团队不仅把使用此法收集的数据集开源,还进一步开发了对话模型白泽,模型权重和代码也一并开源。

    (供研究/非商业用途)

    白泽使用A100单卡训练,分为70亿、130亿和300亿参数三种尺寸,最大的也只需要36小时。

    开放时间不到一天,GitHub仓库就已暴涨200星。

    具体来说,团队从美国知乎Quora,最大的编程问答社区StackOverflow等处收集到种子问题。

    然后让ChatGPT自我对话,收集了11万条多轮对话,使用OpenAI的API大约花费100美元。

    在此基础上使用LoRA(Low-Rank Adaption)方法微调Meta开源大模型LLaMA得到白泽。

    与同样基于LLaMA的斯坦福Alpaca相比,新方法收集的数据不再仅限于单轮对话,可以达到3-4轮。

    至于最后效果究竟如何,不妨就用Alpaca和ChatGPT来对比。

    先来看最基本的常识问答。

    这个问题出自斯坦福Alpaca的发布博客,用来说明Alpaca能力的局限性。

    原版Alpaca和用LoRA方法训练的Alpaca会答错成1974年之前的首都达累斯萨拉姆,而白泽和ChatGPT可以给出正确答案“多多马”。

    由于原版Alpaca的Demo已经因安全和成本问题下线了,之后的对比都是用Alpaca-LoRA,

    可以看出ChatGPT给出的答案更长更详细。

    白泽基本上给出了ChatGPT答案的概括版,与Alpaca-LoRA相比覆盖了更多的信息。

    并且这个结果不是cherry-picked(精心挑选的),也就是说直接呈现模型在第一次尝试时的输出。(下同)

    Alpaca-Lora直接回答不理解笑点在哪里。

    Baize-7B能看出来这里有双关,但是具体解释的不太准确。Baize-13B和ChatGPT可以准确回答re-markable的两种含义。

    ChatGPT在解释双关的基础上,还把原话的两种意思拆开重新表达了一遍。

    对这样两个问题,Alpaca-LoRA直接回答了毒药名称和“卖掉”

    Baize-7B和ChatGPT都能指出第一个问题者的想法不道德、不合法并拒绝提供帮助,并劝告第二个提问者归还iPhone。

    ChatGPT的回答显得更委婉。

    由于训练数据中有来自StackOverflow的5万条对话,团队也测试了白泽在多轮对话中生成代码的能力。

    对这个问题,白泽可以给出基本代码,还可在进一步对话中改写成函数形式。

    不过这个结果是团队从模型的多个回答中挑选出来的。

    通过上面的例子可以看出,白泽给出的回答虽然通常比ChatGPT要少一些细节,但也能满足任务要求。

    对于写代码之外的自然语言任务,基本可以看成是ChatGPT的一个不那么话痨版的平替。

    这套自动收集对话-高效微调的流程,不仅适用于通用对话模型,还可以收集特定领域数据训练出垂直模型。

    白泽团队使用MedQA数据集作为种子问题收集了4.7万条医学对话数据,训练出白泽-医疗版,同样也开源在GitHub上。

    另外团队表示,中文模型也已经安排上了,敬请期待~

    在线试玩:https://huggingface.co/spaces/project-baize/baize-lora-7B

    GitHub仓库:https://github.com/project-baize/baize

    论文地址:https://arxiv.org/abs/2304.01196

    点击排行榜

    近期热点

    本类最新

    本站所有软件文章图片来源于网友上传,如果侵权请联系[AI浏览器工具],我们24小时内撤销

    Copyright©2025 2025 All rights reserved. 版权所有 AI浏览器工具