清华唐杰新作WebGLM:参数100亿、主打联网搜索,性能超OpenAI
清华唐杰团队的新作来了:
WebGLM,一个参数 100 亿的联网问答聊天机器人。
你可以问它任何问题,然后它将列举出网上相关的文章链接,整理出答案。
比如:
ChatGPT 的核心技术是什么?
或者:
谁提出的 Music Transformer?它的原理是什么?
再或者:
原神 3.5 版本怎么样?
没有高薪工作,怎么在一线城市生活?
……
它都能给出有理有据的回答。
据介绍,在性能对比测试中,WebGLM 的水平已经高于 OpenAI135 亿参数的 WebGPT,在人类评估中,甚至与 1750 亿参数的模型不相上下。
那么,它是如何训练的?
可以上网的清华系 WebGLM
据介绍,WebGLM 的目标是通过 Web 搜索和检索功能,增强预训练大语言模型,同时可以进行高效的实际部署。
为此,作者基于三种策略进行开发。
首先是大模型增强检索器。
它主要是用于增强模型相关网络内容的检索能力,在给定查询的情况下查找相关引用,以便后面更好地准确回答问题。
它有两个阶段:粗粒度 web 搜索和细粒度 LLM 增强密集检索。
其次是自举生成器。
它利用 GLM的能力为问题生成回复,提供详细的答案。
利用该生成器,作者得到 WebGLM-QA—— 一个 LLM 自举引用和长程的 QA 数据集。
它通过上下文学习等策略进行清洗和过滤,最终包括 45k 的高质量过滤样本和 83k 的噪声样本。
WebGLM 的 backbone 就是一个在该数据集上训练的 GLM 模型。
最后是基于人类偏好的打分器。
它通过优先考虑人类偏好而非昂贵的专家反馈来评估生成回复的质量,确保系统能够产生有用和吸引人的内容。
以上三大组件最终按顺序形成 WebGLM 的 pipeline:
可以看到,正好三个模块,对应前面介绍的三部分,其中:
LLM 增强检索器会将前五个最相关的页面作为参考源,让自举生成器生成多个答案,最终打分器选出最可能符合人类偏好的那一个作为最终输出。
性能超 OpenAI WebGPT
除了 WebGLM 本身,唐杰团队此次还提出了一个网络增强问答系统的评估标准,评估对象既包括参考文献,也包括最终回答。
其中前者衡量相关性、信息密度、真实性、毒性(不含暴力色情等信息)和社会偏见程度这 5 个维度;后者则衡量流畅度、正确性、引用准确性、客观性和冗余程度。
他们用 WebGPT演示网站提供的 272 个问题进行对比评估,并招募了 15 个学历为硕士的志愿者打分。
最终结果如下:
可以看到,尽管 WebGLM 的搜索结果略逊于 WebGPT-175B,但远好于 Perplexity.ai 和 WebGPT-13B。
值得一提的是,WebGLM 检索过程只使用了一些传统的基于单词的算法和两个累计参数量不超过 300M 的 Contriever。
此外,WebGLM 在计算性能和时间消耗方面也明显优于 WebGPT-13B、并与 175B 不相上下。
而在最终结果方面,WebGLM 在流畅度、真实性和冗余度方面均获得最高得分,正确性指标上则接近 WebGPT-175B,远高于 Perplexity.ai 和 WebGPT-13B。
作者表示,这表明 WebGLM 可以以更低的成本获得更高的性能。
部署与训练
WebGLM 发布即开源。
检索器的权重可从清华云上下载。
运行该模型的方式有两种:一是命令行界面,二是 Web 服务形式,并且包含 WebGLM-2B 和 WebGLM-10B 两种可选模型。
你也可以自己训练 WebGLM,官方已提供好了生成器和检索器的训练数据供下载~
论文地址:
GitHub 主页:
声明:本网转发此文章,旨在为读者提供更多信息资讯,所涉内容不构成投资、消费建议。文章事实如有疑问,请与有关方核实,文章观点非本网观点,仅供读者参考。
今日报道
- Nothing首款智能手表新品通过印度BIS认证...
- GLP-1药物新天地:中外药企争相卡位“减重”黄金赛道...
- 无人驾驶卡车遭遇“寒冬”:渐进式路线能否突破商业化落地瓶颈?...
- 基金销售变革悄然兴起“客户盈利比”纳入考核...
- 茅乡中王酒荣登新华财经客户端《国潮品牌》...
- 消息称龙芯有意入局显卡市场,目前已完成通用计算GPU相关IP设计...
- 消息称光刻机巨头ASML最快本月底迎出口管制措施,新规恐将成欧盟效仿...
- 自产电池、薄利多销,大众有信心2025年推出2.5万欧元ID.2汽车...
- 日本眼镜JINS打造舒适时尚老花镜 呵护明媚双眸...
- 1.06亿人次出游!端午节假期国内旅游收入373.10亿元...
精彩热图
24小时新闻排行
最新文章
- 苹果推出visionOS软件开发包,开发者下月可在VisionPro上测
- 苹果VisionPro头显支持视觉搜索功能,可识别物品、复制现实文本、翻
- 关闭或限制部分功能以改善飞机上使用体验,苹果VisionPro头显内置“
- 能链智电控股收购香港光电正式完成交割
- 卓越司庆X端午双节同庆,重磅钜惠持续放送
- 硕大肌肉激情拍摄:尼康尼克尔Z180-600mmf/5.6-6.3VR镜
- 玩家律师:邮件证实微软收购动视暴雪意在灭掉竞争对手索尼PlayStati
- “未来医疗VB-FIND创新展暨医疗器械产品创新与国际合作峰会”报名开启
- Jefferies:受益营业利润率上升和AI机遇亚马逊AMZN.US股价
- 亚马逊AMZN.USPrimeDay即将到来美国消费热情面临重大考验