击败Llama 2，抗衡GPT-3.5，Stability AI新模型登顶开源大模型排行榜

巴比特_

2023-07-24 02:41:13

原文来源：机器之心

图片来源：由无界 AI‌ 生成

一眨眼，开源大模型又进步了。谷歌、OpenAI真的没有护城河？

「我就午休了 30 分钟，我们的领域又变了？」在看到最新的开源大模型排行榜后，一位 AI 领域的创业者发出了灵魂追问。

排行榜链接：

上图红框中的「新秀」是来自 Stability AI 和 CarperAI lab 的两个大模型：FreeWilly 1 和 FreeWilly 2。刚刚，它们超越了 Meta 三天前发布的 Llama-2-70b-hf，成功登顶 HuggingFace 的 Open LLM 排行榜榜首。

更引人注目的是，FreeWilly 2 在很多基准上还击败了 ChatGPT（GPT-3.5），成为首个真正可以和 GPT-3.5 相抗衡的开源大模型，这是 Llama 2 都没有做到的事情。

FreeWilly 1 基于原始的 LLaMA 65B 基础模型构建，并且在标准 Alpaca 格式下，使用新的合成数据集进行了仔细的有监督微调（SFT）。FreeWilly2 则基于最新的 LLaMA 2 70B 基础模型构建。

从 Stability AI 发布的博客中，我们可以看到这两个新模型的一些细节：

数据来源

FreeWilly 模型的训练方法直接受到了微软在其论文《Orca: Progressive Learning from Complex Explanation Traces of GPT-4》中首创的方法的启发。虽然 FreeWilly 的数据生成过程与之相似，但二者在数据来源方面存在差异。

FreeWilly 的数据集包含了 60 万个数据点（大约是原始 Orca 论文使用的数据集大小的 10%），它是通过以下由 Enrico Shippole 创建的高质量指令数据集来启发语言模型生成的：

COT Submix Original
NIV2 Submix Original
FLAN 2021 Submix Original
T0 Submix Original

采用这种方法，研究者使用了一个较简单的 LLM 模型生成了 50 万个示例，并使用一个更复杂的 LLM 模型生成了额外的 10 万个示例。为了确保公平比较，他们仔细筛选了这些数据集，并删除了来源于评估基准测试的示例。尽管训练样本数量仅为原始 Orca 论文的 1/10（相比原始论文大大降低了训练模型的成本和碳排放），但由此产生的 FreeWilly 模型在各种基准测试中表现出色，验证了他们采用合成数据集的方法的有效性。

性能数据

为了对这些模型进行内部评估，研究者使用了 EleutherAI 的 lm--harness 基准，并加入了 AGI。

其中，lm--harness 基准由 EleutherAI 非盈利人工智能研究实验室创建，前面提到的 HuggingFace Open LLM 排行榜背后运行的就是该基准，它会在 Hugging Face 计算集群的空闲周期中运行评估，并将结果存储在数据集中，然后在在线排行榜空间上显示。

AGI 则由微软创建，专门用于评估基础模型在「以人为本」（human-centric）的标准化考试中的表现，比如数学竞赛、律师资格考试。

在许多方面，两个 FreeWilly 模型表现都非常出色，包括复杂的推理、理解语言的微妙之处，以及回答涉及专业领域（如法律和数学问题）的复杂问题。

两个模型在 lm--harness 基准上的评估结果如下（这些 FreeWilly 测试结果是由 Stability AI 研究人员来评估的）：

二者在 AGI 基准上的表现如下（全部是 0-shot）：

此外，他们还在 GPT4ALL 基准上对两个模型进行了测试（全部是 0-shot）：

总体来看，这两个模型的性能表现都非常优秀，进一步缩小了与 ChatGPT 等顶级 AI 大模型的差距。想要获取模型的同学可以点击以下链接。

FreeWilly 1：

FreeWilly 2：

从各方反应来看，FreeWilly 模型的出现给大家带来了一点小小的震撼，因为它们来得实在是太快了，毕竟 Llama 2 才刚刚推出 3 天，排行榜位置都没坐热。有位研究者表示，他最近刚做了眼科手术，一个星期没看新闻，但感觉自己已经昏迷了一年。所以，这是一段「不能眨眼」的时期。

不过，需要注意的是，虽然两个模型都是开放获取的，但和 Llama 2 不同，它们是以非商业许可的形式发布的，仅可用于研究目的。

然而，这样的做法引起了网友质疑。

对此，Stability AI的研究者回复说，这种情况（仅用于研究目的）只是暂时的，未来，FreeWilly 有望像 Llama 2 一样允许商用。

此外，也有人对测试采用的基准产生了质疑：

这也是当前一个比较棘手的问题。此前，Falcon 模型在 HuggingFace 排行榜上碾压 Llama 的事件备受争议，后来，该事件彻底反转，事实证明 Llama 并未被 Falcon 碾压，HuggingFace 也为此重写了排行榜代码。在大模型层出不穷的今天，如何有效地评估这些模型依然是一个值得讨论的问题。因此，对于这些登顶排行榜的模型，我们有必要保持更加谨慎的态度，等待更多的评测结果出炉。

参考链接：

此页面可能包含第三方内容，仅供参考（非陈述/保证），不应被视为 Gate 认可其观点表述，也不得被视为财务或专业建议。详见声明。

赞赏
点赞
评论
转发
分享

0/400

暂无评论