📢 Gate广场独家活动: #PUBLIC创作大赛# 正式开启!
参与 Gate Launchpool 第 297 期 — PublicAI (PUBLIC),并在 Gate广场发布你的原创内容,即有机会瓜分 4,000 枚 $PUBLIC 奖励池!
🎨 活动时间
2025年8月18日 10:00 – 2025年8月22日 16:00 (UTC)
📌 参与方式
在 Gate广场发布与 PublicAI (PUBLIC) 或当前 Launchpool 活动相关的原创内容
内容需不少于 100 字(可为分析、教程、创意图文、测评等)
添加话题: #PUBLIC创作大赛#
帖子需附带 Launchpool 参与截图(如质押记录、领取页面等)
🏆 奖励设置(总计 4,000 枚 $PUBLIC)
🥇 一等奖(1名):1,500 $PUBLIC
🥈 二等奖(3名):每人 500 $PUBLIC
🥉 三等奖(5名):每人 200 $PUBLIC
📋 评选标准
内容质量(相关性、清晰度、创意性)
互动热度(点赞、评论)
含有 Launchpool 参与截图的帖子将优先考虑
📄 注意事项
所有内容须为原创,严禁抄袭或虚假互动
获奖用户需完成 Gate广场实名认证
Gate 保留本次活动的最终解释权
击败Llama 2,抗衡GPT-3.5,Stability AI新模型登顶开源大模型排行榜
原文来源:机器之心
一眨眼,开源大模型又进步了。谷歌、OpenAI真的没有护城河?
「我就午休了 30 分钟,我们的领域又变了?」在看到最新的开源大模型排行榜后,一位 AI 领域的创业者发出了灵魂追问。
上图红框中的「新秀」是来自 Stability AI 和 CarperAI lab 的两个大模型:FreeWilly 1 和 FreeWilly 2。刚刚,它们超越了 Meta 三天前发布的 Llama-2-70b-hf,成功登顶 HuggingFace 的 Open LLM 排行榜榜首。
更引人注目的是,FreeWilly 2 在很多基准上还击败了 ChatGPT(GPT-3.5),成为首个真正可以和 GPT-3.5 相抗衡的开源大模型,这是 Llama 2 都没有做到的事情。
从 Stability AI 发布的博客中,我们可以看到这两个新模型的一些细节:
数据来源
FreeWilly 模型的训练方法直接受到了微软在其论文《Orca: Progressive Learning from Complex Explanation Traces of GPT-4》中首创的方法的启发。虽然 FreeWilly 的数据生成过程与之相似,但二者在数据来源方面存在差异。
FreeWilly 的数据集包含了 60 万个数据点(大约是原始 Orca 论文使用的数据集大小的 10%),它是通过以下由 Enrico Shippole 创建的高质量指令数据集来启发语言模型生成的:
采用这种方法,研究者使用了一个较简单的 LLM 模型生成了 50 万个示例,并使用一个更复杂的 LLM 模型生成了额外的 10 万个示例。为了确保公平比较,他们仔细筛选了这些数据集,并删除了来源于评估基准测试的示例。尽管训练样本数量仅为原始 Orca 论文的 1/10(相比原始论文大大降低了训练模型的成本和碳排放),但由此产生的 FreeWilly 模型在各种基准测试中表现出色,验证了他们采用合成数据集的方法的有效性。
性能数据
为了对这些模型进行内部评估,研究者使用了 EleutherAI 的 lm--harness 基准,并加入了 AGI。
其中,lm--harness 基准由 EleutherAI 非盈利人工智能研究实验室创建,前面提到的 HuggingFace Open LLM 排行榜背后运行的就是该基准,它会在 Hugging Face 计算集群的空闲周期中运行评估,并将结果存储在数据集中,然后在在线排行榜空间上显示。
AGI 则由微软创建,专门用于评估基础模型在「以人为本」(human-centric)的标准化考试中的表现,比如数学竞赛、律师资格考试。
在许多方面,两个 FreeWilly 模型表现都非常出色,包括复杂的推理、理解语言的微妙之处,以及回答涉及专业领域(如法律和数学问题)的复杂问题。
两个模型在 lm--harness 基准上的评估结果如下(这些 FreeWilly 测试结果是由 Stability AI 研究人员来评估的):
FreeWilly 1:
FreeWilly 2:
从各方反应来看,FreeWilly 模型的出现给大家带来了一点小小的震撼,因为它们来得实在是太快了,毕竟 Llama 2 才刚刚推出 3 天,排行榜位置都没坐热。有位研究者表示,他最近刚做了眼科手术,一个星期没看新闻,但感觉自己已经昏迷了一年。所以,这是一段「不能眨眼」的时期。
参考链接: