✈️ Gate 广场【Gate Travel 旅行分享官召集令】
广场家人们注意啦!Gate Travel 已经上线~ 机票+酒店一站式预订,还能用加密货币直接付款 💸
所以说,你的钱包和你的旅行梦终于可以谈恋爱了 😎 💕
现在广场开启 #GateTravel旅行分享官# 活动,邀你来秀旅行灵感 & 使用体验!💡
🌴 参与方式:
1️⃣ 在【广场】带话题 #Gate Travel 旅行分享官# 发帖
2️⃣ 你可以:
你最想用 Gate Travel 去的目的地(私藏小岛 or 网红打卡点都行)
讲讲用 Gate Travel 订票/订酒店的奇妙体验
放放省钱/使用攻略,让大家省到笑出声
或者直接写一篇轻松的 Gate Travel 旅行小故事
📦 奖励安排,走起:
🏆 优秀分享官(1 名):Gate 旅行露营套装
🎖️ 热门分享官(3 名):Gate 旅行速干套装
🎉 幸运参与奖(5 名):Gate 国际米兰旅行小夜灯
*海外用户 旅行露营套装 以 $100 合约体验券,旅行速干套装 以 $50 合约体验券折算,国际米兰旅行小夜灯以 $30合约体验券折算。
📌 优质内容将有机会得到官方账号转发翻牌提升社区曝光!
📌 帖文将综合互动量、内容丰富度和创意评分。禁止小号刷贴,原创分享更容易脱颖而出!
🕒 8月20 18:00 - 8月28日 24:00 UTC+
人类数据告急,微软OpenAI开始用AI喂AI,奥特曼放话:未来所有数据都将变成合成数据
原文来源:量子位
人类数据缺缺缺,AI被迫开始吃AI生产的数据了!
这是微软、OpenAI等一众AI前沿公司面临的现状。
他们从维基百科、电子书、新闻网站、博客、推特和Reddit等平台和论坛中搜罗了大量数据,然后现在……这些数据快被用完了。
据《金融时报》介绍,不少公司正把大模型生成的结果、也就是所谓的合成数据(Synthetic data),喂给参数量更小的大模型吃,发现效果还不错。
对于使用合成数据,OpenAI的CEO Sam Altman不仅不介意,还放话“未来所有数据都将变成合成数据”。
估值20亿美元的大模型初创公司Cohere同样在用合成数据。公司CEO、经典大模型Transformer论文作者之一Aidan Gomez甚至认为:
所以,究竟哪些大模型已经在用合成数据了,这些合成数据又是从何而来?
大AI合成数据,小AI吃
这些所谓的合成数据,本质上是用当前表现较好的大模型生成的数据,经过人工调整后,再喂给稍微小一点的大模型。
例如Cohere公司就尝试使用了两个大模型进行“角色扮演”对话,并将它们生成的结果做成合成数据。
这两个大模型分别扮演“数学老师”和“学生”,正在进行一堂虚拟的数学教学。同时,Cohere安排一个人类员工在旁边监督对话生成。
尽管确实还需要人力,但这比聘请科学、医学和商业方面的专家来撰写文本要便宜得多。
那么,什么样的大模型会用到这些合成数据呢?
微软研究院最近有研究表明,合成数据可以用于训练比GPT-4或PaLM-2稍微小一点的语言模型。
以用GPT-4生成的一个“四岁儿童小说”数据集TinyStories为例,这个数据集被证明虽然只包含4岁小孩能理解的单词,但用于训练一个大模型之后,同样可以生成语法正确、阅读体验流畅的故事:
背后产业链已出现
目前,包括Scale AI、Gretel.ai等企业,已经开始给外界提供合成数据服务。
先是Scale AI,旗下就推出了一款合成数据产品Scale Synthetic,用于给企业提供合成数据服务。
而在之前一篇SemiAnalysis爆料GPT-4“大花边”的新闻中,还提到GPT-4的数据集中,有数百万行是来自Scale AI和内部的指令微调数据。
但并非所有人都接受合成数据这种“神奇操作”,目前各方的看法主要分成两波。
一部分赞同使用合成数据。包括Cohere等AI公司在内,有不少搞大模型的企业仍然坚持这一做法,并认为它可能生成更好的AI,甚至从中诞生出“超级智能”。
另一部分则认为,合成数据终将让AI“自食其果”。
例如一篇来自牛津大学、剑桥大学、帝国理工学院、多伦多大学、爱丁堡大学和Vector Institute多家机构的研究表明:
参考链接:
[1]
[2]
[3]
[4]