您的位置:首页 >财经 >

观察|大模型“幻觉”里的算力与数据,谁会先成为“赛点”?

2023-07-09 21:09:52    来源:北京商报

全球大模型群雄逐鹿,算力最先告急。今年5月29日,英伟达创始人黄仁勋断言,“我们已经达到生成式AI引爆点,从此全世界的每个角落都会有算力需求”。一天后,英伟达市值突破万亿美元,屹立世界之巅。


(资料图片仅供参考)

英伟达将世界的目光聚焦在了风云变幻的算力、显卡江湖。2023世界人工智能大会期间,有人直言,没有大算力做大模型就是天方夜谭。但也有人认为,数据要素在人工智能大模型的发展中具有关键性作用,决定了模型的训练质量、性能表现和应用领域的广度与深度。

人们常把算力、算法、数据形容为人工智能的三驾马车,但这三驾马车之间可能也不是完全的并行关系。如果说算力是大模型的“根”,那数据或者说是高质量的语料库,或许就会成为算力的“根”。

一热一“冷”

大模型浪潮,率先将算力推至风口浪尖。2023世界人工智能大会上,算力成为大模型绝对的关键词之一。中国工程院院士、鹏城实验室主任高文把算力比作电力,认为没有大算力做大模型就是天方夜谭。华为轮值董事长胡厚崑也提到,大模型训练的效率或者是创新的速度,根本上取决于算力的大小。中国的算力已经成为一个越来越稀缺的资源。

大会期间,毕马威与联想集团联合发布《普慧算力开启新计算时代》报告。毕马威中国数字化赋能主管合伙人张庆杰在解读报告时提到,算力供给增速明显难以满足指数式爆发的需求,储备算力成为各行各业的必要举动。

据了解,深度学习出现之前,用于AI训练的算力增长大约每20个月翻一番;之后,用于AI训练的算力大约每6个月翻一番;2012年后,全球头部AI模型训练算力需求更是加速到每3个月至4个月翻一番,即平均每年算力增长幅度达到惊人的10倍;目前大模型发展如火如荼,训练算力需求有望扩张到原来的10-100倍,算力需求的指数级增长曲线将更加陡峭。

大模型对算力的需求是显而易见的,但更关键的点可能在于是否能把算力更高效地挖掘出来。一位芯片企业的技术人员对北京商报记者提到,一个模型上线需要用到很多硬件,如果只支撑了少量用户,就会因为太贵导致用户不买账,由此撑不起正向循环的情况,但太便宜又会出现亏本的问题。特别是到落地阶段,如何能够结合模型上的一些改进,把硬件的特性最大程度地发挥出来,就会变得非常重要。

“也就是说在训练阶段,大家对算力的追求可能是‘大’,这一方面能够做出更大的模型,另一方面也能够进行更快速的迭代。但到用户开始接受这个效果的时候,就要涉及到怎样做才能更划算的问题,也就是说在部署阶段,可能要更关注‘精’的问题,尽可能用相对少的算力实现最大程度的作用。”上述技术人员说道。

大会期间,比起对算力的探讨,数据就显得有些“冷清”了。“数据要素比大模型早好几年,大模型被‘炒’起来了,但数据要素却一直不温不火”,7月8日,在2023世界人工智能大会“大模型时代下的数据要素流通”论坛的主题演讲中,拓尔思总裁施水才开场便提出了这样一种现象,在他看来,这场论坛为人们认识数据要素流通提供了一个新的视角。

大模型幻觉

在上述论坛上,中国知网副总经理张宏伟表示,数据是人工智能的基石,数据的质量和数量最终决定人工智能水平高低,影响其安全性、可信性。施水才更是认为,高质量数据才是大模型价值跃迁的制胜法宝。

但当下的问题在于,数据并不都是高质量的。过去一段时间,一度出现“AI正在污染中文互联网”的讨论,而AI最让人诟病的就是“幻觉”问题,也就是人们常说的“一本正经地胡说八道”。

大模型“幻觉”也是人工智能大会期间被提到的高频词汇。施水才对北京商报记者提到,“幻觉”问题的出现,主要是因为大模型缺乏理论的支撑,因为其核心技术原理主要就是Transformer架构下的Next Token Prediction,即“下一个字符的预测”。另一方面大模型并不是越大越好,数据也不是越多越好,真正好的大模型是参数大小适中,数据高质量。

算力可以堆硬件,相比起来,优质数据的供给可能会复杂得多。上海数据交易所总经理汤奇峰认为,大模型时代下的语料库建设存在语料库供给不足、语料库质量不高、语料库多样性匮乏、语料库标准欠缺等问题。

在接受北京商报记者采访时,上海数据交易所副总经理韦志林提到,从推动数字经济,推动数据作为生产要素的角度看,数据应该是最核心、最长远、最基础性的因素。“大模型的预训练对数据要求也特别高,必须在前期进行清洗、标注、标识,但围绕千行百业的数据训练,在数据供给方面也呈现出了许多问题和挑战。”

首要的就是头部厂商并不愿意开放数据。数据是生产要素,数据有价值,这些已经达成共识,但进行数据共享就一定会牵扯到安全问题,如何解决数据在共享过程中的安全机制至关重要。而数据的开放流通,也自然涉及收益分配,且数据流通过程中创造的新价值更多服务于企业内部,拿出去的动力还需进一步培育。

“所以从数据流通本身看,更多压力还存在供给侧这一方面,需要解决供给侧中产权制度问题、收益分配制度问题、安全问题、基础设施问题等,让数据流通更加便捷、更加合规。”韦志林表示,上海数据交易所作为国家战略的承接者,需要解决的就是这些问题。

据了解,7月8日,上海数据交易所启动语料数据生态创新合作伙伴计划,而在此前一天,上海数据交易所官网刚刚正式上线语料库,累计挂牌近30个语料数据产品,包含文本、音频、图像等多模态,覆盖金融、交通运输和医疗等领域。

汤奇峰称,语料库建设不是单一企业的责任,需要多方共同推进,如果每个企业都单独建设维护语料库,会拉低效率,也会增加企业成本,“数交所希望通过自己的努力加强数据要素建设提升语料库建设效率。”

北京商报记者 杨月涵

标签:

相关阅读

精彩放送

何以中国 宝藏少年问陕西

可信商业助理“天眼妹”亮相华为开发者大会

陕西彬州永乐镇:“三联”助推乡村振兴提质增效

它是中国最早的“验证码”

羊肉炒山药做法?

黑河水运口岸首次进口散装粮食

2023明文化论坛在北京昌平开幕

家居卖场促消费 居然家博会今日正式开启

中央气象台三预警齐发 多地关注高温强对流强降水天气

提供“互联网+就业”不断线服务 护航毕业生求职之路

不胜负荷的意思是什么?(不胜负荷的意思是什么意思)

这届粉丝购房逻辑太清晰,锁定金融城板块天河壹品!

晕了晕了!这一火爆板块指数跌破1000点,机构却大手笔加仓!医疗、酒、游戏ETF份额也在本...

超120国禁用!拜登批准:向乌提供该武器

日均达0.948万吨!湘水集团铜官港6月单月吞吐量再创历史新高

网传“新疆游客断崖式下降”?新疆文旅厅:谣言

我国新能源汽车保有量达1620万辆

中汽协:删除《承诺书》涉及价格表述,敦促车企严格遵守《反垄断法》

同比增长5.3% 上半年全国汽车转让登记业务1057万笔

四川盆地首次打出超80℃温泉,可以煮出名副其实的温泉蛋

退役军人于伍生:他的“民情日记”写满爱民情

197km/h!有人把国省道当高速路开 | 一周违法榜

重磅!管理费率、托管费率双降,超4万亿公募产品受影响

田园题材诗歌有哪些古诗 田园诗有哪些古诗

顺丰快递省内几天到 顺丰加急件24小时能到吗

广州专科学校英语老师招聘 广州专科学校

6月末外汇储备规模为31930亿美元

报告:全球刚经历有记录以来最热6月 南极海冰范围处于历史新低

证监会:支持公募基金管理人及其他行业机构合理调降基金费率

白银投资开户要准备些什么资料?

一份报告背不动日本核污水排海这口“锅”

成渝双城主流媒体实地探索成都大运会的“生态密码”

中国想称霸世界?美国经济学家:杞人忧天!

多家公募调降旗下主动权益类基金管理、托管费率至1.2%、0.2%

进医保的药品在哪儿查?这些医保药品目录热点与你有关

平台“罚单”落地整改完成 金融业务转入常态化监管

校外培训机构从业人员准入查询制度全面推行

形成促进节能与新能源汽车协调发展的市场化机制——新能源汽车积分新规出台

教育系统多措并举持续为未就业毕业生提供就业指导服务

新进展!蚂蚁整改完成后启动股份回购,补充员工激励池

博野县:“小墙绘”撬动人居环境“大改观”

广东17岁女孩遭人强奸,母亲带百人当街打死罪犯,最后被判刑5年

java语言是什么(java语言是什么)

东睦股份(600114)7月7日主力资金净买入3283.67万元

中金回应女子晒丈夫月薪超8万 女子回应赚5亿不如月薪5千生娃好 基本情况讲解

蚂蚁集团回应被罚71.23亿元:将进一步夯实合规治理水平

国际原油期货收盘涨超2%

我国数据库市场规模超400亿元

强降水警报!2小时内,黔江酉阳小时雨强或达30毫米以上

农业农村部:维护农业生产流通秩序 全力抓好春耕生产和“菜篮子”产品供应

金市健言:纳指15210空再获大胜!黄金1903多1933空

田源站_关于田源站介绍

非农势必点燃黄金市场大行情!分析师:若报告强势“令人震惊” 金价恐大跌约45美元

云图控股(002539):7月7日北向资金增持62.52万股

今天凌晨01点50分,中国人民解放军西部战区进行了一场实弹演习

股票行情快报:越秀资本(000987)7月7日主力资金净卖出36.68万元

放屁多是怎么回事女性 放屁多是怎么回事

标普500能源指数上涨1.59%,马拉松石油(MRO.N)涨超4%,瓦莱罗能源(VLO.N)涨1.5%。

《はじめの一歩》このきち翻译附带罗马音

清明上河图描绘的是哪一个城市的景象(清明上河图描绘的是哪个城市的景象)

武汉硚口:国字号医师坐诊 带来家门口的中医药服务

知乎宣布:此功能下线!

致敬英烈 缅怀遇难同胞 侵华日军南京大屠杀遇难同胞纪念馆举行纪念活动

世界银行前行长:美国无法遏制中国发展

财付通回应30亿罚单:坚决服从和落实,严格执行相关决定 全球观天下

长治市举办全省高标准农田建设工作现场培训班 世界视讯

西藏昌都发放购房补贴:干部职工300元/平米、不能享公积金贷款的群体350元/平米

尘封的铁证|日本学者发掘史料 揭示侵华日军罪行

隆基、天合、晶科等9家组件厂商联合发布矩形硅片组件尺寸标准化倡议|快讯

30亿!支付宝、财付通收巨额罚单!

胡继勇,被双开!董某某,解除合同!

天天快讯:践行科技向善《AIGC可信发展倡议》发布

第二十九届兰洽会安宁(第七届)智库论坛举行

成立“研究院”谋破气候差异化难题 好博窗控立志做“中国人自己的门窗系统”_世界热资讯

香雪制药被申请强制执行

2023款瑞虎5x、长安CS35 PLUS、吉利缤越全面对比,手握6万就选TA!

植保无人机飞手品鉴会在黑龙江宝泉岭农场举行

天天观察:因违反反假货币业务管理规定,邮储银行被罚3186万元

全球人工智能创新指数出炉 中国连续3年世界第二

创新大赛、重磅成果!2023国际AI城市论坛邀您探讨全球前沿城市议题

因违反反假货币业务管理规定 邮储银行被罚3186万元

唐仁健访问希腊_每日精选

环球观察:德邦基金:公司督察长张秀玉因工作调动原因离任

中国石油北京项目管理公司通报胡继勇处理结果:双开

因开展基金销售业务存多项违规行为 蚂蚁基金销售遭罚7368万元

蚂蚁集团回应被罚:诚恳接受、坚决服从 并将进一步夯实合规治理水平

电脑强制关掉应用程序的快捷键(强制关掉程序的快捷键)

虫口夺粮!川渝联防联控水稻“两迁”害虫

全球焦点!北大荒二九〇分公司织牢防汛“安全网”

南宁普通高中招生计划重磅出炉,速来查看!

华为云尤鹏:盘古大模型 为行业而生

马伊琍不是个合格的“大妈”,蓝衬衫配百褶裙优雅温柔,清新减龄

源自福特超级平台,江铃福特新款轻客来袭

农银汇理新能源主题A:百亿基金经理邢军亮掌舵,近一年浮亏32.85%,去年管理费净赚3.12亿元

镜观中国丨双面“绣”姑苏

蛐蛐五线谱安卓版下载 蛐蛐五线谱播放器

遏制中国?他会说不!

半年卖出125万辆,比亚迪再成全球新能源销冠

中国中免上半年营业总收入同比增长29.68% 全球快播

南航与马来西亚航空签署代码共享协议|当前关注