大模型横行:不到2月10余个问世 烧30亿就能炼造?激战背后机会在哪儿?-每日热文
ChatGPT的火爆带动了国内对大语言模型的开发热潮。从百度3月份发布“文心一言”以来,不到两个月,国内互联网大厂、AI企业和初创团队陆续官宣了约10个大模型项目。此番热闹场景让不少人感慨:自从“千团大战”之后,中国互联网产业已经有十年没有如此“卷”过了。
面对英伟达CEO黄仁勋所谓的AI“iPhone”时刻,没有人愿意被甩在“大模型时代”的浪潮身后。然而,“炼大模型”需要的是天量的算力支持和资金投入,据悉,仅硬件上的投资就需要30亿元,这无疑考验着参与者的资金实力和战略定力。
(资料图片)
AI大模型最终将是大厂之间的“游戏”吗?中小企业的机会又在哪里?《每日经济新闻》采访了多家互联网大厂、逐浪AI的创业者及行业人士,一窥这场竞速赛中的发展现状。
热到发烫的大模型
随着ChatGPT的现象级爆红,国内科技领域的创业热情也被点燃。一时间,打造“中国版OpenAI”和类ChatGPT产品成为最热门的话题和趋势。
互联网大厂自然不会错失这样的机遇。百度已率先推出“文心一言”,阿里巴巴发布“通义千问”,华为也介绍了“盘古”大模型的最新进展……
据《每日经济新闻》记者的不完全统计,今年3月~4月,已经约有10家企业及机构发布大模型或启动大模型测试邀请。接下来,蓄势待发的还有腾讯的“混元”、京东的“言犀”、字节跳动的自研大模型等一系列大模型。
大厂之外,还有许多重量级科技大佬也已高调入局。原美团联合创始人王慧文、前搜狗CEO王小川、创新工场董事长兼首席执行官李开复等相继成立初创公司,投身AI大模型创业。
图片来源:每经记者兰素英制图
一场“百模大战”就此在国内全面拉开序幕。
一名不愿具名的硅谷大模型工程师认为,国内现在的大模型领域有点过热。“在海外,搞大模型的其实就那么几家。在国内,竞争对手的数量是美国的几倍,而市场就这么大。”他告诉《每日经济新闻》记者。
这种热到发烫的形势也让许多人质疑,蜂拥的投入能不能在商业价值上带来回报。长期关注芯片产业的集微咨询资深分析师钱禹对《每日经济新闻》记者表示,“我个人觉得是有机会的,因为现在的AIGC(AI生成内容)产品的准确性和效率的优势是非常明显的。”他认为,互联网和AI的商业模式灵活度很高,未来既可做API或者SDK开发包的授权,也可以参与硬件业务,探索to B和to C的服务。
图片来源:阿里云提供
“缺芯”卡脖子
随着众多玩家“入局”大模型研发,一场关于算力的争夺战也打响了。
在业内,开发大语言模型被戏称为“炼大模型”,是一个“大力出奇迹”的模式,指的就是依靠巨大算力训练海量数据后“涌现”出的对答如流能力。ChatGPT的成功就得益于微软慷慨的资金和算力支持。美国市场研究机构TrendForce推算称,处理ChatGPT的训练数据需要2万枚GPU芯片,而随着OpenAI进一步展开ChatGPT和其他GPT模型的商业应用,其GPU需求量将突破3万张(该报告计算以A100芯片为主)。
行业人士普遍认为,1万颗A100芯片是训练大模型的入门券。马斯克4月17日表示,他要开发一款名为“TruthGPT”的AI模型,叫板ChatGPT。据外媒报道,马斯克已经为搭建大模型购入了1万张A100芯片。
“现在(国内大模型厂商面临的)问题是买不到芯片。对于目前训练大模型的主流芯片,例如英伟达GPU A100和(更新一代的)GPT H100,市场上所有的公司都在抢货。一个公司能抢到多少?”上述硅谷工程师反问道,“国内真正有万卡级别的公司是凤毛麟角。”
据此前媒体报道,国内拥有超过1万枚GPU的企业不超过5家,且多为英伟达中低性能产品,而拥有1万枚A100芯片的企业最多只有一家。
在A100这样的“香饽饽”短缺的情况下,英伟达在国内市场推出了A100的低配版A800和专为ChatGPT研发的H100芯片的“特供版”芯片H800,但A800和H800的数据传输速率相比A100分别下降了30%和50%。有业内人士对媒体表示,H800国内已经少量出货,但新近下的订单可能要年底才能到货。
互联极简联合创始人&CTO马力遥告诉《每日经济新闻》记者,目前市场上有一些存量A100芯片,更多的是用A800在做芯片替代。他所在的公司就专注于应用私有数据微调大模型,服务垂直行业。钱禹估计,国内的互联网公司或算法公司之前肯定对英伟达芯片做了储备,不过具体数量不好量化。
百度、阿里等大厂以及国内芯片厂商也在自研芯片,但钱禹指出,目前这些自研芯片主要还是部署在大模型的推理阶段,而非要求更高的训练阶段。
少数人的游戏
即便市场上芯片供应充足,但也不是每个入局者都能玩得起的,挡在他们面前的不仅是高昂的成本,还有协同发挥硬件设施的能力。
图片来源:每经记者兰素英制图
1)烧钱的GPU
取决于购买量和英伟达的折扣政策,一颗80GB的A100芯片在国外的定价为1万~1.5万美元(约合人民币68800~103300元)之间。
《每日经济新闻》记者注意到,目前京东售卖的的80GB A800芯片价格为89999元(约13079美元),而库存仅剩数张。有媒体报道称,实际上A800现在处于“有价无市”的情况,供应紧张,真实成交价格高于平台报价。即便按89999元一颗A800芯片的价格计算,1万颗的成本就是约人民币9亿元。
更重要的是,这还只是GPU芯片部分的成本,并非全部的硬件投入花费。钱禹对《每日经济新闻》记者指出,除GPU外,建设数据中心还需要ASIC或FPGA类专用芯片、服务器CPU芯片,以及服务于分布式训练硬件架构的光模块通信芯片。搭建一台服务器,刨除GPU芯片成本,还需要3万元到4万元的成本。据估算,一台服务器多由8颗GPU组成,那1万颗GPU就意味着1250台服务器,所涉及的GPU之外的成本就还需要3750万~5000万元。
业内估计,服务器的采购成本通常为数据中心建设成本的30%,按此推算,一个服务于大模型的数据中心建设成本或超过30亿元。
2)不只是GPU
构建大模型的计算基础设施,不仅是简单的硬件堆砌,更需要实际搭建过程中积累的know-how(实践知识)。
“大模型训练离不开密集型计算算力,今天模型的训练往往会以有多少张卡来表示背后的算力,其实这是一个非常简单的描述,”阿里云CTO周靖人对《每日经济新闻》记者表示。
他进一步指出,“所有GPU不是简简单单的堆砌,更需要的是让所有GPU,让异构算力能够联合起来去为我们的模型训练服务。我们有成千上万的模块,如何帮助他们有效地高速连接起来,如何能够提供一个高吞吐、低延迟的网络方案,对模型训练是至关重要的。”此外,完善的大规模的数据存储和低延迟的网络方案同样重要。
前述硅谷工程师也认为,就算是现在市面上能直接商业化买到的最强算力策略,也很难建设一个特别大的计算机群,因为连接芯片用的是电,而电的衰减很快,一般来说只能达到百卡互联的量级。
“如果是距离较近的芯片连接,你可能感受不到损耗;但如果距离稍微远一点,例如说机器在10米远的地方,想把两个卡连在一起,电的损耗实际上是非常大的。”他对记者解释称。
3) 训练和运营成本
硬件搭建完成后,大模型的训练花费也不菲。马力遥对记者透露,训练大模型门槛非常高,GPT-4的训练成本据估计达到了10亿美元,是GPT-3的5倍。在他看来,大模型的训练绝对是少数人的游戏。
此外,钱禹还指出,若芯片性能不足,那模型的训练效率就会受到巨大影响。“比如一个大模型,用英伟达可能一个月就训练好了,但如果训练卡算力没有人家那么好,那训练三个月或者半年都是有可能的。”而如果要加快训练速度,电力消耗就会攀升。
原腾讯副总裁、自然语言模型专家吴军此前就在一次直播分享中形象地描绘了大模型训练中的电力成本:ChatGPT训练一次需要耗费的电量,相当于3000辆特斯拉电动车每辆跑20万英里(32万公里)的耗电量。
一旦推出,每天的用户访问也需要大量算力支撑。相比训练阶段,大规模运营的推理阶段对算力要求更高。
半导体研究公司SemiAnalysis认为,ChatGPT大规模服务用户的成本远超训练成本,以GPT-3模型推算,ChatGPT每天的运营成本高达70万美元,新一代的GPT-4模型只会更烧钱。按每日70万美元计算,则ChatGPT一年的运营成本高达2.555亿美元(约17.6亿人民币)。
国盛证券则从电费角度进行了分析,以英伟达A100芯片、DGX A100服务器、现阶段每日2500万访问量等假设为基础,ChatGPT的初始投入成本约为8亿美元(约合人民币55亿元),对应约4000台服务器,每日运行电费约为5万美元。
这还没算人力成本,高昂的投资意味着只有手握云计算、数据资源和资金实力的几家大厂才能承担开发大模型的成本。
出路在哪儿?
实际上,在巨额的投入面前,部分一开始激动不已的创业者也逐渐冷静。
出门问问创始人、前谷歌科学家李志飞曾在2月份第一个喊出做中国OpenAI的口号,但在近期的采访中,他已经转变思路,放弃了从零开始“炼大模型”的思路。他在一次采访中提到, “两个月以前,我就是要复制ChatGPT,但现在我觉得不想清楚商业模式到最后会很痛苦。”
那在这场AI“军备赛”中,各路玩家的机会在哪里?
马力遥告诉《每日经济新闻》记者,大模型产业主要分为三大块:最底层是芯片,中间是大模型,最上面是大模型的开发应用。
图片来源:每经记者兰素英制图(资料整理自采访内容)
英国工程技术协会会员、Frelan GPT的开发者张冶对《每日经济新闻》记者表示, “在日新月异的AI行业,每个层级的厂商都有着自己的任务和使命。头部的厂商有着大量的财力人力,应该专注在核心技术的研发以及算法的迭代,把大部分的精力用于应对国际上激烈的竞争。中小型企业应着重技术应用,并且灵活的方式应对活跃的市场,并反哺头部大厂。”
当大厂跑出自己的路子,小企业就有机会站在巨人的肩膀上。前述硅谷工程师以MidJourney为例解释说,“MidJourney实际上是一个非常小的公司。新时代的公司不会说‘卖汉堡是从养牛做起’,我们都是基于一个平台,上面接亚马逊云等,站在巨人的肩膀上,能以很快的速度就做很多的事情,获得高关注度和高收益。”
4月20日,出门问问发布了自家的百亿参数级的多模态大模型“序列猴子”。李志飞表示,未来公司将聚焦在算法层面的研发和迭代,不做硬件,在商业化上侧重于面向B端的企业定制类服务,“这会比一个通用大模型可能更加有用。”
目前,在大模型上走在前列的大厂,也在积极推动把自己的算力和模型开放给第三方企业使用,从而降低中小企业开发模型的成本,一个分工有序的大模型生态正在形成之中。阿里云和商汤科技就对《每日经济新闻》记者表示,他们可为企业提供大模型服务或算力服务,腾讯和字节跳动近期也推出了面向大模型开发的算力服务。
钱禹认为,像王小川和王惠文这样的创业团队,可以把精力放在算法和模型上,服务器硬件和训练数据可以找合作伙伴,“比如说我给阿里提需求,我需要这样的服务器和这样的算力,你来给我配置。”
另一方面,中小企业也可以利用大厂的模型做二次开发。“比如说文言文的研究我是比较专业的,那我可能把百度的模型拿来借鉴一下,在此基础上做一个深度开发,然后实现文言文的聊天,这是完全可以的。”钱禹表示。
专注垂直行业的马力遥对此也深以为然。
他告诉《每日经济新闻》记者,初创企业可根据其核心能力和市场地位选择创业方向,只要掌握私有数据和充沛的业务知识,仍可打造其行业壁垒。他强调,要在应用层实现突破,一定要把握垂直行业企业客户的痛点,有的放矢,一定要具备私有的高质量数据、对大模型能力的充分利用能力和对行业的深刻理解,有效结合这三者才能产生实实在在的商业价值。
“一个再聪明的孩子,如果没有高质量的数据教导,也是不可能成材的。例如Stack Overflow,OpenAI就是用这个平台上的高质量数据来训练代码的生成。”前述硅谷工程师也对记者如是说道。
更重要的是,利用垂直领域数据对大模型微调的成本已经达到中小企业可以接受的范围。马力遥以开源聊天机器人 Vicuna-13B为例对记者解释道,这款通过 LLaMA 模型微调和 ShareGPT 用户共享对话训练而成的机器人的训练成本仅为 300 美元(约合人民币 2060 元),而质量可达 OpenAI ChatGPT 和 Google Bard 的 90% 以上。
(文章来源:每日经济新闻)
标签:
您可能也感兴趣:
为您推荐
突然崩了!暴跌33% 30年不败神话或破!传媒互联网板块飙新高!|天天快消息
每日速读!【午报】26股涨停!CPO再度活跃 中兴通讯涨超5%
超1.65万亿元!最新养老金持仓名单出炉!
排行
精彩推送
- 世界新消息丨心血管病学
- 大模型横行:不到2月10余个问世 烧30亿就能炼造?激战背后机...
- 四川什邡一林场发现3名死者 滚动
- 天茂集团2022归母净利降42% 国华人寿归母净利降44%
- 万丰奥威董秘回复:国内通航基础设施建设以及低空空域飞行服...
- 4月24日人民币对美元中间价报6.8835 下调83个基点
- 【沪问快答】换工作了会影响用公积金支付房租吗?
- 焦点资讯:招银国际:维持长城汽车买入评级 目标价12港元
- 消费氛围渐起 白酒板块下半年或回升
- 韩国新增猴痘病例10例 累计确诊30例-当前头条
- 当前热点-华星创业:公司在《三体》世界观的框架内进行产品设...
- 云南一货车与微型车相撞致7死2伤
- 大行评级 | 大摩:中兴首季纯利胜预期 评级“增持”
- 一瑞郎等于多少人民币(2023年4月24日) 世界播资讯
- 1500泰铢多少人民币(2023年4月24日)
- 浙大网新:网新恒天出席长三角人工智能大会 世界播资讯
- 凡拓数创上市当年净利降74% 超募2.06亿元
- 国家知识产权局:扎实开展知识产权促进“强链”“护链”行动
- 一台币等于多少人民币(2023年4月24日)
- 极限挑战新团宠正式上市 简醇趣食爆珠好喝到爆
- 一万日元等于多少人民币(2023年4月24日)-全球百事通
- 濮耐股份:琳丽矿业矿山扩容难度以及辽宁省菱镁矿资源整合的...
- 突然崩了!暴跌33% 30年不败神话或破!传媒互联网板块飙新高...
- 今日最新!厦门钨业于云南新设科技发展子公司
- 每日速读!【午报】26股涨停!CPO再度活跃 中兴通讯涨超5%
- 溢多利2022年营收11.74亿 拟10派1分红4837万
- 午评:港股恒指跌0.63%跌破2万点 医药股集体走高
- 途经包头站的这趟列车恢复开行!
- 全球新资讯:火力全开2城市狂热怎么刷金币 火力全开2城市...
- 超1.65万亿元!最新养老金持仓名单出炉!
- 社保基金新进70股 持股比例居前的绩优股出炉
- TMT赛道再大涨 有个股“20厘米”涨停! 每日消息
- 中元股份:公司智能巡检机器人已实现销售
- “课外书”有讲究:义务教育阶段如何“读好书”?
- 本周 两家单位负责人接听12345热线
- 全球时讯:誉衡药业:公司未持有信邦制药股份
- 【世界播资讯】ETF追踪:上周ETF净流入109.16亿元 资金加仓半导体ETF
- 环球实时:工信部副部长辛国斌:推动研究并尽快明确2023年后...
- 四川发布今年首轮暴雨蓝色预警 提前转移4479人
- 刚刚又跳水!800亿白马突发跌停!一消息刷屏 新冠药大爆发!
- 焦点速看:马里自杀式袭击已造成至少10人死亡、61人受伤
- 大连银行被责令改正 分支基金销售负责人无从业资格 环球微资讯
- 西甲-巴萨1-0马德里竞技 领先皇马11分,夺冠已无悬念
- 天天热议:益客食品上市当年净利降56%受处罚4次 中信证券保荐
- 天天快播:天禄科技去年净利降7成 拟向实控人定增2021上市募4亿
- 天天快资讯丨财政部安排12.51亿元支持粮食等农作物重大病虫害防控
- 云蚁旅游,让出行变得简单
- 国家发展改革委“平急两用”设施建设现场会在北京市平谷区举办
- 溢多利2023年一季度营收1.81亿 亏损同比大幅收窄 环球快播
- 月球版北斗系统来了!深空互联网有望实现 具备通信、导航、...
- 南钢争夺升级!沙钢起诉,复星正面硬刚|全球独家
- 世界焦点!市场较高期待美联储转向
- 【播资讯】国科天成过会:今年IPO过关第98家 国泰君安过4单
- 美联储褐皮书显经济陷入停滞 美联储维持鹰派加息
- 博科测试过会:今年IPO过关第97家 中信证券过15单
- 焦点速讯:青岛装扮院花园设计│如何设计一个简单大气的花园庭院
- 三六零破局生成式AI 即时
- 山东赫达不超6亿可转债获深交所通过 招商证券建功
- 全球速读:美元有望实现上涨 原因于美联储5月加息
- 售出火车票4657万张,增开旅客列车1500多列 世界速看
- 法治日报评“劣迹艺人复出不到24小时账号被封”:严禁劣迹艺...
- 今日要闻!多家北交所公司业绩亮眼 “大手笔”分红送转
- 天天热点!“牛市旗手”领跑!券商股一季度业绩陆续出炉 半...
- 让数据多“跑路”创新信贷投放服务春耕
- 杭州“一展七花园”亮相 350万株月季启“全城赏花”模式-环...
- 世卫组织:苏丹武装冲突已致420人死亡|环球新资讯
- 高中签率!或是今年最容易中签新股!来看本周新股
- 【天天速看料】全球旅游业加速回暖
- 外交部副部长就韩国领导人涉台错误言论严正交涉
- 接种新冠疫苗将导致预期寿命下降?误导
- 【全球速看料】高级工程师
- 【环球报资讯】五一假期收费公路小型客车免费通行
- 世界快资讯丨淄博烧烤大热 这类概念股也火了 龙头一季度业绩暴增
- 【天天报资讯】周期股迎历史性机遇?沪市油气行业利润大增 ...
- 微资讯!索赔100亿!起诉苹果!有新进展
- “二阳”冲上热搜 张文宏发声 中疾控最新通报
- 今日观点!新冠“二阳”引爆热搜 张文宏最新发声!机构买入新...
- 艾芬达2022年净利升营收降 资产负债率连升达58%
- 科腾精工2022营收4.2亿应收款2.6亿 近4年现金流2年负_当前关注
- 国产新冠口服药上市期临600699均胜电子近 部分概念股走弱 动态焦点
- 天天讯息:散光轴位自测图怎么看_散光轴位自测图
- 世界热资讯!山东省招生考试图书网为什么打不开网页_山东省招...
- 中泰证券:多重利好因素叠加 煤价下行空间不大
- 每日动态!发放数字人民币工资 数币推广上新台阶
- 中国移动市值挑战贵州茅台 基金投资版图或生变
- “宁王”业绩大爆炸!1720人参与调研 机构蜂拥“叩门”新能...
- 【环球新要闻】“美国或限制对中国高科技投资”实际影响究竟...
- 微速讯:“五一”在即 二次感染要来?专家:新冠正走向流感化
- 日均打卡超1500人次,长沙职教这个5校共享图书馆获全国“围观”
- 随县三里岗镇小学参加世界读书日活动
- 重点聚焦!坏账准备跨年冲回会计分录(跨年坏账收回的账务处理)
- 世界新消息丨阅读业态变了,图书市场如何变
- 实施方案发布!徐州推进以数字人民币发放行政事业单位人员部...
- 异世幻想是什么意思_幻想是什么意思 焦点速讯
- 当前快讯:海尔免清洗洗衣机-如何清洗洗衣机内胆
- 4月23日泽润能源冰晶石报价平稳 聚看点
- 海尔免清洗洗衣机-如何清洗洗衣机内胆_世界即时看
- 李家超总结行程:深港是兄弟城市 热讯
- 第十届读书论坛在京召开 专家畅谈“阅读与教学” 实时
- 当前信息:许芬芬卸任游齐网络公司法定代表人 许芬芬卸任游...