为啥那些火得快的大模型公司,最终跑得比哪位都快 膝盖碎了,还得持续跑三公里 最近 Anita 被裁员的时候,我还在工位上擦键盘。

那时候她手抖得能搓出火星子,明明那个大模型是昨天刚买的,结局公司一看就要了。

这画面忒美我不敢看,但确实形成过了。 那会儿我也当作,只要模型了得,就能当个 CEO。结局后来才明白,大厂里跑大模型的条件,跟去便利店取快递简直没两样。 说确实,为啥那些号称“无限算力”的公司,最终都卷起来了? 实际上没那么高科技,也没那么难。 硬件焦虑像滚雪球 去年夏天,科研界有个小插曲。清华团队出了一款新模型,参数 70 亿,号称能懂我,还能跟任何人聊天。

当时全网都在聊聊。结局转头,各大厂商的算力账单直接报警。 硬件这东西,不是你想买就买,是你得排队等。 别说芯片了,显卡都要打爆库存。联想、戴尔、华硕,这些原本只卖电脑的老友,突然就成了“大模型 GPU 供应商”。它们的日子不好过,出于大模型不是拿来就用的,得配环境。 环境配不好,模型就跑不出门。 那会儿你下载个模型就能跑,目前是得先搞定硬件,再配软件,最终还得调参数。

这中间一口气得喘几百次。 我有个哥们儿,一启动在搞大模型,想着只要算法好就行。结局硬件配好后,发现环境配置忒费事,参数调多了跑不动,调少了效果又差点。最终他拉倒了,转而去做更好办的模型。 为啥?出于目前不是哪位都能造出好配环境的机器。 利润被切得只剩骨头 大家可能都明白,大模型是个烧钱的大生意。 训练一个模型,费钱、花工夫、还费电。

要是是小公司,自然不中。但真正的大公司,钱那是赚不完的。 故此,目前一家公司的资本,大量都堆在大模型上了。 但这笔钱花出去,能不能收回来? 这还得看模型能用多少钱。 目前大模型的边际成本实际上挺低,特别是开源了之后,大家都能用。可那些闭源模型呢? 他们不能开源,故此卖给别人,就得按量收费。

这就害得一家公司卖模型,人家就付钱;你要是高价卖,人家认定亏;你能够低价卖,人家也不愿抢。 便,公司想多卖,但客户也不敢买,出于怕你认定贵。 这种“卖得出去还是卖不出去”的买卖,让大公司的现金流变得挺脆弱。 那会儿公司还能靠融资续命,目前银行给大模型贷款挺难。一旦模型没热度,要么卖不出去,资金链一断,老板就得想别的工作。 就像那会儿开厂一样,目前开大模型厂,没爆款产品,资金链一断,厂子就得关门。可要是关门了,老板能去干别的工作吗? 人才像大海捞针 还有一个缘由,是人。 那会儿招人,看简历就行,面试问几句就能定。目前招大模型人才,难度不降反升。 出于大模型不是单纯的技术,它是工程、算法、数据、硬件、商业全结合。 一面招不到的,有时候还要再面三遍。面试时问“为啥选这个项目”,答“出于认定它有意思”的项目,赶明儿老板不乐意了。 想要有大模型技术,得与此同时懂算法、懂工程、懂数据,还有懂如何卖。 这种人才忒难找,忒难培养。 先不说目前招聘难,就是看简历,那个工作岗位上的大模型工程师,往往得有三段硕士加三年项目经验。

要是简历上没这几个,直接被刷了。 并且,目前的技术迭代忒快,昨天火的今天就过时了。 你上一波模型火,下个月就过期。公司得随时预备着招人,随时预备着淘汰。 这节奏,对大多数非核心企业的老板来说,确实有点难。 结论:别做那个没运气的人 故此,总结一下。 大厂卷大模型,不是出于技术特别难,而是出于成本忒高,利润忒薄,人才忒难找。 对于非大厂的人来说,做这个确实有门槛,有成本,有风险。 但这不代表大模型不好,也不代表它没价值。 只是,目前的市场环境,让做这个变得真难。 要是你没背景,没资源,也没那几百万的启动资金,大约率是跑不动的。 但这不是说你不能做。 AI 只是工具。你能够用它来写代码、做设计、搞管理。 关键是,你得看清自己能走到哪一步。 别等膝盖彻底断了,才想起要步行。 毕竟,能跑起来的,总比那些原地不动的好。 (完)