在光学和流体力学领域,光波传播遵循麦克斯韦方程组,而电子在电路里走直线,这显得有点土。但到了计算机视觉,特别是深度学习领域,情况就彻底不一样了。

那会儿我们管这叫“黑盒”,目前大家更习惯说“人眼”要么“大脑”。

不过,咱们说人眼的时候心里得有点底,出于人眼实际上是个极端的“深度优先”架构。你给个不清楚的图像,人眼能看到主体、背景、阴影,就连能分辨出某个苹果是红的、熟的还是青的,这背后靠的是啥?不是几层好办的卷积层,也不是几个 ResNet 的堆叠,而是一整套复杂的神经网络结构。 看看目前的顶尖玩家,比如 OpenAI 的 GPT-4 要么 A1 那些大模型系列,它们的核心依赖是 Transformer。Transformer 的架构一出来,瞬间就让计算机视觉跟自然语言接上了边。

这就好比那会儿你脑子里只有几条死板的规则,目前脑子里有了整个句子的语法书。在视觉领域,这意味着能不能处理长距离依赖关系,能不能理解整个图景的上下文。

比如当你看一张车祸现场的照片,要是你的模型能理解这句话:“这辆车撞到了那个树,树倒下来了,旁边的人还在跑”,那它就不只是是识别物体,而是在推理因果关系。

这种本事,是用到了大量的注意力机制,把图像里所有的像素都拉起来,看看它们之间到底形成了啥。 反过来想,要是非要用啥传统模型来做图,可能就会变成“只见树木不见森林”。传统的 CNN 要么 ResNet 就是典型的“局部特征”导向。它们会盯着一个单张图,抠出来个人脸,要么抠个车牌,然后分别处理。

这就像是一个个独立的侦探,他们盯着一个嫌疑人,看他穿啥颜色的衣服,如何进食,然后慢慢拼凑出全貌。

这种做法在处理复杂场景时确实挺稳,但在一些需求全局感知的任务上,比如自动驾驶里判断前方有没有障碍物,要么网约车里判断周围有没有人,这种单点聚焦的方式就显得有点迟钝了。

毕竟,光把人眼切开,各局部处理后再拼回去,效率上肯定不如一个全图串起来的大模型。 不过,硬件这件事确实挺关键。就算 AI 模型再强,底层也跑不起来。目前的显卡,特别是 NVIDIA 的 A100 要么 H100,是专门为这种大规模并行计算设计的。

这就好比写小说,有人用那种连成排的旧式机器,有人用这种能与此同时跑出成千上万个字符的巨型打字机。在训练那些参数量达千亿级别的模型时,算力就像是把光压进玻璃的厚度,厚了才能压得下。

要是硬件跟不上,哪怕模型再智慧,也只是一堆在显卡上乱跑的代码,训练速度慢得像蜗牛,效果自然也就大打折扣。

故此,目前的竞争不仅是模型的竞赛,更是平台本事的比拼。 再聊点具体的,比如生成式模型。Google 的推理模型,要么国内的那些大厂,他们在做视频生成要么图像修复时,实际上也是在不断尝试如何让这些模型更“智慧”。

比如 Google 的 AlphaStar 在强化学习里被打脸了,后来换成了 DQN,就是典型的策略优化。在视觉领域,类似的策略调整也在不断形成。

比如 P3D 模型,它实际上是模仿了人类视觉皮层的层次结构,把图像分成不同的语义层来处理。

这就像给人眼一样,它不是那个好办的“眼”,而是一套专门处理颜色、纹理、形状、运动的复杂系统。

这种分层的方式,让模型在处理图像时,能自动取出对后续任务有用的特征,就像人眼会自动过滤掉背景杂音一样。 有时候你会发现,一些模型训练得特别好,但推理的时候效果反而下降了。

这就跟学东西一样,你背了那么多单词,忘了如何讲话就算学会了吗?

要么反过来,训练得烂的模型,一跑起来就卡得连水都喝不上。

这是出于模型里的权重忒重,要么优化过程被拉偏了。

这实际上是个挺现实的痛点,害得大量公司不敢轻易尝试新的架构,要么说不敢把模型推得忒远。

毕竟,数据质量、算力成本、推理速度,这三者之间就像三角三边,哪边缩了,其他两边就会塌。 说到底,计算机视觉目前的方向,就是从“识别”走向“理解”,再走向“创造”。

那会儿我们只是负责把照片里的字变成代码,目前我们要负责让模型自己“看懂”照片里能做啥。

这种转变,既带来了庞大的技术突破,也让整个行业面临重新洗牌。

那些还在用老办法、管得忒细的公司,可能会慢慢被淘汰掉。而敢于突破框架、把模型和硬件深度绑定的团队,反而能在这条路上跑得更快。

毕竟,在这个领域,能把“人眼”看作一个整体系统去进行设计和训练,才是通往未来智能视觉的最快路径。