
黄仁勋的GPU,解一说念矩阵方程,要作念上亿次乘法。
一家中国公司,一步就给解了,用的是模拟缱绻。
这家公司叫安纳智芯(Anatrix)。

以前几年,通盘AI行业险些齐在往消除个标的决骤。GPU、TPU、LPU、CPU……民众卷来卷去,骨子上卷的其实照旧数字缱绻:
更多晶体管、更先进的制程、更大带宽、更高糊涂。
但最近,咱们发现存一批公司,开动不按这个逻辑走了。
安纳即是其中之一。
他们采选的,是一个仍是千里寂已久、但这两年又开动火热的标的:
模拟缱绻。
这个意见听着新,其实极少齐不新。
早在数字缱绻机大限制提高之前,东说念主类就仍是在琢磨模拟缱绻。最近很火的存算一体、光缱绻、量子缱绻、类脑芯片,往大了说,骨子上也齐属于这条道路。
之是以这两年再行被体恤,一个很蹙迫的原因在于:
模拟缱绻自然具备更高并行度、更低功耗,况兼不像数字芯片那样高度依赖先进制程。
但它的问题也很彰着,数字缱绻骨子上处理的是0和1,只消能分手上下电平,罪戾就能被不休检阅。
而传统模拟缱绻由于是班师用物理信号暗示信息。电压、电流、电导这些量在传播历程中,容易累积噪声和漂移。
矩阵限制越大,罪戾放大得越夸张。
以前几十年,数字缱绻靠着摩尔定律沿途狂飙,精度被不休“硬堆”上去;而模拟缱绻自然表面上更高效,却恒久困在精度问题里。

行业里以致一直有一个很流行的不雅点:模拟缱绻很快、很省电,但不实在。精度,也因此成了模拟缱绻近几十年来最大的死结。
而安纳作念的,即是把它解开。
模拟缱绻的精度,不再是问题了
以前近十年里,安纳的中枢科学家一直在作念消除件事——
把模拟缱绻的散伙,作念得有余实在。
客岁,团队完成了精度忘形数字芯片水平的旨趣性考证,在模拟缱绻界限达到断档式最初,而本年,干系芯片咫尺仍是过问流片阶段。
在技能道路上,安纳走的是一条止境典型、但也止境“硬核”的模拟缱绻道路:
开云体育app2026世界杯中国官方下载基于存储器阵列,搭建非冯诺依曼架构芯片。
陋劣来说,即是把矩阵方程班师映射进物理电路,让电路自身成为方程求解器。

输入给进去,测输出,输出即是解。
也正因如斯,那些GPU没主见班师求解、只可靠海量迭代靠拢的矩阵方程,在安纳这里,不错一步完成,并保抓精准。
(注:GPU拿到一个512×512的矩阵方程后,第一件事并不是“班师解”。它会先把问题完毕、转置、明白,再转机成海量矩阵乘加运算,通过一轮轮迭代徐徐靠拢谜底。通盘历程,不时需要上亿次乘法。)
但专诚想的是。
即便精度问题开动被责罚,今天大大宗模拟缱绻公司依然莫得采用这条路。
像Unconventional AI、Normal Computing、EnCharge AI这些近两年最受体恤的模拟缱绻创业公司,主打的依然是低功耗、存算一体或者特定场景加快。

(注:模拟缱绻正在再行获取老本市集体恤。2025年底,主打低功耗模拟芯片的 Unconventional AI在种子轮便获取Lightspeed Venture Partners和a16z纠合领投的4.75亿好意思元融资,估值接近45亿好意思元;专注热力学缱绻的Normal Computing于本年3月完成由三星领投的5000万好意思元融资;而存算一体公司EnCharge AI客岁也完成了跨越1亿好意思元的B轮融资。)
这背后其实对应着两种十足不同的琢磨形而上学。
一种想路是给与模拟缱绻存在罪戾,在低精度条目下寻找“够用”的诓骗场景。
另一种想路,则是先把精度作念到极限,再参谋后果和成本。
安纳属于后者。
在与量子位相易时,团队反复提到一个不雅点:
所有缱绻平台的发展历史,险些齐是先把精度作念到天花板,再凭据场景需求向下作念选择。
数字缱绻亦然如斯,AI模子考验里,先有FP32,再向下兼容FP16、INT8、INT4。
若是一开动就在低精度里寻找“够用”,许多智商可能永恒莫得契机被考证。
从上世纪80年代末的类脑缱绻,到自后的模拟神经收罗,再到今天的存算一体,肖似的故事其实仍是反复出现过许屡次。
是以,并不是追求精度这件事有争议,而是在以前很持久间里,由于模拟缱绻精度低是固有的,民众停留在这一层面,存在潜入上的偏差,于是只可退而求其次。
而安纳率先完成了潜入上的随便,他们真的想作念的,即是把高精度模拟缱绻推向可用。
所有东说念主齐在作念乘法,LOL比赛下注(中国)官方网站安纳想把“除法”补纪念
除了对精度的格调,安纳和其他模拟缱绻公司的不同,还在于他们选了一个十足不雷同的标的:
矩阵求逆。
今天作念模拟缱绻的公司,无论是存算一体、模拟CIM,照旧多样类脑、光缱绻道路,险些齐在作念矩阵乘法。
这其实很好理会,因为通盘AI产业,骨子上即是竖立在矩阵乘法之上的。
一方面,GPU自身就极其擅长矩阵乘法;另一方面。大模子推理,也险些全是矩阵乘法,是以
通盘行业的想路齐很自然——
既然模拟缱绻更省电、更并行,那就拿它去替代一部分GPU的矩阵乘法,但安纳并莫得这样作念,他们采用了更第一性的矩阵求逆。
那么,矩阵乘法和矩阵求逆有啥不雷同呢?
陋劣来说,矩阵乘法,骨子上是“知因求果”。权重已知、参数已知,乘起来、加起来,终末得到散伙。
而矩阵求逆反过来。散伙仍是知说念了,但中间真的的参数、权重、情状未知,你需要反过来把它求出来,从散伙反推原因。
对应到大模子里也很好理会:矩阵乘法更多对应推理,而矩阵求逆则更接近考验。
因为考验骨子上,即是已知输入和输出,再反过来寻找中间最符合的参数。

(注:今上帝流数字缱绻的作念法,依然是把蓝本需要班师求解的问题,转机成海量矩阵乘法,再通过不休迭代去靠拢谜底。)
事实上,矩阵求逆并不局限于大模子考验。推行宇宙里真的难的问题,许多其实齐是“逆问题”。
比如,机器东说念主为什么会颠仆?自动驾驶怎么从传感器数据里还原真实情状?通讯系统怎么从混合信号里恢回复始信息?
这些问题,底层齐在作念消除件事:从散伙反推原因。
而这,恰正是GPU不擅长的。因为在数字芯片体系里,并不存在“原生矩阵求逆”这个算子。它的作念法,骨子上是绕。
先把一个求逆问题完毕,再转机成海量矩阵乘法,然后通过不休迭代,一轮轮靠拢最终谜底。
是以GPU不是“班师解”,而是在“靠拢解”,这亦然为什么,咱们前边会看到阿谁“一亿步”和“一步”的远离。
为了愈加深入地理会这两者的各异,安纳还给咱们打了一个很形象的譬如。
比如你要建长城。矩阵求逆就像“砖”。而数字芯片手里其实莫得砖。它惟有沙子、土壤、原料。
是以它得先和泥、烧制、成型,终末才调得到一块砖,再拿这块砖去建长城。
模拟缱绻芯片,则是班师把砖给你。你毋庸再从沙子开动。是以这不是“快极少”或者“省极少”的区别,而是缱绻范式自身不同。
一个是在不休迭代靠拢。
一个则是原生求解。
安纳想作念的,即是把这块缺失了许多年的“砖”,再行补纪念。
让矩阵归模拟,让逻辑归数字
说到终末,一个很推行的问题摆在眼前:
模拟缱绻这块“砖”,到底怎么插进今天仍是高度锻练的AI基础体式里?
安纳给出的谜底很陋劣:让矩阵归模拟,让逻辑归数字。
据了解,他们的模拟芯片在接口、数据体式和互联神情上,齐兼容现存GPU体系,不错班师接入今天仍是scale起来的AI Infra和算力中心。
更蹙迫的是,它不依赖发轫进制程。
当数字芯片还在3nm、2nm上连接向物理极限靠拢时,模拟缱绻某种好奇钦慕上仍是跳出了那套“拼晶体管、拼工艺、拼堆叠”的竞争逻辑。
而一朝矩阵求逆这块“砖”真的补上,它带来的变化,可能会比假想中更大。
机器学习里的优化问题、具身智能的及时畅通戒指、自动驾驶的情状算计、6G通讯里的信号回复、端侧AI的在线学习……这些系统背后,骨子上齐在高频求解矩阵方程。
以前许多问题不是不可作念,而是太慢、太贵、太耗电。
而矩阵求逆一朝粗略被原生、高精度、低功耗地完成,许多以前只可放在云表、只可离线考验、只可近似求解的事情,可能齐会开动发生变化。
是以回头再看,安纳想作念的,其实不仅仅一颗“更快更省电的芯片”。
他们真的想切入的,是下一代智能系统最底层的缱绻神情。
2012年,东说念主们第一次意志到,GPU不仅能绘画,还能考验神经收罗。
AI时期由此开启。
而今天,安纳试图回答的是另一个问题:
若是矩阵乘法界说了以前十年的AI,那么模拟缱绻和矩阵求逆,会不会界说下一代智能系统?
至少当今LOL比赛下注2026中国官网入口,他们仍是站在了这个问题的最前排。