在把鼠标一叉腰凑到屏幕前,你大约能感觉到那种沉甸甸的压迫感。
这不是电影特效,这是真金白银堆出来的。 巨头们往“超级计算机”这坨玩意儿上砸钱,不是为了炫技,是为了在某个瞬间把工夫压扁。想象一下,要是人类想-research 一个任务,得把地球绕着转三周再回来取结局,那这篇论文出来时,早都是新的了。超算就是那个瞬间抹平工夫的机器,它把那会儿、目前和未来压缩到一起,让你能看到未来十年的趋势,就连能看到未来十年之前的样子。 这种机器到底长啥样?起初得说它大,大到让人摸不着头脑。 你刚刚看到的那些庞然大物,动辄几千万、几亿个晶体管,有的就连能塞进一个豪华轿车里。里科·哈奇的百万克诺斯,那是物理定律的极限;谷歌的田纳西超级计算机,能把一个城市里的交通流量全体用数据串起来看个究竟。它的核心架构不再是那种笨重的流水线,而是成千上万片像乐高积木一样能够随意搭搭的处理器。 举个具体的例子,2014 年那台 PetaSIX 机器,核心数量直接干到了 750 万,相当于把半个美国的足球场塞进一个房间。
为啥它如此了得?出于它用了 Intel 的 Stratix 10 架构,这种架构能与此同时处理成百上千个任务,就像一群人在图书馆里与此同时宁静地看书,没人吵没人管。最绝的是它的“智能感知”本事,CPU 能自己拍板啥时候该思索,啥时候该就寝,这种自主性让它在处理复杂计算时效率极高,并且能自动优化自己的运行速度。 这可不是为了卖硬件给老板,顶级算力的核心逻辑是“算得更快、算得更准、算得更便宜”。
你看那些正在跑的“超级”项目,比如那个能预测十年天气的超级模型,要么那个能模拟航天器飞行的超算,它们的数据量是天文数字。有些模型,输入数据量高达 256 亿条,看似荒谬,但那正是机器在干活的战场。你能够想象,要是要把伦敦全城的人流车流全体量化成数字,然后扔给一台超级计算机去算,那时候你才真正理解啥叫“数据时代”。 但光有参数堆得高不够,还得把那些数字变成故事。
这就是超算的真正魔法。 大量大模型的训练过程,就像是让一群盲人摸象。
要是只看一个手柄,它不知道大象是长啥样;要是只听一个描述,它只知道大象在森林里。
只有当成千上万个处理器与此同时工作,把成千上万个碎片拼凑起来,才能还原出一个整个的大象。超算就像那个强大的“导演”,它指挥着这些处理器与此同时向不同的方向输出数据,把这些数据喂给模型,模型再根据这些数据去猜它是哪位,到底有多像。 还有一个关键点,超算不只是是算得准,算得跟工夫赛跑。在气候变化研究里,某个气象站的数据可能滞后一年;而在超算上,你能够实时接入全球 100 万个气象站的数据,瞬间就能算出未来一周的天气走势。
这种实时性,让预测变得像天气预报一样精准,而不是模棱两可。 自然,造一台这样的大机器不是易事。它的能耗就是庞大的。
比如有的机器功耗达到 120 万瓦,相当于一个中型燃煤电厂的输出量。
这意味着目前的超级计算机,每一秒钟形成的热量都足以让一座烟囱冒烟。但正出于如此耗电,科学家才愿意承受这些代价。出于省下的钱够买更多的大脑,要么更先进的散热技术。 还有个小插曲,关于“跑数据”这件事。
每当有超算项目启动,地铁、高铁、就连航空公司的调度系统都会跟着紧张起来。出于那些超级计算需求海量的数据赞成,就像是在高速公路上与此同时高速跑无数趟车。
有时候,为了凑齐数据,连路边的小摊都要停下来帮忙把东西搬上来,整条街道都空了。 故此,当你下次在新闻上看到某种“超级”项目,要么看到某些模型突然变得神神叨叨、结局百分百准时,你就知道,背后肯定有几万个处理器在疯狂地、宁静地、默契地工作。它们不告诉你它们有多强,它们只是默默地把数据变成真理,把可能变成现实。 这大约就是人类对力量最原始的渴望,也是超算最迷人的地方。它用冰冷的硅片和风扇,硬生生造出了一扇门,让你能够推开,看看原本看不到的世界。