湾流G550的机舱里,遮光板被拉下了一半。
两万英尺高空的刺眼阳光,被过滤成昏黄的暖色。
空气循环系统嗡嗡作响,但这并没有掩盖住那台Alieware笔记本电脑发出的涡轮风扇般的咆哮声。
克莱尔正盘腿坐在米白色的真皮沙发椅上。
她今天没穿那种只有在夜店才会出现的紧身衣,而是换了一套宽松的AlexaderWag灰色运动套装,脸上敷着一张惨白的面膜,只有眼睛和嘴巴露在外面。
她的手指在键盘上敲得飞快,并没有因为脸上那张昂贵的“前男友面膜”而减慢半分。
“这不对劲,这真的不对劲。”
克莱尔嘟囔着,因为不敢做大表情,声音听起来闷闷的。
她用力敲了一下回车键,屏幕上滚动的代码流戛然而止,跳出一行红色的报错。
“哪里不对?”
林允宁坐在对面的座椅上,手里拿着一本最新的《物理评论快报》,头也没抬,“是内存溢出还是死锁?”
“是运行速度。”
克莱尔揭
她随手把面膜扔进垃圾桶,指着屏幕上的性能监控图表。
“老板,我们在芝加哥的时候,你不是嫌FPGA的通用性太差,开发周期太长,非要让我们试试用市面上最新的英伟达Tes显卡来跑那个流体模型吗?”
她把笔记本转向林允宁。
屏幕上显示着四张英伟达TesC1060计算卡的运行状态。
“我把咱们的算法移植到了CUDA环境里,还特意用了一台插满四张卡的工作站做测试。
“理论上,这四张卡的浮点运算能力加起来,足够模拟小规模的湍流了。
“但是你看这个效率曲线。”
林允宁放下杂志,凑近看了看。
那条代表计算效率的绿色曲线,像是个喝醉了的酒鬼,忽高忽低,大部分时间都在低位徘徊。
“GPU的核心利用率只有40%?”林允宁皱眉。
“因为它们都在等。”
克莱尔抓起桌上的依云喷雾,对着脸狂喷了一通,水雾在冷气中弥漫,“这就好比你雇了四个法拉利车手去送外卖。车手跑得飞快,但是取餐口只有一个,而且是个只能过自行车的小巷子。
“卡1算完了一部分数据,想把边界条件传给卡2。它不能直接扔过去,它得先把数据打包,通过那条该死的PCIe总线传回CPU内存,CPU盖个章,再慢吞吞地塞给卡2。
“这一来一回,几百毫秒就没了。对于我们要算的纳维-斯托克斯方程来说,几百毫秒足够流体发生三次湍流突变了。
“大部分时间,这些昂贵的显卡都在空转,等着CPU给它们喂饭。”
方雪若坐在过道另一侧,正在核对一份厚厚的财务报表。
听到这里,她摘下眼镜,揉了揉鼻梁。
“这就是你要去见黄仁勋的原因?”
方雪若看向林允宁,“既然我们的FPGA已经被美国商务部盯上了,甚至连示波器都买不到,你就打算用这种‘效率低下’的通用显卡来替代?”
“不是替代,是妥协,也是另一条路。”
林允宁靠回椅背,看着舷窗外逐渐清晰的加州海岸线。
“FPGA是把‘狙击枪’,那是为了解决特定问题而生的。用来控制火箭或者反应堆,它无敌。
“但接下来我们要验证的那个‘质量间隙’问题,需要的不是精准控制,而是暴力穷举。那是海量的数据吞吐,需要的是‘地毯式轰炸’。
“这时候,只有GPU堆出来的算力能满足需求。但前提是……”
林允宁指了指克莱尔的电脑屏幕:
“我们得把这堵墙拆了。如果不解决多卡互联的通讯瓶颈,买再多显卡也是堆废铁。”
“老板,所以你是去教英伟达怎么做显卡?”
克莱尔挑了挑眉,一边拍打着脸颊促进精华吸收,一边吐槽,“那个穿皮衣的老头会听你的吗?听说他脾气可不太好,你们不会打起来吧。”
“不是教。”
林允宁笑了笑,“是提需求。
“我们是甲方,我们遇到了痛点,而这个痛点,恰好也是他未来的救命稻草。”
飞机震动了一下,起落架放下的机械声传来。
圣何塞的地面越来越近,硅谷那特有的灰褐色地貌和密密麻麻的低矮建筑群展现在眼前。
……
圣何塞国际机场(SJC),私人飞机航站楼。
舱门打开,加州特有的干热空气瞬间涌入,带着棕榈树和焦油沥青混合的味道。这与芝加哥那种湿冷的寒风截然不同,让人毛孔瞬间张开。
两辆黑色的凯迪拉克Escade已经在停机坪等待。
林允宁刚走下舷梯,就习惯性地压了压帽檐。
虽然这里是私人领地,没有狗仔队的闪光灯,但他依然敏锐地感觉到了某种窥视。
在距离车队大约五十米的铁丝网外,一辆不起眼的黑色福特SUV正安静地停着。
车窗贴着深色的膜,但在加州强烈的阳光下,依然能隐约看到里面坐着两个轮廓。
“BIS的‘客服’服务还真是周到。”
克莱尔戴上一副夸张的猫眼墨镜,把那个装满所谓“核心代码”的铝合金箱子扔给保镖,吹了声口哨,“从芝加哥跟到加州,他们是不是有里程积分?”
“只要他们不进会议室,就当是免费安保了。”
林允宁钻进车里,把冷气调大了一档,“毕竟我们这次谈的内容,在某些人眼里,可能比核武器还敏感。”
方雪若跟着上车,手里拿着行程表:
“第一站是门洛帕克的瑰丽酒店(RosewoodSadHill)。黄仁勋已经到了,他在那里有个长租的套房,专门用来见重要客人。
“明天上午去斯坦福SLAC见伯顿·里希特教授。
“允宁,我要提醒你一句。现在的英伟达情况并不好。股价跌到了10块钱以下,还有那个著名的‘封装门’丑闻,戴尔和惠普都在索赔。
“老黄现在的压力很大,他可能没有太多耐心听我们讲未来的愿景。”
“正因为他压力大,他才更需要听。”
林允宁看着窗外飞速后退的101号公路。路边的广告牌上全是Web2.0时代的标语——Facebook、Twitter、Zyga。
那是属于软件和互联网的狂欢,是轻资产的黄金时代。
而在这一片繁荣之下,做底层硬件的人正在泥潭里挣扎。
“他现在就像个溺水的人。我们不是去卖愿景的,我们是去递绳子的。”
……
门洛帕克,瑰丽酒店。
这里是沙山路(SadHillRoad)的心脏,硅谷风险投资的权力中心。
低调奢华的木质结构建筑掩映在橄榄树和薰衣草丛中,空气里弥漫着昂贵的香薰和金钱的味道。
林允宁并没有带太多人。只有方雪若和抱着笔记本电脑的克莱尔。
走进那间私密会议套房时,黄仁勋正站在露台上打电话。
和传闻中一模一样,哪怕是在加州接近三十度的高温里,哪怕是在室内,这位英伟达的创始人依然穿着那件标志性的黑色皮衣。
2009年的黄仁勋看起来比后来要精瘦一些,头发还没完全变白,但眉头紧锁,那种长期处于战斗状态的紧绷感隔着几米远都能感觉到。
“……我知道!如果是封装材料的问题,我们会负责到底!但不要用‘全部召回’这种词来威胁我,那是在杀鸡取卵!”
他对着电话吼了几句,然后挂断,深吸了一口气,转身时脸上已经换上了一副得体的、虽然略显疲惫的笑容。
“林先生,久仰。”
黄仁勋走过来,握手力度很大,手掌干燥有力,带着一股不服输的劲头,“我在GitHub上看过你的那个FPGA流体代码。非常漂亮。那种对并行度的压榨,简直像是某种暴力美学。
“说实话,我本来以为你会一直待在芝加哥搞你的专用芯片。”
“过奖了,Jese。”
林允宁微笑着回应,并没有因为对方比自己年纪大、资格老而显得拘谨,“FPGA虽然好,但它毕竟是个‘偏科生’。我现在遇到的麻烦,只有你的GPU能解决。当然,前提是它得先把某些毛病改改。”
两人落座。
服务员送来了冰水和加州特色的坚果拼盘。
“毛病?”
黄仁勋挑了挑眉,拿起一颗核桃捏在手里,并没有吃,“你是说我们的驱动不够稳定?还是CUDA的学习曲线太陡峭?”
“不,这些都是软件问题,软件问题好解决。”
林允宁摇了摇头。他对克莱尔使了个眼色。
克莱尔打开笔记本电脑,没有展示那些炫酷的流体动画,而是直接把那张惨不忍睹的效率曲线图推到了黄仁勋面前。
“这是我们在芝加哥测试的数据。四张TesC1060并联。”
林允宁指着那条趴在地上的线,“Jese,我对CUDA非常有信心,但我对PCIe没信心。
“我的流体计算需要每秒TB级的数据在显卡之间交换。但在现在的架构里,GPU0要想把数据给GPU1,必须先经过CPU,再经过内存,走一个漫长的‘U’型弯。”
林允宁从桌上的便签盒里抽出一张白纸,拔开签字笔的笔盖。
他在纸上画了两个方块,代表GPU,中间画了一个圆圈,代表CPU。
“这就像是两个坐在隔壁办公室的邻居,想说句话,却必须先把信寄到邮局,盖个戳,经由邮递员分拣,再送回来。
“无论你的GPU核心频率多高,无论你有多少个流处理器。只要这个通讯机制不改,它们就是一群被堵在高速公路入口的法拉利。
“只能怠速烧油,没法全速冲刺。”
黄仁勋盯着那张图,手里的核桃被他捏得咔咔作响。
他是懂技术的,他当然知道这个痛点。但他现在的处境,让他很难在这个时候去动底层架构。
“林,你知道改变总线协议意味着什么吗?”
黄仁勋把核桃扔回盘子里,声音低沉,“这意味着我们要去跟英特尔和AMD谈判,要去动主板厂商的蛋糕,甚至要重新设计GPU的物理接口。
“现在的英伟达,正在为了活下去而跟全世界打官司。你让我现在去搞这种‘基建工程’?”
“不是现在。”
林允宁看着黄仁勋的眼睛,语气平静,“我知道你现在很难。所以我给你带来了一个不用动硬件,就能立刻提升效率的‘止痛药’。”
他示意克莱尔切换窗口。
屏幕上出现了一行行枯燥的代码日志,那是针对矩阵运算的性能测试。
“这是我们内部开发的一个并行计算加速库。”
林允宁指着屏幕,“我们针对CUDA做了一些深度的指令集优化。主要是针对矩阵乘法(GEMM)和卷积运算。
“我们发现,如果不依赖通用的线性代数库,而是针对GPU的缓存特性手动管理显存切片,可以让浮点运算效率提升120%。”
黄仁勋的眼睛瞬间亮了。
现在的CUDA生态还很荒凉,大多数科研人员还在用着效率低下的通用库。能提升120%效率?这意味着英伟达的显卡在科学计算领域瞬间就能在性价比上碾压英特尔的CPU。
这对现在的英伟达来说,是急需的强心针。
“你想要什么?”黄仁勋身体前倾,商人本能让他立刻意识到这是笔交易。
“我把这套库的源代码授权给你,你可以把它集成进下一代的CUDA版本里——也许可以叫它的雏形。”
林允宁提出了他的条件,“作为交换,我需要你们下一代架构——代号Feri——的底层驱动权限,我要能直接操作寄存器的那种。
“以及……”
林允宁拿起笔,在那张白纸上那两个代表GPU的方块之间,画了一条粗粗的直线,直接绕过了中间的CPU。
“在未来的硬件设计路线图上,认真考虑一下这个‘桥’。
“如果我们在硬件层面上,给GPU开一个专用的高速互联接口。让它们可以直接访问对方的显存(UifiedMeoryAess)。
“那它们就不再是插在主板上的外设卡,而是一个巨大的、分布式的超算单元。
“Jese,游戏显卡可能会受经济周期影响,但科学计算的需求是无底洞。只要你把这条路修通了,以后全世界的科学家都会给你打工。”
会议室里安静了片刻。
窗外,一只蜂鸟悬停在薰衣草花丛中,翅膀高频振动,发出嗡嗡的声响。
黄仁勋看着那张草图,又看了看林允宁。
他看到了野心。
不是那种想要颠覆谁的狂妄,而是一种纯粹的、对算力极限的渴望。
“NVLik……”
老黄喃喃自语,仿佛在品味这个概念,“或者是类似的某种东西。
“好。这个‘桥’,我会让架构团队去研究。Feri的底层权限,我也可以给你。”
他伸出手,这次的握手比刚见面时更加用力,甚至带着一丝盟友般的默契:
“林,你是个疯狂的家伙。但我喜欢疯狂。在这个行业里,只有偏执狂才能生存。”
……
半小时后。
黑色的凯迪拉克驶离了瑰丽酒店,沿着280号公路向斯坦福大学的方向驶去。
两辆雪佛兰Suburba依然不远不近地吊在后面,像两条甩不掉的尾巴。
方雪若坐在副驾驶,手里拿着刚才签署的备忘录,眉头微皱。
“允宁,我们把核心加速库给了英伟达,这会不会是在培养一个巨头?”
她有些担忧,职业本能让她对这种核心技术的转让感到不安,“如果以后他们垄断了AI算力市场,反过来卡我们怎么办?”
“我们需要巨头,雪若姐。”
林允宁降下车窗,加州干爽的风吹乱了他的头发。
他看着窗外飞速后退的硅谷景色,目光深远。
“单靠以太动力一家公司,造不出整个生态。我们需要有人去铺路,去把GPU计算变成标准。只有路铺好了,我们的车才能跑得快。
“至于以后……”
林允宁笑了笑,“等那个‘桥’真的造出来了,他们会发现,这世界上最会过桥的人,还是我们。”
他转过头,看向前方路牌上那个红色的标志——“SLAatioalAeleratorLaboratory”(斯坦福直线加速器中心)。
那是物理学的圣地,也是他此行的终极目的地。
“算力的问题,算是暂时找到了盟友。
“接下来……就是去SLAC。”
林允宁摸了摸贴身口袋里的一张折叠起来的纸。
那上面写着他在芝加哥那个夜晚推导出的质量间隙公式,以及一组预测的胶球质量数据。
那是比商业合同更重的东西。
那是用来和上帝摊牌的底牌。
“让我们去看看,那些实验物理学家看到‘预言’成真时,会是什么表情。”