正文第236章恒等映射（求订阅求月票）|学霸的模拟器系统|学霸的模拟器系统章节阅读-零点小说网

亲,双击屏幕即可自动滚动

正文第236章恒等映射（求订阅求月票）

    十二月的温哥华，空气湿润而凛冽。

    灰蓝色的海湾倒映着北岸山脉的积雪，海鸥在温哥华会议中心的巨型玻璃幕墙外盘旋。

    NIPS2007（神经信息处理系统大会）的注册大厅里，人声鼎沸。

    林允宁刚领完胸牌，还没来得及把那个略显廉价的挂绳套在脖子上，就被一群年轻的面孔围住了。

    “林-God！能不能签个名？”

    一个戴着厚底眼镜的男生激动地递过来打印好的论文，封面上赫然印着《LiearAttetioMechais》（线性注意力机制）。

    “我是伯克利的一年级博士生。您的这个算法简直是救命稻草！我们在做长序列基因预测，之前跑一次模型要一周，用了您的核技巧优化后，现在只要半天！”

    “林先生，关于您那篇暗流体的论文，我在物理系的室友说您重新定义了真空？”

    “林……”

    林允宁熟练地接过马克笔，在那篇论文的空白处签下了名字。

    这一年来的历练，让他对这种场面已经习以为常。

    他不像是来参会的学生，更像是走红毯的明星。

    “看来我们的‘物理学家’人气很高啊。”

    一个带着英伦腔调的声音从侧方传来。

    人群自动分开一条路。

    杰弗里·辛顿（GeoffreyHito）穿着一件看着有些年头的粗花呢西装，正笑眯眯地看着他。

    站在辛顿旁边的，是穿着格子衬衫、背着双肩包的Google工程战神杰夫·迪恩（JeffDea）。

    “辛顿教授，迪恩博士。”

    林允宁盖上笔帽，微笑着走过去握手，“ICML一别，好久不见。”

    “确实好久不见。”

    杰夫·迪恩的眼神依然热切，像是在看一块未被开采的金矿，“听说你最近在数学界和物理界闹出的动静很大？陶哲轩都在给我发邮件夸你。怎么样，有没有兴趣来GoogleBrai给我们讲讲那个‘复配边算子’？顺便聊聊入职的事？”

    “杰夫，你就别费心了。”

    辛顿打断了迪恩的挖角，“林这种人，注定是要自己定义问题的，而不是去解决别人定义的问题。不过，林，我很期待你今天的Keyote。听说你要从几何流的角度讲优化？”

    “我确实有一点不成熟的想法。”

    林允宁谦虚了一句，“希望能给在这个寒冬里坚持神经网络的人，一点信心。”

    周围的参会者们看着这三个大佬级别的任务谈笑风生，眼神里充满了敬畏。

    在2007年，这三个人站在一起，基本上就代表了人工智能的一半未来。

    只是，其中有个人实在年轻的有点过分。

    ……

    上午十点，主会场。

    巨大的投影幕布上，显示着Keyote的标题：

    《从几何流看神经网络的优化景观》。

    演讲很成功。

    林允宁的讲座深入浅出，没有用枯燥的代码，而是用物理直觉，将神经网络的参数空间比作一个高维的能量地形图，阐述了为什么传统的梯度下降法容易陷入局部极小值。

    到了提问环节。

    一位来自麻省理工学院（MIT）的老教授站了起来，扶了扶话筒：

    “林先生，你的几何比喻很精彩。但是，深层网络的优化曲面是非凸的（No-vex），存在大量的鞍点（SaddlePoits）。在数学上，这些鞍点会导致海森矩阵（HessiaMatrix）出现负特征值，从而阻碍收敛。你是如何看待这个问题的？”

    这是一个非常硬核的数学问题。

    全场安静下来，等待着林允宁的回答。

    “这是一个非常好的几何问题。”

    林允宁眼睛亮了。

    他指了指台边的黑板，“能帮我推过来吗？”

    工作人员迅速将黑板推到舞台中央。

    林允宁拿起粉笔，转身面对黑板。

    “其实，如果我们跳出欧几里得空间的限制，把参数空间看作一个黎曼流形……”

    哒哒哒。

    粉笔在黑板上敲击出清脆的节奏。

    第一行，他写下了海森矩阵的本征值分解公式。

    台下的观众频频点头，来到这里的虽然大部分是计算机科学家，但数学水平并不低。

    他们对于这些基础的代数问题，还是理解得很深入的。

    第二行，林允宁开始引入莫尔斯理论（MorseTheory），用临界点的指数来描述鞍点的性质。

    台下有一半人开始皱眉，拿笔的手停住了。

    “进一步，如果我们考虑梯度流在这个流形上的测地线偏离方程（GeodesicDeviatioEquatio）……”

    从第三行开始，林允宁直接祭出了他在和陶哲轩讨论时用到的“同调群”（HoologyGroup）演化方程，开始证明在高维空间中，鞍点其实是逃逸路径的“路标”，而非陷阱。

    台下彻底安静了。

    那是一种死一般的寂静。

    刚才还在点头的计算机科学家们，现在的表情就像是误入了高等数学专业课的大一新生。

    他们的眼神从迷茫，变成了呆滞，最后变成了放弃思考的释然。

    只剩下此起彼伏的相机快门声——

    虽然听不懂，但这公式看着就很厉害，先拍下来再说。

    林允宁写得兴起，手中的粉笔折断了一截。

    他回过头，正准备解释一下贝蒂数的物理意义，却看到了台下几千双迷茫的眼睛。

    甚至连前排的杰夫·迪恩都在揉太阳穴。

    “呃……”

    林允宁愣了一下，瞬间反应过来。

    这是AI大会，不是数学家大会。

    他刚才那套连陶哲轩都要思考几分钟的推导，对这帮搞工程的人来说，简直就是天书。

    这就是所谓的降维打击——

    一不小心打得太狠，以此至于观众连痛感都没反应过来。

    “咳。”

    林允宁淡定地把剩下的半截粉笔扔进笔槽，拍了拍手上的灰，指着黑板上那堆如同鬼画符般的公式：

    “简而言之，只要路径选得对，鞍点不是障碍，是跳板。”

    台下沉默了一秒。

    “哗——”

    雷鸣般的掌声爆发了。

    大家其实还是没听懂，但这不妨碍他们对这种智力上的绝对高点表示敬意。

    ……

    午饭时间，海报展区（PosterSessio）。

    相比于主会场的热闹，这里的角落显得有些冷清。

    2007年的计算机视觉（CV）领域，还是SVM（支持向量机）和人工特征提取（SIFT/HOG）的天下。

    在一个不起眼的角落里，林允宁看到了一个略显落寞的身影。

    那是一位有些瘦削的亚裔女性，正独自站在一张海报前。

    海报的标题是《Iage:ALarge-ScaleHierarchicalIageDatabase》。

    李飞飞。

    未来的AI教母，此刻正面临着职业生涯最大的至暗时刻。

    她的Iage项目因为耗资巨大、且尚未产出任何能用的成果，被学术界视为“浪费资源的苦力活”。

    在主流观点看来，算法才是关键，数据够用就行。

    搞这么大的数据集，现有的算法根本跑不动，毫无意义。

    路过的人大多只是瞥一眼海报上那个夸张的数据量——“一千万张图片”，然后就摇摇头走开了。

    林允宁整理了一下方雪若送的那套高级西装，走了过去。

    “李教授，好久不见。”

    李飞飞抬起头，看到是林允宁，眼神中闪过一丝惊讶。

    两人曾在ICML的闭门会议中有过一面之缘，但并未深交。

    她没想到，这位刚刚在主会场享受完掌声的当红炸子鸡，会跑到这个冷清的角落来。

    “林先生。”

    李飞飞礼貌地笑了笑，笑容里带着一丝疲惫，“刚才的演讲很精彩。虽然我也没完全听懂那个同调群。”

    “数学只是工具。”

    林允宁站在海报前，认真地看着上面的架构图，“我在意的是地基。我了解过你的Iage项目，请问现在的进展如何？”

    “不太好。”

    李飞飞是个很坦诚的人，她苦笑了一声，“我们雇佣了来自167个国家的近5万名亚马逊MechaicalTurk工人来打标签。数据量是上来了，但是……误差率居高不下。

    “现有的SVM和浅层神经网络，在这么大的数据量面前，就像是小马拉大车，根本跑不动。

    “没想到你对这个感兴趣，现在大家都在讨论你的几何流和核方法，没人关心数据。他们觉得只要算法足够精妙，小样本也能学出花来。

    “大家都说我在做无用功，说与其花钱搞数据，不如多优化一下算子。”

    “那是他们错了。”

    林允宁转过头，看着李飞飞的眼睛，语气出人意料地笃定，“数据是新时代的石油。在这个算力即将爆炸的前夜，谁掌握了最大的数据集，谁就掌握了定义下一代智能的权力。

    “李教授，你现在的问题不是石油太多，而是提炼石油的引擎——也就是神经网络的架构，还不够强，我说的对么？”

    李飞飞愣了一下。

    她没想到这个搞理论物理出身的天才，竟然比很多计算机同行更懂数据的价值。

    “你说得对。”

    这位普林斯顿的助理教授叹了口气，“这也是我最头疼的。数据量上去了，可是模型跟不上。无论是SVM还是浅层神经网络，一旦喂进去海量数据，误差率不仅不降，反而居高不下。我在想是不是哪里出了问题。”

    “找个地方聊聊？”

    林允宁指了指旁边的咖啡座，“我最近有些新想法，也许你会感兴趣。”

    ……

    咖啡座里，人声嘈杂。

    两人找了个角落坐下。

    “现在的网络有个悖论。”

    李飞飞拿出一张图表，上面画着两条曲线，“理论上，网络层数越深，表达能力越强。但实际上，当我们把层数从20层增加到50层时，训练误差反而变大了。这不科学，这叫‘退化问题’（DegradatioProble）。”

    “因为信息在传递过程中失真了，我最近有一个新的想法，我称之为‘残差神经网络’，正好想听听你的意见。”

    林允宁手指轻轻敲击着桌面，淡淡说道。

    他没带电脑，于是随手从桌上的纸巾盒里抽出一张餐巾纸，掏出随身带的圆珠笔，在纸上画了一个示意图：

    “李教授，想象一下传话游戏。如果你想把一句话传给第100个人，中间每过一个人，信息就会因为‘非线性’的理解而扭曲一点。到了最后，话全变了。”

    他在纸上画了一个方框，代表卷积层。

    “现在的做法是强迫网络去学习从X到Y的完整映射F(x)。这很难。”

    林允宁在方框旁边，画了一条弯曲的弧线，直接把输入X连到了输出端。

    在那条弧线上，他重重地画了一个加号：+。

    H(x)=F(x)+x

    “我们给它修一条‘直通车’。”

    林允宁指着那个简单的公式，“这就是‘残差块’（ResidualBlock）。

    “我们不再让网络去学习完整的输出H(x)，而是让它只学习‘变化量’——也就是残差F(x)=H(x)-x。

    “如果这一层不需要做什么改变，网络只需要把F(x)置为0，那么输出就自动等于输入x（恒等映射）。

    “这样一来，梯度就可以顺着这条高速公路，毫无损耗地传回前面的层。别说50层，就是100层、1000层，也能训练。”

    李飞飞盯着那张餐巾纸。

    那个结构简单得像是一个大一学生的作业。

    但正是这种极致的简洁，让她感到一阵头皮发麻。

    困扰了AI界几十年的深度瓶颈，竟然被一条简单的“跳线”给破解了？

    “这……这太天才了！”

    李飞飞猛地抬起头，眼神里全是震撼，“IdetityMappig……恒等映射！就这么简单？为什么没人想到？”

    “因为大家都在想怎么把网络变得更复杂，却忘了有时候‘什么都不做’也是一种智慧。”

    林允宁笑了笑。

    “但是……”

    李飞飞忽然想到了什么，眼神中的兴奋稍稍褪去，“算力……普林斯顿的经费有限，训练这种深层网络需要的GPU算力是天文数字。我现在连Iage的存储服务器费用都快付不起了。”

    2007年，NVIDIA刚刚发布第一代TesC870计算卡，CUDA生态还是一片荒芜。

    训练一个几十层的网络，简直是在往无底洞里面扔钱。

    “算力不是问题。”

    林允宁等的就是李飞飞这句话。

    他靠在椅背上，端起咖啡抿了一口，露出了商人的微笑。

    他语气轻松，仿佛他背后站着整个谷歌的数据中心，“以太动力虽然是家小公司，但在高性能计算上的投入从不吝啬。

    “李教授，我们做个交易吧。

    “以太动力可以为你提供基于‘残差网络’（Res）的全套算法支持，并且在不远的未来，在我们的服务器上帮你训练第一版Iage分类模型。”

    李飞飞震惊地看着这个年轻人。

    她知道以太动力刚赚了辉瑞的钱，但没想到他们竟然富到可以烧钱训练大模型。

    “条件呢？”她问道。

    李飞飞是聪明人，知道天下没有免费的午餐。

    “我要Iage完整数据集的永久商业使用权。”

    林允宁图穷匕见，声音不大，却透着不容置疑的坚决，“以及未来所有版本更新和衍生数据的优先共享权。”

    李飞飞愣住了。

    她原本以为林允宁会要论文署名，或者是专利共享。

    没想到他要的竟然是……数据？

    那个现在被所有人嫌弃、却又大得吓人的数据集？

    “就这些？”

    李飞飞有些不敢相信，“你确定？这些图片现在除了占硬盘，还没人知道怎么用它们赚钱。”

    “我很确定。”

    林允宁笑了。

    没人比他更清楚，再过几年，这堆“占硬盘的图片”，将成为点燃深度学习大爆炸的燃料。

    那是AGI（通用人工智能）时代的入场券。

    虽然训练这个Res可能会烧掉他账上刚趴热乎的几百万美金，甚至可能会被方雪若骂得狗血淋头。

    但这笔买卖，太值了。

    “成交。”

    李飞飞伸出手，眼中满是感激，“林，谢谢你。你不仅救了Iage，你可能救了整个深度学习。”

    ……

    深夜，温哥华费尔蒙酒店。

    窗外的雨又开始下了，淅淅沥沥地敲打着玻璃。

    林允宁回到房间，把那张画着Res草图的餐巾纸夹进了笔记本里。

    虽然刚刚在咖啡馆里表现得豪气干云，但他心里清楚，回去之后怎么跟方雪若解释这笔巨额算力开销，是个大问题。

    “算了，那是明天的事。”

    他打开电脑，准备查看一下邮件。

    屏幕右下角，一个红色的加密邮件图标正在闪烁。

    发件人：赵振华。

    林允宁神色一凛，迅速点开。

    没有寒暄，直接是干货。

    【允宁：

    首先恭喜你最近发表的有关‘暗流体’和‘复规范流’的轰动性论文，相当了不起的工作！

    回到我们的课题。

    好消息是：经过两个月的调试，中科院物理所的极端条件实验室，已经成功合成了纯度极高的魔角石墨烯样品。那个1.1度的魔角，我们卡准了。

    低温稀释制冷机已经降到了10K，超导磁体也就位了。枪已上膛。

    但坏消息是：相图太复杂了。

    在电压、磁场、温度构成的多维参数空间里，那个超导态就像是大海里的一根针。我们试着扫了几个点，全是绝缘态。

    如果不确定具体的参数范围，盲目搜索无异于大海捞针。

    我们也在调集人手开展理论计算，但你也知道，‘自旋涨落’并不是主攻方向，所以人手不足。

    而冯教授那边在用传统的电声耦合模型做计算，如你所料，收敛很慢。

    我们需要你的加入，想办法告诉我们，那个‘自旋涨落’的超导态，到底藏在相图的哪个坐标点？】

    邮件的最后，是一张空白的相图坐标纸，等待着被填满。

    林允宁看完邮件，关掉了那个关于Res的文档。

    AI的热闹已经留在了会场里。

    现在，面对着这封来自大洋彼岸的邮件，他仿佛闻到了低温实验的冷冽气息。

    “迷雾吗？”

    林允宁看着那张空白的图纸，手指轻轻敲击着键盘，眼中闪烁着比屏幕更亮的光芒。

    “那就让我来画这张地图。”

    ……