第622章 九章之上,再攀一天(1/2)
任少卿没有立刻回答。
他皱著眉头想了几秒,像是在確认这个问题有没有什么陷阱。
“提取局部特徵,逐层抽象。”
这是教科书级別的標准答案。
顾屿点了点头。
“局部特徵。”
他重复了一遍这四个字,语气很轻。
“你注意到了吗,你自己说的局部。”
任少卿的眉头皱得更紧了。
顾屿没有继续追问。
他站起来,走到会议室角落那块白板前面,拿起一支黑色马克笔,拔开盖子。
“我打个比方。”
他在白板上画了一个长方形,里面写了一行字:今天天气真好,我们去公园玩吧。
“这是一句话。十二个字。”
顾屿用笔尖点了点第一个字,
“假设你是一个卷积核,你的窗口大小是三。你一次只能看到三个字。”
他用笔在“今天天”三个字
“你站在这个位置,你能看到今天天。然后你往右滑一格,看到天天气。再滑一格,天气真。”
任少卿没说话,目光牢牢锁在白板上。
“每一次,你都只能看到三个字的范围。”
顾屿的声音不急不慢,
“你把这些小碎片一层一层地拼,拼到最后,理论上你能拼出整句话的意思。这就是n干的事。拿一个小放大镜,一小块一小块地看,然后靠叠加很多层来慢慢扩大你的视野。”
他停了一拍。
“你的残差连接解决了什么问题解决了叠加层数时信號衰减的问题。换句话说,你让这个放大镜可以叠很多很多层了,不会失灵了。这很了不起。”
任少卿听出了这句话后面跟著一个“但是”。
果然。
“但放大镜终究是放大镜。”
顾屿用笔尖在那行字的第一个字和最后一个字之间画了一条红色的连线。
“如果这句话的第一个字今和最后一个字吧之间存在某种关键的联繫呢你得叠多少层,才能让第一层的卷积核看到最后一个字”
任少卿的嘴唇动了一下。
“图像上你感受不到这个问题。”
顾屿把笔盖盖上,转过身面对任少卿。
“因为一张照片里,猫的耳朵和猫的眼睛挨得很近,它们天生就在一个局部窗口里。卷积核天然適合干这个活。”
“但如果有一天,你要处理的东西不是图片呢”
会议室里安静了几秒。只有中央空调出风口的微弱嗡鸣声。
“比如一篇文章。”
顾屿说。
“比如一整本小说。第一章的伏笔,要到最后一章才回收。中间隔了几十万字。你的卷积核要滑多少次才能把它们联繫起来”
任少卿没有接话。
顾屿没有急著往下说。
他把马克笔放回白板槽里,走回座位坐下,端起桌上已经凉透的茶杯喝了一口。
给任少卿留消化的时间。
大约过了半分钟,任少卿开口了。声音比之前低了半个调。
“你的意思是,卷积这个操作本身,在某些任务上存在结构性的缺陷。”
“不是缺陷。”
顾屿纠正他,
“是边界。每种工具都有它的边界。锤子钉钉子很好使,但你不能拿锤子去拧螺丝。”
任少卿沉默了更久。
然后他抬起头,眼睛里的光变了。
不再是匯报实验成果时那种兴奋的亮,而是一种更深的、带著困惑和渴望的光。
“那如果不用卷积呢”
顾屿等的就是这句话。
“你想像一下这样一种结构。”
顾屿的语速放慢了,像是在帮对方一起画一幅还不存在的蓝图。
“一个序列里有十二个字。每一个字,都能同时看到其他所有十一个字。不需要一层一层地滑窗口,不需要一步一步地扩大感受野。每个位置直接和所有位置產生联繫,然后自己决定,我该重点关注谁,忽略谁。”
任少卿的第一反应是脱口而出的。
“计算量会爆炸。”
紧接著他的眉头皱成了川字,
“而且这不符合逻辑。如果不靠卷积的滑动窗口,也不靠循环网络的先后顺序,模型怎么知道这句话的语序我爱你和你爱我,在这种每个位置同时交互的结构里,权重会变得完全一样,位置信息彻底丟失了!”
顾屿眼底透出讚赏。
不愧是任少卿,立刻就捏住了self-attention最致命的七寸——位置编码。
但他没有立刻解答,只是微微一笑:
“对。”
顾屿点头,毫不意外。
“十二个字,每个字和其他十一个字交互,就是十二乘以十二,一百四十四次运算。如果是一千个字呢一百万次。一万个字呢一亿次。复杂度是字数的平方。”
他看著任少卿。
“所以关键从来不是这个思路对不对。理论上它是对的,你心里清楚。关键是怎么让它跑得起来,算得动,能工程化。怎么让一亿次运算压缩到gpu能並行处理的范围內,怎么把丟失的位置信息用数学手段重新注入进去。怎么让它不只是一个漂亮的数学公式,而是能真正训练出结果的工程方案。”
任少卿的手指无意识地敲著桌面。
顾屿看著他的表情。这张被雅安紫外线晒黑了一圈的脸上,正有什么东西在鬆动。
“这是值得你花一年甚至更长时间去攻克的课题。”
顾屿说完这句话,往椅背上靠了回去。
他知道今天说到这里就够了。种子已经种下去了。
任少卿是这个领域最顶尖的工程大脑之一,给他一个正確的方向,剩下的推导和验证,他自己会跑起来。
但方向只是第一步。
“少卿。”
“嗯”
“残差网络的论文,一个月之內整理成稿,投cvpr或者iv。署名用迴响科技ai实验室。”
任少卿愣了一下。
本章未完,点击下一页继续阅读。