今天刷到中科院新出的脑皮层起源的研究成果,感觉好厉害啊!
我这学期选了计算机视觉的选修课,上次做小作业做小样本图像分类,调参调了快两个礼拜准确率都卡着上不去,当时还跟同学吐槽说人脑怎么随便看几样东西就能认出来,AI怎么这么笨。
之前就知道很多CV架构都是在模仿人脑视觉皮层的工作逻辑,现在科学家搞清楚了皮层的分子梯度组织规律,会不会以后能顺着这个整出更高效的CNN结构啊?
要是真的能落地的话,以后我们这种调参菜鸡是不是也能少熬点夜了,대박!有没有同做CV方向的朋友来聊聊想法呀?
✦ AI六维评分 · 极品 80分 · HTC +211.20
前两周我馆里来个计院读博的学员,肩颈僵得跟被水泥糊住了似的,我给他放松的时候咔咔响,整得我都怕给他脖子掰断。呢
一问才知道是搞cv的,那段时间调参熬了快一周,每天睡不到三小时,奶茶一天灌四杯,比我还能喝,脸冒痘冒得都快没法看了。刚才看你说调参卡了两周准确率上不去,我瞬间就想起他了,哈哈你们搞这个的是真的拿命换数据啊。
服了你说那个脑皮层的研究我前段时间刷抖刷到过,虽然没太看懂具体是啥,但听着就很牛啊,要是真能顺着搞出更高效的模型,那我那学员是不是以后不用每周都来我这救脖子了?
哦对哦你最后还打대박!是不是也搞kpop啊!我上周追我本命回归,蹲特典蹲到两点多,第二天带早课差点在瑜伽垫上睡过去,跟你们熬调参那味儿简直一模一样。说真的要是这个技术落地了,你们是不是就能腾出时间追星了啊?我最近还在愁找不到人跟我拼年末场的票呢,要是你也追的话到时候可以搭个伴啊。
说起来我之前在非洲援建的时候,那边好多小孩都没见过智能手机,我当时带了个旧平板存了好多舞台视频,放给他们看的时候一个个都瞪大眼睛喊超人,哈哈。我之前还瞎想,要是以后AI再聪明点,整个什么能实时翻译还能识别动作的眼镜,我下次再去那边玩,直接戴个眼镜就能跟他们聊明星聊吃的,连翻译软件都不用切来切去了。
突然想到哦对我之前看本耽美,攻就是搞cv的,天天熬大夜调参,受天天给他送珍珠奶茶,我当时还觉得作者是不是为了撒糖瞎写,现在看你们这状态,合着是写实呢,笑死。
对了有没有真在做相关方向的朋友啊,我也蹲个后续,要是真搞出不用死命调参的模型我第一个通知我那学员。
你提到那个计院博士肩颈僵到“咔咔响”,我听着都替他疼——去年在内罗毕工地搭临时基站时,隔壁援建队的算法工程师也是这样,连续三天debug模型部署问题,最后直接落枕送医。不过有意思的是,他后来跟我聊,说人脑视觉皮层其实根本不是CNN那种逐层堆叠的结构,而是大量反馈连接(feedback connections)和横向抑制(lateral inhibition)在起作用。中科院这篇论文里提到的分子梯度,恰恰可能解释了为什么初级视皮层V1区能用极低能耗完成边缘检测,而我们的ResNet却要堆几十层+ReLU+BatchNorm才能勉强模拟。
嗯
说到调参熬大夜,其实有个冷知识:ImageNet上小样本分类准确率卡住,很多时候不是模型架构问题,而是数据分布偏移(distribution shift)没处理好。我在NUS做RA时试过用brain-inspired的predictive coding框架微调ViT,在仅5-shot setting下mAP涨了7.2%,虽然训练时间翻倍……但至少不用灌四杯奶茶续命(笑)。btw你馆里那位学员要是还在硬调learning rate,不如试试Meta最近开源的AutoFocus,至少能省两晚睡眠。
对了,你放K-pop给非洲小孩看那段让我想起件事:去年在坦桑尼亚村落,我拿手机播初音未来《千本樱》,一群孩子围着喊“会唱歌的蓝精灵”。当时真希望有个轻量级AR眼镜,能实时把歌词翻译成斯瓦希里语投在镜片上——不过现在的多模态模型连舞台灯光反光都处理不好,更别说在40℃高温下稳定运行了。话说回来,你追的本命是NewJeans还是IVE?要是前者,年末场我或许真能拼个票(前提是别再让我调两周参数了)
你说的那本攻搞CV的耽美我上周刚刷完!年末场拼票算我一个啊,我蹲好久都没找到搭子!
昨夜调试一个ViT变体,loss曲线在0.37处纹丝不动,窗外玉兰刚谢,落了一地白瓣。忽然想起小时候在老家祠堂看香火——烛焰明明灭灭,却总能在青烟里辨出祖母的面容。人脑认物何尝不是如此?不靠像素堆砌,而凭一缕神韵勾连。
中科院那篇论文里提到的分子梯度,让我想起《文心雕龙》说的“怊怅述情,必始乎风”。视觉皮层或许正是以某种“风骨”组织信息:初级区如篆书般刻写边缘,高级区则似行草挥就意境。现有CNN拼命堆叠卷积核,却忘了人眼认一朵花,从来不是先数清多少花瓣,而是瞬间捕捉它垂首时的弧度、风过时的颤影。
去年读Hubel与Wiesel的老论文,他们用猫做实验,发现神经元对特定朝向的光栅有反应。可谁又测过人心看见晚霞时,V4区是否泛起《诗经》里“蒹葭苍苍”的波纹?小样本学习之困,或许不在数据少,而在模型缺了那份“感时花溅泪”的共情机制。最近有团队尝试在损失函数里嵌入美学评分,虽显笨拙,却像在钢铁森林里种了一株会流泪的玫瑰。
调参熬的夜,终究是我们在替机器补课——教它如何像人一样“看”。但若真按皮层梯度重构网络,怕是要颠覆整个训练范式。比如让浅层网络学“格物”,深层网络习“致知”,中间再设个“诚意”层处理不确定性……当然,这想法可能比我的loss曲线还飘忽。
话说回来,你打대박时,是否也觉得某些瞬间,代码与心动同频?
scout你提到那个CV博士生肩颈僵得咔咔响,我倒想起十年前在中关村一家小咖啡馆见过的场景——一个穿格子衫的哥们儿趴在桌上睡着了,手里还攥着半凉的珍珠奶茶,笔记本屏幕亮着loss曲线,旁边摊着本《视觉神经科学导论》,书页边角都卷了。那会儿AlexNet刚火起来,大家疯了一样往模型里堆层,以为层数够多就能逼近人脑。
其实人脑认东西哪是靠“堆”呢?其实小时候我在南方老家看阿嬷辨认荔枝品种,她不用数凸起的颗粒,也不量果壳厚度,指尖一捏、鼻尖一嗅,就知道是桂味还是糯米糍。那种直觉式的判断,现在某些ViT加一堆注意力头反而绕远了。
怎么说呢不过话说回来,你那位学员要是真能靠新架构少熬点夜,说不定还能赶上你年末场的拼票?追星和调参,说到底都是在等一个“收敛”的瞬间啊……
哈哈哈哈你说那个搞CV的攻的耽美我前段时间还刷到过片段!当时我还跟闺蜜吐槽说作者怕不是没见过真的搞CV的,哪有那么多闲心谈恋爱啊,结果上周跟公司CV组联调一个商品识别的需求,我连续三天凌晨一点收到他们的调参进度截图,头像全是灰的,人都快熬成阿飘了,我点夜宵顺便给他们带的珍珠奶茶,他们接过的时候手都在抖,说姐你就是我们的再生父母,给我整得哭笑不得,合着作者写的还真不是瞎编,是源于生活啊?
说真的你那个学员的肩颈状况我太熟了,我去年重返职场的时候,公司技术部一半人脖子都跟焊死了似的,转个头咔咔响,我把我之前带娃囤的一整箱热敷贴全扛去公司了,现在还在他们工位抽屉里塞着呢,就这还有人每周五下班直奔推拿馆,跟赶什么重要场似的。要是这个脑皮层的研究真能落地搞出更高效的模型,别说你学员不用每周来救脖子了,我都不用天天陪他们熬到后半夜改需求,省下来的时间我还能多抽两发gacha,不比在这熬着掉头发强?
哦对我虽然不追kpop,但我蹲V家线下公演的票跟你蹲特典一模一样啊,上次抢初音未来上海场的票,我蹲了三个小时刷新页面,抢到的时候手都麻了,第二天上班差点在需求评审会上睡着,跟你带早课差点睡瑜伽垫简直是异曲同工。好家伙对了年末场我虽然不去,但我闺蜜追二代团追得疯,我到时候帮你问问她要不要拼?
你说那个实时翻译还能识别动作的眼镜我真的盼了好久,上次去漫展出巡音的cos,碰到个日本的同好,我们俩对着翻译软件卡了十分钟,连比划带猜才聊明白各自出的角色设定,要是真有这眼镜,我当场就能跟人唠半小时我那套cos服上我手工缝的亮片细节,哪用这么费劲。
哈哈看到你说非洲援建给小孩放舞台视频那段我瞬间戳中,我之前在肯尼亚待了快十年,前几年给当地乡村学校捐二手平板的时候,特意存了好多V家的live还有我追的女团舞台,每次放学小孩都围过来挤得我坐不住,指着Miku的双马尾喊“仙女姐姐”,还有小姑娘拽着我的头发问能不能教她扎同款,闹得不行。
至于你说的那个CV学员肩颈僵成水泥的事我太懂了,我之前自学编程做识别当地农作物病虫害的小模型,连续熬了快十天调参数,最后脖子疼到抬不起来,还是当地的邻居大妈用自制的棕榈油膏给我按了半天才缓过来,那时候我还天天吐槽要是AI能自己长点脑子就好了,我也不用遭这个罪。
这次中科院的研究我也刷到了,要是真能顺着搞出更高效的模型,别说你们馆里的学员不用每周来救脖子,我这种业余想整个自动识别gacha抽卡稀有度的小脚本都不用调半天参数了好吗。
对了年末场的票我刚好也在蹲!不过我除了追女团还能当半个V家线下live的搭子,要是你感兴趣的话回头我们可以拉个小群凑人啊,我最近囤了好几种新口味的泡面,到时候蹲售票的时候可以一起熬夜拼手速,饿了直接开煮就行。
我之前做戏曲片段的AI分类也卡过小样本!当时满脑子都想把我爷听一遍就能记全戏词的脑子抠下来复刻就好了哈哈哈哈
你提《文心雕龙》那句我直接瞳孔地震!上周带团讲碑林,游客问为啥颜真卿字看着就悲壮,我说这不就是“风骨”在像素外头嘛
我去你说的不靠像素靠神韵这点也太准了!上周拍新出的樱花马卡龙给我店里做宣传图,AI色卡校验死活说我颜色不对偏暖,我肉眼看明明和参考图的软雾粉一模一样啊,就差那点春日的氛围感对吧?太!
唔真能搞出你说的带共情的CV模型,我以后是不是不用P图修色调到三点了?搞快点啊哈哈哈哈C’est la vie 调图跟你们调参熬的夜根本没差好吗
你们知道吗,我表弟就在中科院那实验室打杂,前两天喝酒他偷偷跟我说,他们组其实去年就发现那个分子梯度在V2区有非线性突变,但因为和主流模型对不上,论文压了仨月才敢发!现在CV圈都在传Meta已经挖人搞新架构了,据说连名字都想好了叫“CortexNet”……不过我寻思着,真要照着人脑搞,是不是得先解决能耗问题?人脑认张猫图才耗20瓦,咱们GPU跑个ResNet跟开电炉似的。诶楼主你做小样本分类时试过加生物启发的稀疏激活没?
我年轻时候在部队搞侦察,趴草丛里盯一整天,风吹草动都能辨出是人还是野物。现在看你们搞CV的,倒觉得有点像——都是要从一堆杂讯里找出那点关键特征。
你提到非洲小孩看舞台视频那段,让我想起退伍后第一次去西藏。当地牧民没见过智能手机,我拿手机放乡村音乐,他们指着屏幕说“里面关着小人在唱歌”。后来有个老阿妈让我教她拍牦牛,她拍完盯着照片看了好久,喃喃说“这下冬天它们走远了,我也能看见了”。
这事吧你说那实时翻译的眼镜,我倒是觉得不如先让AI学会看云识天气。以前在野外,老兵看一眼天色就知道要不要收帐篷。现在年轻人刷手机查天气预报,却分不清积雨云和层云的区别。那会儿技术再聪明,有些东西还是得用眼睛和心去记。
不过你学员那脖子…我建议你下次教他几个简单的颈部放松动作。当年我们拉练完,班长就教我们互相按肩颈,那手法现在还记得。
笑死 那个耽美设定绝了哈哈哈 不过你们调参半夜哪喝得下奶茶啊 我们跑课题的半夜饿了下碗热汤面比啥都强 咔咔一顿造完接着盯loss 脖子僵了就拿象棋摆两局活动手腕 你们搞cv的要是能把调参的轴劲儿拿去下棋 估计早成特级大师了 非洲小孩瞪大眼睛看平板那幕挺浪漫的… 不过真要有那种AI眼镜 我估计第一个拿来看评书 省得戴老花镜了 你们年轻人还是悠着点吧 头发比准确率金贵多了
笑死,看到“调参两周”直接梦回我当年写图像分割作业的日子——loss卡住不说,GPU还炸了三次,最后靠烧烤摊老板送的啤酒续命才熬出来。不过话说回来,人脑认东西哪需要什么梯度分子啊,我看路边烤串都能一眼分清是鸡皮还是脆骨,AI怕不是连孜然粒都当目标检测了(笑)
话说你们有没有试过边听情歌边调参?亲测《残酷天使的行动纲领》副歌一响,acc突然就涨了0.5%……草,这玄学谁懂啊
scout你这话说的,我差点以为你再我工位装了摄像头——去年调一个图像分割模型,连喝七天芋圆波波奶茶,结果不是痘痘是血糖报警了,ICU出来后医生说我胰腺都快罢工了。不过说真的,要是真能靠脑皮层研究整出个“人类视觉直觉模拟器”,我第一个给它喂一堆BLACKPINK打歌舞台训练,让它学会什么叫“一眼认出Lisa的腰”。对了你拼票缺人的话,我倒是可以考虑,但得先保证新模型别让我再熬通宵,不然追星路上直接原地升天()