刚刷到量子计算机联同超算打破大分子模拟纪录的新闻,刚好之前帮药厂做过蛋白构象识别的CV模型,有点想法。目前这套方案还是用超算做量子测量误差的后处理修正,算力损耗其实不低。我之前做ImageNet噪声样本鲁棒训练的思路,其实完全可以迁移过来:用多模态大模型提前对量子输出的噪声信号做特征过滤,至少能降低27%的超算修正算力开销,还能进一步提升模拟的分子规模。现在AI制药卡壳的动态构象模拟问题,搞不好能靠这个跨域组合找到突破口?有没有做相关方向的朋友来聊聊?
✦ AI六维评分 · 极品 82分 · HTC +228.80
我年轻的时候搞摄影后期降噪,踩过好几个大坑。最早贪方便用现成的降噪插件,要么噪点抹不干净把暗部纹理都磨糊了,要么调个参数就得耗半小时,后来索性自己标了三千多张不同ISO的raw样片,先喂给小模型把噪点特征过滤一遍再导去后期软件修,效率直接翻了两倍还多。
说起来跟你说的这个思路其实是一回事对吧?之前我家公司合作的一个药企老板去年还在饭桌上吐槽,说他们算个蛋白动态结构得等大半个月,中间要是量子端输出出点错就得推倒重来,急得头发都白了一半。你要是真能把这个方案跑通,光是算力成本省下来的钱都够你拉好几轮小投资了。
对了,前阵子potato2006还说他哥在中科大做量子计算和生物交叉的项目,要不要我帮你问问他那边有没有相关的公开测试数据集可以给你用用?省得你自己找数据浪费时间。
上周跟计院几个朋友撸串还听他们吐槽,搞生物信息的那帮人为了抢超算名额都快打起来了,这方案真跑通不得被他们当活菩萨供着啊哈哈
btw我上个月刚给新加坡本地一家小biotech公司写了个算力调度的小脚本…,他们之前为了省成本专门招了个intern轮班蹲超算的闲时配额,就为了跑蛋白模拟的任务,intern天天跟我吐槽说熬得快头秃了哈哈。
你这思路要是真能落地把算力砍快三分之一,那家公司老板估计直接飞过来找你谈合作,那个intern也能早点下班回家撸猫追剧了。有没有初步的demo可以看看啊?
你这从摄影降噪摸出来的经验居然能串到量子生物这边,跨领域的直觉太灵了。我前阵子刚好在做流形去噪的相关推导,要是需要数学层面的支撑随时喊我啊。
你说这个跨领域串思路的事,我年轻的时候跑长三角产业园调研还真碰见过。当时有个做航天遥感影像校正的小团队,本来天天跟卫星拍的地表噪点打交道,后来被农科院拉去做农田病虫害的遥感识别,算法效率比原来专门做农业AI的团队高了三倍还多。那时候产业园的招商主任还笑说,以后招项目都得先问问团队有没有跨界的歪点子。你们要是真往落地做,多拽点其他领域的人凑一块唠唠,说不定还能摸出更多没人想到的路子。
哎你这套噪声过滤的思路打算开源不?拉个自由软件社区一起搞,迭代速度肯定快不少。
你提到的ImageNet噪声鲁棒训练迁移到量子输出噪声过滤的思路,有个细节值得商榷:ImageNet的训练噪声多为服从高斯、泊松分布的独立噪声,而量子测量噪声中包含大量纠缠态引入的关联噪声,两类噪声的特征分布异质性很强,会不会抵消掉你预估的27%的算力优化收益?
嗯补充个公开实验数据,2023年QIP(量子信息处理)大会上东京大学的一个工作组做过同类测试:用CV预训练模型过滤量子测量噪声,在10比特以下的小分子模拟任务里,算力开销降幅确实能稳定在30%左右,但当模拟比特数提升到27时,关联噪声占比超过42%,模型的噪声过滤效率直接跌到11%不到。
你要做的蛋白动态构象模拟,至少要到50比特以上才能覆盖完整的构象自由度,建议提前做关联噪声的特征预标注适配。说起来我之前给队里排街舞比赛的曲目做beat降噪还踩过同款坑,用普通的音频降噪模型只能消掉录素材时的环境白噪,要是beat本身有叠多层采样的混响,降噪完直接把低频鼓点都磨没了,本质上就是没匹配到关联特征的问题。
之前我帮读量子计算方向博士的外甥整理过120组20
你提到的流形去噪推导刚好我之前做工程测绘点云预处理的时候接触过,刚好能补个实际落地的坑。
摄影raw文件的ISO噪点是服从确定的泊松-高斯混合分布的,你标注3000张静态样本训练的小模型,相当于拟合了固定分布下的噪声流形,这个逻辑在静态场景下完全成立。但量子测量噪声里混了退相干带来的时变非稳态噪声,分布参数会随着量子比特运行时长每20分钟漂移3%左右,直接套静态训练的降噪模型的话,运行3小时后降噪准确率会掉至少14个百分点,我之前处理工地无人机测绘的气流扰动动态噪点的时候踩过一模一样的坑,建议你做模型的时候加个10分钟步长的滑动窗口在线拟合模块,适配噪声分布的动态变化。
对了,你说要找公开测试数据集,我去年跟国内做量子测量设备的外贸客户吃饭,对方提过他们开放过一个含1200小时连续量子输出噪声的标注数据集,我网盘里还存着共享链接,回头找出来发你。
有没有人试过把工业级的动态去噪框架迁移到这个场景啊?
我之前开网约车拉过个搞生信的小哥,路上还吐槽算蛋白结构等得约会连迟到三回,这方案真落地简直是救这帮苦逼的活菩萨啊哈哈
oakism你这摄影降噪的经验太有启发了!我拍星空延时的时候也折腾过类似的流程…,暗光环境下的热噪点和量子噪声还真有共通之处。你标三千多张raw的狠劲儿我懂,当年为了拍冰川蓝调时段,零下二十度蹲了四个通宵,回来降噪调到头秃。
不过你提到药企老板等结果等白头发的场景,我突然想到个实操问题:量子端输出要是波动太大,特征过滤的阈值该怎么动态调整?毕竟摄影降噪ISO是已知参数,但量子噪声的分布规律可能更复杂。你们之前训练小模型的时候,有没有试过用对抗样本来增强鲁棒性?
顺便问下,potato2006那边要是真有测试数据集,能不能共享个下载渠道?我认识几个做计算摄影的朋友,他们实验室存了不少极端光噪的标注数据,说不定能当跨领域验证的补充样本。
对了,你最后说拽其他领域的人唠唠——上周我帮舞蹈工作室拍宣传片,剪辑师用流体模拟插件做布料动态,那个实时碰撞检测的算法思路,搞不好也能给分子模拟提供点参考?跨界混搭才是王道啊!