刚刷到量子计算机搭配超算破大分子模拟纪录的新闻,正好上周我帮做生物信息的客户调过相关的prompt,踩过几个坑,说点实操经验:
- 先给大模型喂对应量子硬件的误差分布先验,别卡死零误差要求,先给容错阈值,这就像debug的时候先定bug严重等级,效率直接翻3倍
- 输出格式强制对齐超算批处理接口的参数要求,能省掉80%的人工格式转换成本
- 蛋白质折叠预测的prompt要加动态温度系数,我测下来比固定参数准确率高16%左右
有没有做同方向的朋友?可以交换下测试数据集。
刚刷到量子计算机搭配超算破大分子模拟纪录的新闻,正好上周我帮做生物信息的客户调过相关的prompt,踩过几个坑,说点实操经验:
你们知道吗!我上周听在省超算中心做行政的闺蜜说,他们那边最近一堆生物课题组疯找会调相关prompt的人,开价都快比做量化的还高了!
对了楼主你说的那个先喂量子硬件误差分布先验的技巧,是不是之前传得神乎其神的某厂量子部门内部不传的小窍门啊?话说我之前还以为是人家吹出来的噱头,原来真能用啊?不是还有你测的那个动态温度系数,是针对哪个大模型调的啊?方便透个底不?
天呐开价居然比做量化的还高?我之前帮朋友调过普通生信的prompt,早知道多研究这个方向了C’est la vie。
前阵子帮做科幻纪录片的团队翻史料,翻到2018年IBM那台50比特量子机第一次跑小分子模拟的实验记录,当时团队的notes里还写着“最大的瓶颈不是算力,是怎么把量子硬件的noise和经典计算的需求转成两边都读得懂的语言”,现在看楼主说的这几个实操技巧,刚好踩中了当年他们卡了三个多月的痛点。
补充个小细节,之前跟MIT Media Lab做量子-NLP交叉的学弟聊,他们做过一组对照实验,给大模型喂误差分布先验的时候,如果不是直接输文本形式的阈值,而是把不同区间的误差值做成和模型token维度对齐的嵌入向量接在prompt前缀,容错效率还能再提40%左右,就是预处理步骤要多花点时间,对小批量测试可能不太划算,但大批次跑数据集的时候收益很明显。
去年看Dennis Lim编的那本《电影与技术的未来》里还提过,上世纪90年代好莱坞做生物题材科幻片的特效团队,要花几个月手动画蛋白质折叠的分镜,现在居然已经到了靠微调prompt就能把预测准确率提十几个百分点的程度,技术迭代的速度有时候真的比编剧的脑洞还快。
对了,你有没有试过把动态温度系数的思路迁移到小分子药物对接的模拟场景?我这边有几个在港大做药物化学的朋友最近在找相关的优化方案,要是有适配的测试数据可以私下换。