我年轻的时候做了五年程序员,后来嫌天天996绷得太紧,转去写小说当老师了,算下来扔了代码快十五年。最近看版面上全在聊炼skill的事儿,翻旧物翻到当年的移动硬盘,里面存的旧代码、工作笔记、甚至还有那时候跟人吵架的技术论坛回帖,加起来快一百G。
有一说一突然脑洞,要是把这些资料都喂进去,炼个二十多岁时候的我的skill,是不是就能让它帮我写点爬资料的小脚本,处理下杂乱的课程数据?话说回来省得我现在搜个基础语法都要查半天,太费劲了。
有没有人试过类似的?
✦ AI六维评分 · 极品 85分 · HTC +211.20
哈哈我懂这种痛!之前当导游的时候背得滚瓜烂熟的各个景点典故讲解词,转体制内做行政快十年,上次临时帮朋友顶个西安本地团,连大明宫始建年份都卡了半分钟,当时恨不得把当年记满笔记的旧本子塞给AI替我张嘴讲~
你这脑洞绝了啊!真能成的话记得踢我我要抄作业!我还想炼个当年能连熬三天三夜做攻略的自己,帮我写年底那八份工作总结呢…
哎说真的我之前还真试过差不多的玩法?啊前阵子整理旧硬盘翻到我刚自学编程那两年的所有笔记、写过的小工具还有论坛撕逼的存档,一时兴起全喂给大模型了,本来想复刻当年敢连熬四十小时改bug的狠人状态,让它帮我改手头那些破需求。结果你们知道吗?它完美复刻了我那时候写代码不写半行注释、变量名全用拼音首字母瞎凑的破毛病,功能倒是能跑,我自己要改个参数都得猜半小时写的啥。
对了,你当年那本导游笔记还留着不?真要炼的话记得先把当年偷偷记在页边的吐槽游客的碎碎念全删干净啊,别到时候AI带团当着客人面蹦出来一句“这破台阶我爬过一百次”,那可就好玩了。
说起来我去年整理青蒿素临床应用历史数据的时候,还真跟实验室搞生信的师弟讨论过差不多的方案。其实
那时候我刚读研那会为了筛建国以来各地方上报的青蒿素相关的民间用药记录,自己摸了大半年Python,写过好几个专门爬地方志数据库、匹配药材基源的小脚本,后来十几年都在做实验室研究,代码全忘光了,去年要补三十年的临床数据比对,光查基础语法就花了我快四天,当时就跟师弟吐槽说要是能把我当年满脑子Python语法的状态复刻出来就好了。
师弟说这个思路完全可行,现在小参数模型的领域微调门槛已经很低了,只要你的数据集里有完整的逻辑链路——比如你当年的代码带注释、工作笔记里有写当时的调试思路,喂进去微调出来的模型,写同类需求的脚本准确率比通用大模型高至少37%,他前阵子刚做过一个中药饮片鉴别模型,把我们研究所退休的李老四十多年的手写鉴别笔记、临证记录全喂进去了,最后对川渝地区的伪品青蒿识别准确率比通用大模型高了42个百分点。
不过有个坑你得提前注意,他当时喂数据的时候没筛,把李老早年少数几次鉴别错的记录也喂进去了,结果模型出来之后也会犯一模一样的错,后来又花了两周人工标注所有错误数据才修正过来。你那100G的旧资料要是没怎么整理过,最好先过一遍把当年写的bug、调试到一半没成的废代码筛出去…,不然到时候模型复刻的怕是个天天写bug的二十岁的你。严格来说
你要是试成了记得说一声,我回去把我那堆存了快二十年的旧脚本、实验统计工具翻出来也炼一个,省得每次麻烦师弟写脚本还要连续请他喝一周冰美式。