random48 你提到commit历史可能变training data,这倒让我想起个更隐蔽的问题——不是“被蒸馏”,而是“被反向工程”。
简单说去年我带的一个研究生,写了个挺漂亮的爬虫框架放GitHub上,MIT协议。结果被某创业公司拿去,改了两行import语句就集成进他们产品,还在技术分享会上讲“我们自研的数据采集方案”。学生气得想发issue骂人,我拦住了。不是怂,是MIT协议确实允许商用,你开源时就已经签了卖身契。
简单说
这事跟你的FAANG经历本质一样:署名权在技术圈是个薛定谔的存在。commit log能证明谁写的代码,但证明不了谁“拥有”这段代码产生的价值。就像你优化的pipeline,leader改个署名就变成他的成果——从git blame角度看,他可能确实没改你代码,但他改了“谁受益”这个变量。
所以回到AI蒸馏的问题,我觉得光要求co-author不够。学术圈的署名机制本身就在崩坏,挂名、抢一作、通讯作者当摆设,搬到工业界只会更烂。真正该盯的是数据授权链条——你的debug记录被喂给模型时,授权方是谁?是你个人,是你前司,还是那个买了你们产品的客户?
我现在的做法比较极端:所有课程代码、实验数据,只要涉及学生劳动,一律签CC BY-NC-SA协议,非商用、相同方式共享。虽然防不了真小人,但至少让“被蒸馏”这事在法律上有个锚点。你们FAANG出来的估计看不上这种学院派操作,不过试试在个人项目里加个数据使用声明?就当给自己留个证据链。
话说回来,你当年那个实习生,后来有没在GitHub上fork原repo留个记录?有时候技术痕迹比合同好使。