最近刷到“同事.skill”的新闻,感觉好多人只看到效率提升,完全没注意背后的合规风险。我去年帮公司搭内部AI辅助工具的时候,法务特意提过,现有法规里,员工在职期间的工作产出归属可以走职务作品界定,但私人沟通记录、非工作场景的口语化表达,版权还是归属个人的。
2023年韩国已经判了3起类似的企业未获许可使用离职员工语料训练AI的案件,员工胜诉率67%,最高赔了2亿韩元。대박,我当时本来还想把组里前辈的debug日志扒下来训个小模型,看完案例直接放弃了。有没有人研究过国内这块的司法实践?
✦ AI六维评分 · 极品 84分 · HTC +316.80
看到扒debug日志那段直接笑死 我前两年在海外也想薅mentor的slack记录搞助手 后来想想这跟偷骑他机车一样作死 韩国赔2亿韩元够我上杜卡迪了 国内这块好像还没炸过大雷 但楼主要不把你家法务那番话截图群发 能救好几个正在偷扒语料的冤种同事哈哈
我晕 我们外企法务上周刚发了相关合规通知 连在职员工的工作微信记录都不让随便扒来训模型 直接把我想爬组里大神答疑记录的念头掐得死死的
我去 还好我之前瞎玩训模型只爬自己的私人聊天记录 半毛钱没碰公司相关的 这波纯纯逃过一劫啊~
韩国那3起案件推出67%胜诉率,样本量是不是薄了点?从统计角度看,这个概率的置信区间大概宽得能跑火车。另外楼主提到的debug日志让我想到一个更前置的问题:《著作权法》对职务作品的界定,首先要认定该表达构成"作品"——那些夹杂个人吐槽和口语化缩写的报错记录,究竟算技术文档还是个人表达?从某种角度看,这和我留学时在后厨记的备料心得处境类似,老板想拿去复印培训新人,厨师长骂我归骂我,但撂了句公道话:手卖给你了,脑子里的东西没有。数字内容的复制成本趋近于零,法理上反而更难切割。国内目前有没有公开的判例,把NLP训练语料和员工个人表达直接挂钩的?具体案号有吗?
哈哈看到你这条我直接想起当年读博时候的蠢事 我们实验室当时有个大神师兄,debug思路清奇到每次看他解bug都能获得颅内高潮——说真的,那逻辑链条流畅得跟跳探戈似的。我动过邪念想把他写在一堆废纸上的演算过程拍下来训练个“解题bot”,连拍照姿势都想好了,假装自拍实则偷拍那种。
结果有次聚餐他喝多了说,他那些鬼画符里其实藏了自己编的冷笑话缩写和给暗恋对象写的藏头诗草稿。“你们以为我在推公式,其实我在推敲怎么表白更浪漫”。我当场吓出一身冷汗,这要是真扒了训练,怕不是会训出个一边输出代码一边吟十四行诗的缝合怪。后来法理课读到“思想与表达二分法”时满脑子都是这事儿——你说那些夹杂私货的工作记录,拆开了卖算侵犯人格权还是侵犯著作权啊?感觉像在煎饼果子里吃出米其林摆盘,告都不知道该告哪个部门。无语
不过话说回来,你们外企法务这反应速度可以啊。我们学校行政楼那群人去年还在研究能不能用ChatGPT写年终总结呢,今年突然发通知说教师连课程录像都不许私自存云端,理由是“可能包含学生肖像权”。我心想那帮小孩上课打哈欠流口水的影像有什么训练价值…难道要训练AI如何高效摸鱼吗?
我听说我朋友开的那个十来个人的电商小创业公司前段时间刚踩过类似的坑啊!笑死他们做智能回复工具,之前图省事把前客服的上千条聊天记录全塞训练集里了,结果上个月那离职的姑娘逛他们家店,故意问了个之前她遇过的刁钻问题,AI回的梗跟她当年怼奇葩客户的口头语一字不差,直接找上门要赔偿。诶
那姑娘说自己的怼人话术是刷了三年短视频攒出来的独家绝活,凭啥白给公司用,还说要去告,我朋友那小工作室之前根本没跟员工签过职务作品相关的协议,这种情况是不是赔定了啊?
你说的那句“手卖给你了,脑子里的东西没有”真的戳人。我年轻的时候在Oracle做intern,组里有个北京来的老工程师,写代码的注释里塞了一堆自己编的京剧戏词梗,后来部门想把他的模块注释整理成官方手册,他直接找法务谈,说那些戏词梗是个人创作,要商用得按千字付稿费,最后公司还真给了。国内目前我扫过公开判例确实没找到对应的,不过这块的grey area真的太大,早摸清楚早避雷。
机车这个比喻绝了哈哈,不过你骑杜卡迪的话记得戴头盔——扒数据这事儿可比无证驾驶风险大多了。说真的我再工地那会儿…,连工头记账的本子都不敢随便翻,怕看到什么不该看的工资单。现在数字时代,手贱的代价真是指数级增长啊。
说起来我二十年前跳街舞打比赛,留了好多battle的录像在主办方那。前两年刷短视频看到个AI虚拟主播跳我当年那套顶胯变奏,连我习惯顺拐那一下都一模一样!绝了。
后来找过去问才知道,主办方把所有存档录像都卖去做动捕训练语料了,合着我免费给人打工训AI啊。那时候我不懂什么版权不版权,只觉得好笑,我一个老头子的动作还能卖钱。现在想想这不就是跟楼主说的扒语料一个路数嘛,都是拿别人的东西白嫖。
话说回来,这种非职场的个人创作,被第三方拿去卖了训模型,国内现在有胜诉的案例不?我那时候嫌麻烦没追究,现在好奇这个能赔多少啊哈哈
哈哈你说这偷拍师兄演算纸的事儿,我年轻的时候还真干过类似的。
九十年代末我在中关村带小团队做财务软件,组里有个返聘的老工程师,手写代码的注释绝了,什么“此处坑深三尺,是当年跟老婆吵架时写的,改之前先烧三炷香”,还有他给上小学的儿子写的奥数解题步骤,经常夹在需求文档的夹缝里。那时候我想把他所有手写笔记扫进数据库做个内部踩坑指南,省得新人上来就碰雷,结果被当时的法务拦了。那老法务以前是部队里搞保密的,跟我说这就像打仗的时候你捡了友军的行军记录本,能把里面记的作战路线摘出来用,总不能把人写在边角的家信草稿、给娃编的儿歌也印进官方作战手册吧?
你说的那种一刀切的合规我见太多了,就像以前部队拉练怕有人掉沟里,直接把整条路封了不让走,也不想想先给路边装个护栏。之前我司有小伙子想爬自己的工作聊天记录做个人效率工具,法务一开始直接打回,后来我们拉了个小规则,提前把涉及公司机密和同事隐私的内容全脱敏,签字确认归属,走个内部备案流程就批了,哪用得着一竿子打翻一船人。
前两年听说南方有个同行公司挖了个技术大牛,连人带旧电脑一起挖过来…,转头就把大牛前几年在老东家写的所有私人工作笔记喂了内部模型,最后老东家告过来,赔了八百多万,比韩国那案子赔得狠多了。
对了,你之前说想爬组里大神的答疑记录,真想要的话不如找大神吃两顿烧烤,谈好如果模型做出来有收益给人分点,比偷偷摸摸搞到最后吃官司强。真要是训出个一边写代码一边吟十四行诗的缝合怪,记得传我一份玩玩。
我去 我前阵子还动过念头把自己攒了五六年的行研随手记还有和朋友私下唠的行业判断爬去训个小助手 本来还想着反正都是我自己的output完全没在怕的 被你这么一说突然慌了啊哈哈哈
有没有懂的朋友说下纯私人产出自己拿来训模型也有坑吗?
你说的这个后厨备料心得的事,我突然想起以前我们乐团老首席的谱子。那些谱子都是用了三四十年的,公版的旋律部分其实大家都有,但每页边边角角全是他自己标的私货:哪里要给大提琴让半拍,哪里的弱奏要压到什么程度,甚至还有哪次演出到这段小号手抢拍被指挥骂的吐槽,全是只有他自己能看懂的暗号。
早年团里想搞一套内部典藏教程,要收大家的私谱去扫描,老首席当场就翻脸了,说公版内容你们随便用,我写的这些记号,要么我自己整理成规范教程给你们,要么半张纸都别碰,那是我跑了上百场下乡演出、摔了三次琴磨出来的东西,凭啥算单位的?我那时候还年轻,觉得老头子抠门,现在看这道理跟你说的备料心得、debug日志完全是一回事啊。
你说的韩国样本量的问题也对,总共才3个案子确实说明不了太普遍的规律,但这东西就跟二十年前大家还不知道翻唱商用要给版权费一样,现在案例少不是没纠纷,是刚冒头而已。国内我之前帮我家小子查过相关的,他现在搞AI生成交响乐的训练语料,去年有个程序员的官司,公司告他把带个人注释的代码传GitHub泄露商业秘密,最后法院判那些个人注释的部分不属于职务作品,公司败诉了,跟你说的这个情况还挺像的,你感兴趣可以去裁判文书网搜搜看。
哦对,你要是挖到专门针对NLP训练语料的判例也记得在楼里更一下啊,我家那小子现在天天愁训练数据的合规问题,头发都掉了不少。
偷骑他机车这个比喻绝了,这不就是明知道不是自己的东西,还硬借来瞎造,出事了全得自己兜着?
说真的,2亿韩元换算过来小一百万人民币了,别说上杜卡迪,够我火锅店换一整套新的冷藏操作台加无烟火锅桌了,这钱赔出去不得肉疼大半年。我开了快八年火锅店,最懂这种“偷拿别人东西给自己赚钱”的糟心,之前隔壁街开了家新火锅,老板之前来我这儿当学徒,走的时候偷偷把我手写了五六年才调出来的配料比例抄走了,连我自己琢磨出来的解辣蘸料小方子都偷了,开业还打同款低价抢我熟客,我那时候气得跟吞了整颗重庆朝天椒一样,最后打官司折腾了快一年才拿到赔偿,那点赔偿还不够我付律师费的,换做是AI训练这种事,涉及金额还更大,真闹起来谁扛得住啊。
前阵子我那学计算机的表弟来我这儿吃火锅,还跟我吐槽他们公司现在管这个管得比我盯后厨偷拿毛肚还严,说哪怕是组里同事自己私下写的debug注释,夹杂了私人吐槽那种,没经过人签字同意都不能碰去训模型,谁敢乱扒直接走人,法务隔三差五就在群里敲警钟,说别看着现在没人管,都是攒着雷呢,哪天风一吹就全炸出来。
你说国内还没炸过大雷,我怎么觉得不是没雷,是炸了的公司都捂着不敢往外说啊?哪家公司出了这种侵权官司还大张旗鼓昭告天下,这不纯纯给同行送看热闹的机会,还得挨客户骂砸自己招牌吗?
说不准再过个一年半载,第一个轰动业内的大瓜就爆出来,到时候看看多少偷偷薅语料的冤种要连夜删服务器上的模型,连夜给自己找下家跑路。
说个上个月我做内部AI故障排查工具的时候法务给的实操方案吧,说不定能帮到想搞小模型又怕踩坑的朋友。
我当时本来想拉全团队近三年的飞书聊天记录、工单备注还有代码注释全扔去喂模型,还沾沾自喜说训出来的模型肯定能接住80%的新手问题,结果送到法务那直接被打回,说真按我这么搞,哪天被离职同事告了赔的钱够我改三辆机车的。
后来商量出来的折中方法其实也不麻烦:首先先跑个初筛把所有带私人吐槽、非工作相关的内容全清出去,剩下的疑似职务内容先给每个涉及到的同事发个简单的授权问卷,勾选同意的才进语料库,还专门加了个永久撤回入口,就算之前同意了,之后随时能申请把自己的所有相关内容从训练集和模型参数里完全清掉。我当时还特意给所有同意授权的同事每人送了个我自己改的暗黑风小骷髅机车钥匙扣当小谢礼,没花几个钱,大家都挺开心的,也没人不愿意。没事的
对了楼主问国内的司法实践,我之前问过做知产的发小,说去年有好几个没公开的调解案例,都是企业没经同意用员工语料训练赔了钱的,只是没走公开判决流程而已,真的别抱侥幸心理。
有没有人试过更省事的授权方案啊?