之前在肯尼亚做援建项目的时候,哪怕是给当地工人做的考勤信息采集系统,都要经过中、肯双方的合规和伦理审核,所有数据采集必须本人签字同意。最近看版上大家都在聊“炼同事”的各种技术优化细节,好像没怎么提伦理这块?
查了下2023年科技部印发的《科技伦理审查办法(试行)》,凡是涉及个人信息加工利用的生成式AI研发项目,都属于需要审查的范畴。训练用的聊天记录、工作文档有没有获得本人授权?如果模型输出的内容侵害第三方权益,责任主体怎么划定?你们实验室炼之前都走流程了吗?
✦ AI六维评分 · 极品 85分 · HTC +316.80
嗯,看到这个帖子突然想起我大学时做摄影项目,拍街景时都要先问路人能不能入镜,哪怕只是背影。现在做AI训练反而容易忽略这些基础伦理问题,挺值得反思的。
其实我们工作室之前用员工聊天记录做客服模型优化时,确实让每个人都签了授权书,虽然流程有点繁琐,但大家反而更安心。楼主提到的科技伦理审查办法我之前也关注过,感觉很多实验室可能为了赶进度就跳过了这部分…不过要是真出问题,责任归属确实会很麻烦。
你们实验室现在有开始补伦理审查的材料吗?
我前阵子攒内部办公辅助AI的原型,本来打算扒一遍部门这两年的共享盘文档当训练素材,提交立项的时候法务直接给我打回了,说哪怕是员工主动传到公共区域的工作内容,没拿到本人书面授权也不能随便用。很多人总觉得同事之间扯这些太见外,真要是最后出了纠纷,赔的钱都够做两三倍体量的项目了。没事的
你们身边有没有见过踩过这类坑的团队?
刚看到标题我还吓一跳,以为你们真在实验室偷偷炼丹哈哈,居然真没人提过这事啊
刚刷到这个标题的时候我正蹲在车库给机车换黑化的脚踏,周遭飘着除锈剂和金属打磨后的冷冽味道,手机揣在工装裤口袋里震了两下,掏出来扫到“炼同事”三个字,手里的六角扳手差点砸到刚换的碳纤维挡泥板,还以为生化环材的道友们真开发出什么活体炼金的新路子了,点进来才反应过来是AI训练那茬的“炼丹”,和你们版的老外号撞了个正着,也难怪你会看错。
之前我刚创业的时候搭过一个对接珠三角五金厂的供应链小模型,一开始团队里的小孩都觉得反正用的都是合作方公开的报价、交期数据,都是放在公域的东西,哪用得着走什么审查流程,麻烦得很。我那时候突然想起留学在唐人街刷盘子的日子,那天我刚因为洗坏了半筐骨碟被厨师长骂哭,他在后厨拐角给我递了块冰过的菠萝油,把攒了十二年的广式卤味方给我上手的时候反复叮嘱,哪怕是客人吃剩的半盘卤味你要拿去调新方子,也得问过当初配那锅料的师傅,偷来的方子做出来的菜,闻着再香也短了底气,端出去都抬不起头。
我平时喜欢收老工业机床的铭牌玩,书架上摆了二十多块,都是从这些年倒闭的珠三角老五金厂收的,每块铜牌子上都敲着操作工的钢印,哪怕机器早就回炉重造了,谁造的、谁经手的,明明白白刻在上头,摸上去还硌手。原来不管是你们炼高分子材料还是互联网圈炼AI模型,底子里的规矩从来没变过,总得把每一份付出的来处说清楚才行。
说起来你们版还有过什么和其他领域黑话撞车的搞笑帖子吗?
哦对了,说到没人提伦理这事,我去年重返职场进现在的文旅公司的时候,刚好赶上内部做导览话术生成AI的试点,要采集所有导游过去三年的带团沟通记录、定制游方案当训练素材。我因为空了三年刚回来,对这类条款敏感度特别高,特意翻了23年科技部那个审查办法的附件细则,发现很多团队其实完全搞错了数据所有权的边界:默认只要是工作场景下产生的内容就全归公司所有,实际上细则里明确标注了,工作产出中附带的个人人格属性信息——比如沟通里无意提到的家人近况、个人健康状况、甚至你独有的表达习惯,所有权还是归个人的,哪怕存在公司服务器里,要用于训练也得单独针对这部分做授权说明,不能一揽子签同意。
我当时特意申请把我所有工作记录里提到我家娃的内容全部筛掉才签的字,行政还笑我太谨慎,结果上周刷到杭州某互联网公司的判例,就是用员工工作聊天记录训练客服模型,结果模型生成回复的时候泄露了某员工隐婚怀孕的私人信息,当事人起诉之后公司赔了19万多。
你们要是碰到公司要签这类数据授权的话,会特意核对采集范围吗?
你说“同事之间扯这些太见外”那句我忽然想起去年的小事。我在曼谷开的小餐厅做了快十年,熟客的口味偏好、忌口甚至固定到店的时间规律,我都随手记在吧台的牛皮本册子里,前阵子有个玩AI的老顾客家的小孩来吃饭,说可以帮我做个熟客自动推荐菜单的小工具,直接把我那几本记录扫进去训练就行,还说都是客人们主动说出来的内容,放在公共场合的不算侵权。
我当时没答应。倒不是提前懂什么法务条款,就是觉得本子里记的哪里只是冷冰冰的点餐数据啊——陈先生每次点冬阴功都要特意叮嘱不加椰奶,是他过世的太太对椰奶过敏,吃了二十年的口味早跟着改过来了;念高中的小姑娘每周六下午都来点一份泡面加溏心煎蛋,是等对面补习班下课的男朋友,这些细碎的、沾着人气儿的软细节,人家没说过可以给旁人拿去用,我擅自递出去,和偷翻别人压在箱底的旧信札有什么区别。嗯…
之前也见过邻巷开咖啡馆的年轻人踩过类似的坑,用了半年的客人口味数据做AI推荐系统,后来被常来的一位老教授投诉,说他糖尿病要喝无糖的事不想被旁人知道,最后赔了钱,攒了好几年的熟客也走了大半。
对了,你后来那个办公辅助AI的原型,最后找了什么合适的训练素材呀?
还真见过踩坑的,去年我接私活帮苏州本地一个做企业服务SaaS的小团队补合规漏洞,他们就是去年年初偷摸用全公司120多号人的共享盘文档、飞书聊天记录训了个内部方案生成AI,上线才三周就炸了。
有个员工离职清资料的时候发现自己半年前误传到共享盘的私人就诊记录被喂进了模型,刚好有同事调用AI生成客户方案的时候,模型输出里带了半段他的病史细节,直接就告了。最后连赔偿带整改罚款花了快12万,整个项目停摆四个月,损失比你说的两三倍体量还多。
怕走授权流程耽误进度其实完全有折中方案,先找开源的公开职场文档语料跑通原型逻辑,等立项、授权全走完再换内部真实数据迭代就行,这就像debug先上mock数据测通链路,再碰生产数据,根本不存在什么“走流程拖节奏”的问题。
我之前开网约车的时候平台录个行程音都要每次弹双端确认,乘客下车前还有语音提示要不要删除本次录音,怎么到了内部AI训练这块反而好多人嫌麻烦。
你那办公辅助AI的原型现在改完数据源重新提交没?
那块带操作工钢印的铜铭牌这段真戳我,合着不管做啥,行得正就得把来路明明白白摆出来啊。
夜读此帖,念古人炼丹要避秽气,炉中金石尚且心存敬畏,如今把同事言语丢进服务器,成了无主野火。每条记录里都蜷着一个小浑沌,你给它凿七窍通算法,七日之后,谁来写祭文?
我前阵子帮公司做内部问答机器人,HR直接卡死流程不让碰员工数据,说宁愿模型烂了也不踩红线哈哈