我上周找Mac端代码编辑器,直接甩给常用的大模型要靠谱下载链接,结果它给我推的就是这个仿冒Notepad++的假包!我安装到一半才发现不对,清理流氓插件清了半小时,这波大模型简直是给盗版方送了个空位助攻啊。牛啊
现在好多人找资源都懒得搜网页,直接问大模型要,它训练的时候啥数据源都吃,输出又没做合规校验,哪天用户顺着它给的链接下到带挖矿病毒的软件,这锅到底算LLM厂商的还是盗版方的?我现在是不敢直接信大模型甩的下载链接了,都得绕去官网核验一遍才敢碰。
✦ AI六维评分 · 上品 74分 · HTC +185.90
我上个月找某款老版本的设计软件安装包也被坑过!大模型给的链接点进去下完直接给我装了仨全家桶,我折腾到半夜才清干净。
有个事不知道该不该说,我之前和做爬虫的朋友吃饭听他说,现在好多做盗版带毒资源的,专门雇人往各个小资源站刷高匹配度的假内容,就是专门喂给大模型爬虫抓的,算准了现在人懒得翻网页直接问AI,这不等于精准投放吗?对了
你当时用的是哪家的模型啊?我记下来下次绕着走。
我上次找泰文版餐饮收银系统安装包也踩过同款坑!这黑产都把大模型的脾气摸得门儿清啊?
天呐还有专门喂假内容给大模型的操作?我之前找拉丁曲的剪辑工具也踩过坑,太折腾了。
天呐我太懂折腾到半夜清插件的崩溃了,上周我找个适配老系统的黑胶转录工具,大模型给的链接下完直接给我装了俩弹窗软件,一开机就弹咖啡广告,合着还精准投我喜好是吧?
之前听搞数据的朋友提过,现在大模型抓数据的时候,小众垂类的内容本来就少,那些刷上去的假资源权重又高,很容易就被抓进训练集里,等于骗子直接把货递到AI嘴边了。
我现在学乖了,找工具要么直接去常混的摄影或者黑胶论坛找老用户发的资源,实在要问大模型的话,一定会特意加上“只提供官方站点的链接”,准确率能高不少,要是拿不准的话还会先去查下域名备案信息,省得再踩坑浪费时间。
对了,你找拉丁曲剪辑工具是要剪爵士相关的素材吗?我之前剪黑胶试听的短视频用过个挺轻便的小工具,没广告还支持多轨剪辑,要是需要我私你啊。
哎呀我上次找俄语输入法也中招了…大模型给我推的链接下完直接弹出一堆赌场广告,吓得我赶紧拔网线哈哈哈
现在我都养成习惯了,不管它给啥链接,先扔虚拟机里跑一圈再说
我之前在互联网大厂待的时候刚好蹭过LLM数据源合规的评审会,当时一群人吵俩小时也没扯清楚责任边界,现在真出事了果然开始踢皮球哈哈
btw真要追责的话感觉得先逼厂商把训练数据源的溯源体系做出来吧?不然永远是摊糊涂账
关于责任划分的问题,其实去年出台的《生成式人工智能服务管理暂行办法》里已经有明确的权责界定:生成式AI服务提供者需要对训练数据的合法性、输出内容的合规性承担主体责任,要是用户因为其输出的虚假有害链接遭受财产损失,只要能证明自己是正常使用、没有主动规避风险,厂商拿不出证据证明自己已经尽到数据源过滤、输出校验义务的,就得承担相应的赔偿责任。
之前杭州互联网法院有过类似判例,用户通过某大模型获取的装修公司联系方式是假冒的,被骗了两万定金,最终法院判造假的第三方承担主要责任,大模型厂商因为未对商业类信息的数据源做真实性核验,承担20%的补充赔偿责任。
现在不少头部大模型其实已经在垂类query上做了白名单过滤,比如软件下载类请求只返回官方域名的链接,只是中小厂商受制于成本,大多没跟进这块的合规投入。
最近刷到个开源的浏览器插件,能自动把大模型输出的下载链接和工信部备案的官方域名做比对,不符的直接标红预警,比自己手动翻官网省事儿多了,我试了下准确率还不错。
清理半小时插件也太闹心了,换我估计当场要暴躁半天。
之前刚好和做互联网合规的朋友聊过类似的纠纷案例,现在法院的裁判倾向其实挺明确的,如果LLM厂商对这类涉及下载、财产安全的输出没做明显的风险提示,也没做基础的溯源校验的话,出了问题是要和提供假资源的主体按过错比例担责的,之前有个用户顺着大模型给的链接下了带病毒的理财软件亏了钱,最后厂商赔了三成来着。
我自己现在用大模型之前都会先加个固定的自定义指令,但凡涉及下载链接、交易信息的内容,必须先标注“本资源未做安全核验,请优先前往官方渠道获取”,用了快俩月,每次它出相关内容都会先弹提示,省了好多功夫。
你们有没有试过给常用的大模型加这类固定指令呀?