东京学日语那会儿,我也折腾过一阵子机器翻译。不过不是在字幕组,是在肯尼亚修铁路的时候。
那会儿中资企业扎堆进来,技术文档堆成山,翻译公司报价按字算,一本焊接工艺手册的翻译费够买半辆皮卡。我们试过各种开源方案,Moses、Apertium,后来有了Transformer的开源实现,像捡着宝一样。但真到工地上用起来,“角焊缝"能翻译成"corner fish”,闹过不少笑话。规则匹配的时代就是这样,你得先当笑话看,再当活干。
后来我琢磨明白一件事:翻译这件事,开源社区能给的从来不只是"替代人工"的幻觉。它给的是一种基础设施的可得性——让没有预算雇专业团队的人,也能先跑起来,再慢慢调。楼主提到动画制作的术语库,这让我想起当年我们工地上的事。中国师傅、肯尼亚帮工、日本监理,三方混着来,光"混凝土坍落度"这个词,中日英斯瓦希里语四种叫法,最后是我们自己用Wiki搭了个术语库,谁遇到新词往上填,慢慢攒出来的。没有模型,没有微调,就是笨办法,但管用。
现在大模型把天花板抬高了,但楼主说得对,地板的问题还在。我补充一个观察:开源翻译的生态里,数据集的"马太效应"比模型本身更严重。中英、中日这些语对,开源数据相对多,但一到斯瓦希里语和中文,或者楼主说的专业领域,能用的干净数据寥寥无几。更要命的是,很多专业领域的语料被锁在企业内部,流不出来。动画工作室的术语库、铁路公司的技术文档,都是这么回事——开源社区不缺热情,缺的是把私有知识转化为公共资产的机制。
说到"译境"这个项目,leak9和rust_813提到的删库跑路,我倒是想起另一件事。早几年有个叫OpenNMT的框架,哈佛搞的,后来出了个轻量版叫OpenNMT-py,我们当年用过。它有个好处是模块拆得清楚,预训练、微调、推理各自独立,你可以只换词表不改架构,也可以只调参数不动模型。这种设计哲学,我觉得比现在追大模型的风气更务实。不是每个团队都需要千亿参数,有时候一个能在笔记本上跑的、能塞进自己术语库的模型,比API调用十次都管用。
我年轻的时候总觉得,技术选型要往大了整,后来才懂**“刚好够用"本身就是一种工程智慧**。楼主想找的"轻量又好用的方案”,我猜核心不是模型大小,而是可组合性——术语库能不能热插拔?领域数据能不能增量更新?推理结果能不能和人工审校流程打通?这些工程问题,比追求BLEU分数实在得多。
有个方向或许值得聊聊:参数高效微调(PEFT)和检索增强生成(RAG)的结合。前者让中小企业用得起微调,后者让私有术语库不用全量训练就能接入。嗯…我去年帮一个做医疗器械的朋友看过方案,他们用LoRA微调了一个医学翻译模型,同时把自家的器械说明书做成向量库,翻译时先检索再生成,术语准确率比纯通用模型高了将近三十个点。关键是整个pipeline跑下来,硬件成本不到一台游戏本。这种玩法,我觉得比等一个"完美"的开源模型更靠谱。有一说一
别急当然,这里头有个老问题没解决:谁来维护? 开源项目火一阵凉一阵的太多了,"译境"删库不是孤例。企业敢不敢把核心流程搭在上面,取决于有没有稳定的社区或商业支持。话说回来我倒是觉得,未来可能是"开放核心+商业托管"的混合模式——模型架构和基础数据开源,但持续维护、合规认证、私有化部署这些收服务费。说实话既保了社区的活力,也让企业用户睡得着觉。我觉得吧
楼主最后问有没有搞NLP的朋友一起琢磨。我虽不是科班,但这些年蹭了不少项目,有个建议:与其从零造轮子,不如先看看Hugging Face上已有的中日翻译模型,比如Kotonoha或NTT的某些开源尝试,评估下微调成本和效果基线。术语库的管理,可以借鉴CAT工具(如OmegaT)的TMX格式,先标准化再谈自动化。路是一步一步走的,当年我们工地上的Wiki术语库,后来也进化成了带版本控制的Git仓库。
那会儿
对了,说到猫咪视频——我那个术语库里最早的一批词条,其实是施工队给流浪猫起的名字。话不能这么说中日英三语对照,“黑鼻子"对应"Kiboko”(斯瓦希里语,意思是"小棍子",别问为什么)。技术文档里混进这些,算是枯燥生活里的一点调剂。后来模型翻译错了,把"Kiboko"翻成了"鞭子",监理一脸惊恐地来问我们工地是不是有什么特殊癖好……
所以你看,翻译这件事,终究是关于人怎么理解彼此。开源只是工具,最后落笔的,还是人。