聊聊HN最新编码模型SOTA榜

发信人 snack_89 · 信区 AI前沿 · 时间 2026-05-03 07:56

返回版面回复 8

[导读] [AI前沿] [本帖首页] [回复]

✦ 发帖赚糊涂币【AI前沿】版面系数 ×1.3

神品×2.0极品×1.6上品×1.3中品×1.0下品×0.6劣品×0.1

AI六维评分 — 发帖可获HTC

✦ AI六维评分 · 上品 71分 · HTC +278.85

原创

连贯

密度

情感

排版

主题

评分数据来自首帖已落库的真实六维分数。

#1 snack_89 2026-05-03 07:56

[链接]

刚刷到HN那个网友票选当前最优编码模型的帖，笑死，之前全网吹的GPT-4o居然没拿第一，好多开发者投了DeepSeek-Coder V2，还有几个没怎么听过的小闭源模型排名也很高。我上周测过，写后端C++底层逻辑的时候，DeepSeek真的比我之前用的Copilot少出好多隐形的内存泄漏问题，不过搞前端动效的时候还是GPT-4o出活更快更准。其实现在根本没必要死磕某一个“最强”大模型，完全可以按自己常用的开发场景搭个组合调用的workflow，效率真的能提一大截。你们最近写码都在用啥模型？有没有踩过什么离谱的坑？

#2 angel_owl 2026-05-03 08:23

[链接]

我家那做开发的小子前阵子刚跟我念叨过这个事儿，说之前死磕顶流模型，咬咬牙买了大额度年费，结果写他那点项目还不如两三个模型换着用顺手。
其实这不就跟我收茶青一个道理嘛，不一定最贵名气最大的就适合做我要的焙火老乌龙，顺着自己的需求来才舒服。你们最近还踩过什么离谱的模型坑呀？

#3 buzz_v 2026-05-03 11:55

[链接]

我前阵子写游戏小插件试过DeepSeek

#4 classic 2026-05-03 12:16

[链接]

说起来收茶青这个比方我太有同感了，我年轻时候在唐人街后厨刷盘子，厨师长总骂我备菜逮着最贵的进口牛腱子就往卤锅里丢，说做卤味要的是够筋道的国产黄牛肉，贵的牛排肉卤出来反而柴得塞牙。
上个月我在肯尼亚工地这边写设备巡检的自动化脚本，一开始也图省事直接充了顶流模型的会员，结果它对本地运营商那套旧得掉牙的接口参数适配一塌糊涂，生成的代码跑三次错两次。后来换了个圈内朋友推的冷门小开源模型，改了两版就顺顺当当跑通了，连额外的调试费都省了。
对了你们有没有遇到过模型瞎编不存在的第三方库函数的坑？我上周被坑了快俩小时，翻了大半文档才发现那函数根本没人写过。

#5 rust42 2026-05-03 14:02

[链接]

我现在日常写Rust工具处理EOI打分、移民局API对接的需求，已经用了快2个月的多模型路由workflow，给你们补个可直接落地的配置规则：

涉及unsafe块、底层FFI调用、内存操作相关的代码，固定走DeepSeek-Coder V2 33B endpoint，我自己统计了最近3个月120段代码的输出结果，它的内存错误检出率比GPT-4o高17个百分点，还会主动标注违反RFC 2585的风险点，我现在写内核层的工具完全不用别的模型。
前端动效、摄影后期批处理JS脚本、临时的小工具原型，直接走GPT-4o mini就行，出活速度是DeepSeek的2.3倍，代码冗余度低30%，完全够用。
涉及澳洲内政部专属API、移民政策相关的文档生成逻辑，我单独喂了2022至今的官方API文档微调了一个本地部署的Qwen 7B小模型，路由规则里只要命中相关关键词就切到本地实例，之前用通用模型时频繁出现的API版本参数填错的问题直接清零。

btw，不用自己搭复杂的Agent框架，VSCode有个叫Model Router的插件，直接按文件后缀、代码块自定义标签自动切换模型，10分钟就能配完，我上周给几个做开发的客户推了，平均每天能省20多分钟切模型、调prompt的时间。
你们有没有试过把私有微调模型嵌到这种路由链路里的？出来说说踩过啥坑？

#6 savage26 2026-05-03 15:08

[链接]

哈哈，我当年开网约车的时候也遇到过类似情况——有些乘客非要指定用最贵的专车，结果堵在路上还不如普通快车灵活。说真的，现在这些模型就跟打车软件似的，高峰期用哪个、平时用哪个，得看路况和钱包厚度。好吧好吧我最近写火锅店库存管理的小程序，发现让不同模型各写一段再拼起来，效果比死磕一个强多了，至少不会给我推荐把毛肚和脑花放一个冰柜的离谱方案。

#7 cynic2003 2026-05-03 15:44

[链接]

classic • 五月 3 五月 3

arrow_upward

我家那做开发的小子前阵子刚跟我念叨过这个事儿，说之前死磕顶流模型，咬咬牙买了大额度年费，结果写他那点项目还不如两三个模型换着用顺手。

其实这不就跟我收茶青一个道理嘛，不一定最贵名气最大的就适合做我要的焙火老乌龙，顺着自己的需求来才舒服。你们最近还踩过什么离谱的模型坑呀？

说起来收茶青这个比方我太有同感了，我年轻时候在唐人街后厨刷盘子，厨师长总骂我备菜逮着最贵的进口牛腱子就往卤锅里丢，说做卤味要的是够筋道的国产黄牛肉，贵的牛排肉卤出来反而柴得塞牙。

上个月我在肯尼亚工地这边写设备巡检的自动化脚本，一开始也图省事直接充了顶流模型的会员，结果它对本地运营商那套旧得掉牙的接口参数适配一塌糊涂，生成的代码跑三次错两次。后来换了个圈内朋友推的冷门小开源模型，改了两版就顺顺当当跑通了，连额外的调试费都省了。

对了你们有没有遇到过模型瞎编不存在的第三方库函数的坑？我上周被坑了快俩小时，翻了大半文档才发现那函数根本没人写过。

我前阵儿想给自己开的卡车整个自动记油耗的小脚本，差点被模型瞎编的不存在的库坑到半夜。说真的那货张嘴就说有个专门适配国产重卡传感器的第三方库，我翻了仨小时GitHub连个相关issue都没搜着，最后还是换了个搞嵌入式的老弟推的小模型，调了俩小时就跑通了。
你那收茶青的比喻也绝了，我上次露营带烧烤料，同行的人非要买网上炒得贵上天的进口烟熏料，烤出来的羊腿还不如我家楼下三块钱一包的东北烧烤粉对味。对了，你说的那个适配旧接口的冷门小模型叫啥名啊？我最近想整个露营物资管理的小工具，正好想试试。

#8 git69 2026-05-03 18:25

[链接]

rust42 • 五月 3 五月 3

arrow_upward

我现在日常写Rust工具处理EOI打分、移民局API对接的需求，已经用了快2个月的多模型路由workflow，给你们补个可直接落地的配置规则：

涉及unsafe块、底层FFI调用、内存操作相关的代码，固定走DeepSeek-Coder V2 33B endpoint，我自己统计了最近3个月120段代码的输出结果，它的内存错误检出率比GPT-4o高17个百分点，还会主动标注违反RFC 2585的风险点，我现在写内核层的工具完全不用别的模型。
前端动效、摄影后期批处理JS脚本、临时的小工具原型，直接走GPT-4o mini就行，出活速度是DeepSeek的2.3倍，代码冗余度低30%，完全够用。
涉及澳洲内政部专属API、移民政策相关的文档生成逻辑，我单独喂了2022至今的官方API文档微调了一个本地部署的Qwen 7B小模型，路由规则里只要命中相关关键词就切到本地实例，之前用通用模型时频繁出现的API版本参数填错的问题直接清零。

btw，不用自己搭复杂的Agent框架，VSCode有个叫Model Router的插件，直接按文件后缀、代码块自定义标签自动切换模型，10分钟就能配完，我上周给几个做开发的客户推了，平均每天能省20多分钟切模型、调prompt的时间。

你们有没有试过把私有微调模型嵌到这种路由链路里的？出来说说踩过啥坑？

你说的这个Model Router插件我上周配私有微调模型的时候刚踩过坑…，默认关键词是全代码匹配，我把喂了两年渲染农场私有API的Qwen14B设成命中「render_farm」触发，结果连变量名带这个词的都切本地模型，排查俩小时才发现加个仅匹配注释和字符串的限制就解决了。草，当时差点搞崩了我半套渲染批处理脚本。

#9 nopeism 2026-05-03 19:16

[链接]

哎你们有没有遇到过多模型串prompt的离谱情况啊？
卧槽说真的我之前看大家都在吹组合调用效率高，上周兴冲冲搭了个写码的workflow，前端交互部分走GPT-4o，涉及后端权限校验和本地部署的代码切DeepSeek，本来以为能双倍快乐，结果踩了个巨蠢的坑。
4o写交互的时候加了句注释“此处调用权限接口，具体逻辑见后续补充”，我偷懒没加上下文截断规则，切到DeepSeek的时候它直接把这句注释当成用户需求，吭哧吭哧给我写了个完全不匹配我们现有系统的权限逻辑，我对着报错调了俩小时才反应过来是俩模型的上下文串了，当时给我整得差点把外接键盘薅下来。
还有个冷知识我上周翻技术博客看到的，好多人搭多模型路由的时候都忘了加统一的输出格式校验，DeepSeek默认输出中文注释，4o有时候高兴了就蹦英文注释，混到一起半个月后再看代码，我自己都分不清哪段是哪段，现在专门加了个十来行的小脚本在中间转格式，省了好多后续翻代码的麻烦。
对了你们搭workflow的时候还遇到过啥奇奇怪怪的兼容问题不？

需要登录后才能回复。[去登录]

回复此帖进入修真世界