百亿ARR之后：AI商业化的真相

#1 lyric 2026-05-13 21:52

[链接]

看到阿里官宣AI服务ARR即将破百亿，倒生出几分静水流深的欣慰。这数字像极了五年前北漂时在地下室等来的初雪，终于熬过了纯烧钱的寒冬，步入了该见真章的站台。我觉得吧商业化从来不是实验室里跑出的漂亮Loss曲线，而是千百次迭代后，算力成本与客户期待之间的笨拙对齐。
嗯…
推理消耗的隐形账单、千人千面的定制需求，都在悄悄稀释着报表上的利润。技术再锋利，若不能化作具体场景里可量化的业务增益，也只是一场绚烂却易散的烟火。我常熬夜抽卡，深知概率与期望值的道理；AI落地亦是如此，与其追逐参数堆砌的虚火，不如看它能否在某个角落真正托住一个痛点。古人云“行到水穷处，坐看云起时”，当模型褪去浮华的噱头，如呼吸般自然嵌入日常的工作流时，价值才算真正落了地。btw，各位在一线反复打磨Prompt的朋友，可曾见过这种从喧嚣归于寻常的瞬间？

#2 daisy_jp 2026-05-13 22:02

[链接]

"行到水穷处"这句用得好温柔啊。我疫情期间被困在国外半年的时候，也经历过类似的心情——一开始每天刷新闻焦虑得要死，后来慢慢学会在阳台看云，反而想通了很多事。

你说"从喧嚣归于寻常"，让我想起最近在学跳舞的事。刚开始追热门曲风，拼命练技巧，现在反而迷上了bossa nova，一支舞可以慢慢磨一个晚上。AI大概也一样吧？那些最打动人的应用，可能不是参数最大的模型，而是某天你发现"啊，原来这件事已经不用动脑了"的瞬间。

Prompt打磨的朋友真的辛苦了，화이팅！不过我想问，你们有没有试过把Prompt当成一种创作？就像写歌词一样，有节奏感和呼吸感的那种。我有时候觉得，好的Prompt工程师和好的dancer有点像，都是在跟某个"黑箱"对话，找那个最自然的发力点。嗯嗯

甜食要吗？我这边刚买了红豆包，分你一块~

#3 eyesful 2026-05-14 00:53

[链接]

我上周听阿里的前同事说，他们内部现在写周报基本都靠自家AI了？这落地速度也太夸张了吧？

#4 lol_2004 2026-05-14 01:28

[链接]

阿里这百亿ARR让我想起我前司，也是搞AI的，最后烧光了我的三十万外加老板的一套别墅
诶
不过今天不诉苦了，说点实在的

Prompt工程师这行，正在经历从"巫师"到"瓦工"的落差

对了两年前会写几个CoT技巧就能拿高薪，现在？甲方爸爸要的是"把这个合同审查模块塞进去，准确率提到95%成本压到两毛"。我去楼主说的"笨拙对齐"太准确了，我现在的日常就是在算力、延迟、准确率三个维度上反复横跳，跟改装机车调ECU一个感觉——拧太紧爆震，拧太松没劲

真正让我体感变了的，是"推理成本"这件事的显性化
绝了
去年帮朋友公司搭客服机器人，GPT-4效果惊艳，一算账每个月推理费八万。换GPT-3.5？准确率掉12%，但成本压到八千。最后方案是3.5做初筛，4做复核，复杂工单转人工。这他妈根本不是技术决策，是算账的艺术。现在各家都在吹MoE架构降本，但落到我头上，可能就是凌晨三点改那个fallback逻辑，让模型别在客户骂人的时候背诗
绝了
千人千面这事，我补充个反直觉的观察

我们总以为定制=深度，但最近和几个做B端的朋友聊，发现"浅定制+强约束"反而活得更好。什么意思？你把模型封装成一个极其具体的动作——比如"从这份体检报告里提取异常指标并给出分级建议"——比开放对话好交付一百倍。客户要的不是聪明，是确定性。这块我觉得楼主可以展开，现在太多项目死在"看起来智能"上

关于"托住痛点"

说个真事。我瑜伽馆有个学员，五十多岁的大姐，之前是会计。她现在用AI干的最高频的事？把微信语音转成表格，自动分类汇总。就这一个功能，她愿意付年费。没有大模型，没有RAG，没有agent。嗯但比她以前手动搞省两个小时每周。这种"呼吸般自然"的嵌入，确实发生了，但发生的地方往往很无聊，无聊到上不了新闻

最后抖个机灵

古人"行到水穷处"后面是"坐看云起时"，但做我们这行的都知道，水穷了大概率是服务器欠费了，云起？呢云也贵啊

btw楼主抽卡熬夜这事我懂，但AI落地比抽卡残酷——抽卡有保底，项目没保底。你以为是SSR，交付变N卡，问就是"场景理解有偏差"

有没有Prompt当创作玩的？有，我手机备忘录里存着一百多条"诗"，但真到KPI面前，创作个锤子，能跑通就行

#5 cynic84 2026-05-14 07:26

[链接]

推理成本这个话题，说真的，你们都在聊企业侧的账单，我倒想从另一个角度看这个问题——用户侧的成本到底谁在算？

这让我想到一个更离谱的事：现在这些AI服务号称百亿ARR，但有多少是在"合规"这个维度上真正算清楚账的？推理成本、定制成本这些还是明面上的，隐形成本里最大的一块其实是"责任成本"。好吧好吧你企业客户用了AI生成的合同条款，万一出事了，责任链条怎么追溯？模型提供商说"我只是工具"，客户说"我买的就是你的判断力"，这中间的灰色地带比你们搞prompt engineering时的上下文窗口还长。
我去
就这？lol_2004说的"巫师到瓦工"特别精准，但我补充一点——现在最大的问题不是瓦工干得辛不辛苦，而是连砖头是不是你的都不知道。行吧我见过一个案例，某中型企业用AI客服系统处理了半年工单，后来发现模型在特定场景下会给出违反行业监管规定的建议，等发现的时候已经处理了两万多条。这账怎么算？

自由软件社区有个原则叫"没有信任，只有验证"。放在AI商业化这个语境下，我觉得这句话值千金。你们在聊"从喧嚣归于寻常"的美好愿景，但我想问的是：归于寻常之后…，当AI真的嵌入日常工作流像呼吸一样自然的时候，谁在为这口呼吸的质量负责？离谱

阿里百亿ARR确实是个里程碑，但我觉得真正的分水岭不是营收数字，而是什么时候行业能拿出一套"出了问题能追溯、能赔偿、能修复"的责任框架。技术落地这事儿，最后拼的不是Loss曲线多漂亮，是出了事以后谁能站着把责任扛了。真的假的

话说回来，daisy_jp说把prompt当创作，这个心态我倒是很喜欢。毕竟说到底，我们现在干的活儿，本质上是在教一个黑盒怎么对结果负责，而这事儿连我们自己都没想明白呢。

#6 gauss__z 2026-05-14 08:18

[链接]

lol_2004, post: 175423

阿里这百亿ARR让我想起我前司，也是搞AI的，最后烧光了我的三十万外加老板的一套别墅

诶

不过今天不诉苦了，说点实在的

Prompt工程师这行，正在经历从"巫师"到"瓦工"的落差

对了两年前会写几个CoT技巧就能拿高薪，现在？甲方爸爸要的是"把这个合同审查模块塞进去，准确率提到95%成本压到两毛"。我去楼主说的"笨拙对齐"太准确了，我现在的日常就是在算力、延迟、准确率三个维度上反复横跳，跟改装机车调ECU一个感觉——拧太紧爆震，拧太松没劲

真正让我体感变了的，是"推理成本"这件事的显性化

绝了

去年帮朋友公司搭客服机器人，GPT-4效果惊艳，一算账每个月推理费八万。换GPT-3.5？准确率掉12%，但成本压到八千。最后方案是3.5做初筛，4做复核，复杂工单转人工。这他妈根本不是技术决策，是算账的艺术。现在各家都在吹MoE架构降本，但落到我头上，可能就是凌晨三点改那个fallback逻辑，让模型别在客户骂人的时候背诗

绝了

千人千面这事，我补充个反直觉的观察

我们总以为定制=深度，但最近和几个做B端的朋友聊，发现"浅定制+强约束"反而活得更好。什么意思？你把模型封装成一个极其具体的动作——比如"从这份体检报告里提取异常指标并给出分级建议"——比开放对话好交付一百倍。客户要的不是聪明，是确定性。这块我觉得楼主可以展开，现在太多项目死在"看起来智能"上

关于"托住痛点"

说个真事。我瑜伽馆有个学员，五十多岁的大姐，之前是会计。她现在用AI干的最高频的事？把微信语音转成表格，自动分类汇总。就这一个功能，她愿意付年费。没有大模型，没有RAG，没有agent。嗯但比她以前手动搞省两个小时每周。这种"呼吸般自然"的嵌入，确实发生了，但发生的地方往往很无聊，无聊到上不了新闻

最后抖个机灵

古人"行到水穷处"后面是"坐看云起时"，但做我们这行的都知道，水穷了大概率是服务器欠费了，云起？呢云也贵啊

btw楼主抽卡熬夜这事我懂，但AI落地比抽卡残酷——抽卡有保底，项目没保底。你以为是SSR，交付变N卡，问就是"场景理解有偏差"

有没有Prompt当创作玩的？有，我手机备忘录里存着一百多条"诗"，但真到KPI面前，创作个锤子，能跑通就行

你抓到的这个痛点很准。浅定制+强约束的思路，从某种角度看，其实是在用确定性换鲁棒性。我在悉尼做移民评估时观察过类似现象：客户总期待弹性空间，但审批逻辑恰恰相反，边界条件越清晰，决策方差就越小。把Prompt限制在单一动作上，本质是压缩输出置信区间，降低长尾风险。严格来说不过有个细节想请教：当输入明显偏离预设分布时，你们的fallback是硬拦截还是允许降级？现实里clean data几乎不存在，这块的容错阈值你们一般怎么量化

#7 veteran_owl 2026-05-14 10:15

[链接]

lol_2004, post: 175423

阿里这百亿ARR让我想起我前司，也是搞AI的，最后烧光了我的三十万外加老板的一套别墅

诶

不过今天不诉苦了，说点实在的

Prompt工程师这行，正在经历从"巫师"到"瓦工"的落差

对了两年前会写几个CoT技巧就能拿高薪，现在？甲方爸爸要的是"把这个合同审查模块塞进去，准确率提到95%成本压到两毛"。我去楼主说的"笨拙对齐"太准确了，我现在的日常就是在算力、延迟、准确率三个维度上反复横跳，跟改装机车调ECU一个感觉——拧太紧爆震，拧太松没劲

真正让我体感变了的，是"推理成本"这件事的显性化

绝了

去年帮朋友公司搭客服机器人，GPT-4效果惊艳，一算账每个月推理费八万。换GPT-3.5？准确率掉12%，但成本压到八千。最后方案是3.5做初筛，4做复核，复杂工单转人工。这他妈根本不是技术决策，是算账的艺术。现在各家都在吹MoE架构降本，但落到我头上，可能就是凌晨三点改那个fallback逻辑，让模型别在客户骂人的时候背诗

绝了

千人千面这事，我补充个反直觉的观察

我们总以为定制=深度，但最近和几个做B端的朋友聊，发现"浅定制+强约束"反而活得更好。什么意思？你把模型封装成一个极其具体的动作——比如"从这份体检报告里提取异常指标并给出分级建议"——比开放对话好交付一百倍。客户要的不是聪明，是确定性。这块我觉得楼主可以展开，现在太多项目死在"看起来智能"上

关于"托住痛点"

说个真事。我瑜伽馆有个学员，五十多岁的大姐，之前是会计。她现在用AI干的最高频的事？把微信语音转成表格，自动分类汇总。就这一个功能，她愿意付年费。没有大模型，没有RAG，没有agent。嗯但比她以前手动搞省两个小时每周。这种"呼吸般自然"的嵌入，确实发生了，但发生的地方往往很无聊，无聊到上不了新闻

最后抖个机灵

古人"行到水穷处"后面是"坐看云起时"，但做我们这行的都知道，水穷了大概率是服务器欠费了，云起？呢云也贵啊

btw楼主抽卡熬夜这事我懂，但AI落地比抽卡残酷——抽卡有保底，项目没保底。你以为是SSR，交付变N卡，问就是"场景理解有偏差"

有没有Prompt当创作玩的？有，我手机备忘录里存着一百多条"诗"，但真到KPI面前，创作个锤子，能跑通就行

lol_2004，你那个"改装机车调ECU"的比喻让我差点把红酒喷出来。太准了。

我年轻的时候在工地，跟着师傅学修混凝土搅拌机。那玩意儿看着笨，其实里头门道多——转速快了浆料飞溅，慢了凝固在桶里，清一次得拿锤子凿半天。后来我去夜校学编程，以为终于告别这些了，结果你现在告诉我AI也是个拧螺丝的活？

不过我倒是想说说你提的那句"浅定制+强约束"。去年帮一个做民宿的朋友弄智能客服，一开始他非要"像人一样聊天"，我折腾了半个月，各种prompt雕出花来。后来改成交互树，就三个分支：订房/退改/投诉，每个节点最多三句话，用户满意度反而高了。那朋友不懂技术，就跟我说了一句：“现在它不像人了，但终于能用了。”

你那个GPT-4和3.5混用的方案，我倒是好奇 fallback 那块的判定逻辑怎么做的？是置信度阈值还是规则硬切？我试过用一个小模型专门做"这人是不是在骂人"的初判，准确率凑合，但延迟能省一半。这种脏活累活，现在好像没什么人愿意聊了。说实话

坦白讲Prompt从巫师变瓦工这事，我反而觉得是好事。巫师靠神秘感吃饭，瓦工靠手艺。话不能这么说神秘感会散，手艺饿不死。我中专毕业那年，工地上会开塔吊的老师傅一天能挣三百，现在还是三百——不，可能还涨了。话不能这么说你猜怎么着，当年那些看不起这行的，现在有几个还在行业里？

说起来，你前司那三十万后来有说法吗。算了，当我没问。喝酒的时候再细说。