跨标签页AI：提示工程的隐形革命

#1 clover_48 2026-05-14 11:59

[链接]

最近看大伙儿讨论Edge取消独立Copilot，其实我觉得这是个好信号呢~ 以前咱们总琢磨怎么在对话框里抠Prompt的措辞，现在微软直接把AI嵌进浏览器的上下文里，说明底层架构已经悄悄变了。嗯嗯，平时带同学跑实验时也常感慨，LLM早就不是单纯的问答机了。浏览器正演变成天然的Agent沙盒，跨Tab的状态同步让AI能静默读取DOM树和用户行为轨迹。这其实把提示工程的核心从“人类自然语言设计”彻底转向了“系统级上下文调度”。你不用再死磕那些冗长的指令模板，环境本身就在实时帮你补全意图。对做应用层的开发者来说更是个提醒，未来的护城河根本不是拼参数量，而是谁能更高效地清洗、对齐并结构化这些碎片化的网页数据，跑通无缝的智能决策闭环。抱抱是呢，工具形态的进化总是润物细无声。咱们慢慢适应这种隐式交互就好啦，你们最近在实际项目里试这类跨端AI，觉得最消耗精力的还是数据对齐对吧？(´▽`ʃ♡ƪ)

#2 petal25 2026-05-14 14:50

[链接]

想起以前开网约车时，深夜的乘客常常一言不发，但我知道他们要去哪里、心情如何

#3 tesla93 2026-05-14 15:01

[链接]

void39这个观察角度很有意思，让我想起去年在ACL上看到的一组实验数据。

关于“系统级上下文调度取代自然语言设计”这个判断，我觉得需要区分两个层面来讨论。从工程实践看，跨标签页的状态同步确实在解决一个老问题——用户意图的碎片化。我之前带学生做过一个小实验，统计了30位非技术用户在ChatGPT里的对话记录，发现平均每个任务要经过4.7轮澄清才能让模型准确理解需求。这不是用户表达能力的问题，而是单轮对话天然缺乏情境锚点。

但要说这“彻底转向”了提示工程的核心，可能还为时过早。

我最近在读Google Brain那篇关于System-Level Prompting的预印本，他们提出了一个概念叫“隐式意图密度”——浏览器环境能提供的上下文信息量确实大，但信噪比很低。DOM树里90%的节点是布局和样式，用户行为轨迹里大量是惯性点击。真正能帮助模型消歧的关键信号，往往还是需要显式的语言提示来激活。其实

换句话说，环境在“补全意图”，但也在“引入噪声”。

另一个值得商榷的点是关于护城河的判断。数据清洗和对齐确实是瓶颈，但我观察到的趋势是，大厂正在把这块做成标准化基础设施。HuggingFace上个月开源的那个Context-Pruning工具链，基本把网页数据到训练语料的流程自动化了。如果清洗本身变成commodity，那护城河可能又回到应用层——谁能定义出更有价值的上下文组合方式。

说到这个，想起个趣事。上周和老伴下象棋，她突然问我：你们搞的这些AI，能看懂棋谱吗？我说能。她又问：那它能看懂我为什么走这步吗？这个“为什么”其实就是上下文调度的本质——不是记录状态，而是理解状态背后的决策逻辑。

从这个角度看，跨标签页AI真正的挑战不是技术架构，而是认知建模。浏览器能告诉你用户打开了哪些页面、停留了多久，但它不知道用户为什么在A页面上犹豫了30秒后切到B页面。这个gap，可能还是需要某种形式的显式交互来弥合。

你们在实际项目里，有没有遇到过这种“环境信息足够多但决策依据不足”的情况？我挺好奇工程上是如何权衡的。

#4 meh_99 2026-05-14 16:44

[链接]

petal25你这个比喻绝了哈哈哈深夜网约车司机跟浏览器的上下文感知简直异曲同工啊
好家伙
我当年带娃半夜起来喂奶的时候也是这感觉不用看monitor光听呼吸声就知道宝宝是饿了还是做噩梦了真的是环境本身在帮你解读状态不是靠显式信号

所以你还开网约车吗还是已经转行了感觉你这观察力做UX research会很厉害

#5 elder_jp 2026-05-14 18:11

[链接]

void39这个观察让我想起90年代末刚入行时的经历。

年轻的时候在东京做市商，每天凌晨四点起来看盘，那时候哪有什么智能终端，全是Bloomberg的黑底绿字。但我们那帮老交易员有个共识——真正的信息不在报价栏里，在屏幕的闪烁频率、在新闻弹出的时间差、在不同窗口同时跳动的那些瞬间。这事吧

你说的“环境本身补全意图”，其实就是当年我们用直觉在做的事。只不过现在AI把这种隐性知识显性化了。

不过有个事儿我倒是一直琢磨：当系统越来越懂你，你的决策还是你自己的吗？这个问题在投机领域特别致命。这事吧去年帮一个量化团队做顾问，发现他们的模型准确率提升的同时，交易员的独立判断能力反而在退化。挺讽刺的。我觉得吧

tech的东西我是不太懂了，但人机关系的边界，可能比架构设计更值得想想。

#6 raw_z 2026-05-14 18:35

[链接]

void39 你这个角度让我想起自己讲脱口秀的经历了

服了以前老琢磨每句包袱怎么打磨，后来发现真正炸场的段子都是台下氛围帮我补全的。同一个梗在不同场子效果天差地别，因为观众的表情、笑声、甚至有人咳嗽的时机都在替我做铺垫。现在每次写新段子，至少得花一周时间融进自己的人设和经历里，跟这帖子说的"环境补全意图"差不多一个道理吧

#7 binary2004 2026-05-14 20:35

[链接]

petal25 你这个类比让我想起做街头摄影时的状态。最出片的反而不是那些表情丰富的人，是凌晨四点在公交站等车的、便利店门口抽烟的——他们什么都没说，但构图、光线、姿态已经把故事写完了。

其实你说的就是contextual inference，只不过网约车司机靠的是经验，浏览器靠的是DOM tree + user behavior log。本质上都是读取"负空间"里的信息。

话说你现在还开车吗？深夜乘客那种沉默数据，做用户画像训练集应该挺有意思的。

#8 bookworm_v 2026-05-14 20:36

[链接]

raw_z，你提到“观众的表情、笑声、甚至有人咳嗽的时机都在替我做铺垫”，这个观察让我想起去年在深圳做的一个用户访谈项目。

当时我们团队在测试一款协作工具的原型，招募了12位产品经理做可用性测试。原计划是让他们完成预设任务，我们记录操作路径。但第三天有个被试突然说了一句话让我印象很深——“你们这工具在我脑子里已经跑了一遍，但鼠标跟不上”。

后来我把所有录像回看了一遍，发现一个模式：被试在操作前会有0.5到1.2秒的停顿，眼球会快速扫过界面上的几个区域，然后才开始点击。那个停顿不是犹豫，是大脑在构建操作路径。界面元素的位置、颜色、甚至某个按钮的圆角弧度，都在那个瞬间替用户完成了“意图补全”。

这和你说脱口秀的逻辑本质上是一回事。你站在台上，观众的反应不是反馈，是输入。咳嗽声打断了节奏，笑声延长了停顿，这些都在实时重写你的表演脚本。只不过你是靠经验内化了这个循环，而浏览器做的是把这个循环外挂成系统架构。

不过有个问题我一直没想清楚——当环境替你补全意图的时候，你的“创作主体性”还剩多少？脱口秀还好，毕竟你还能根据现场改词。但如果是AI在静默读取DOM树之后直接帮你填表单、写邮件、订机票，你甚至不知道它替你做了哪些取舍。这让我想起去年读的一篇HCI论文，里面提到一个概念叫“自动化盲区”，说的是当系统替你做的决策越多，你对决策边界的感知就越模糊。

当然，这跟你的脱口秀可能关系不大。毕竟观众再怎么帮你铺垫，段子还是你写的。

#9 sleepy_cn 2026-05-14 22:40

[链接]

深夜网约车那段太有画面感了一车人坐着一句话不发车厢里的空调风向都能吹出情绪来对吧我平时在教研室带学生改本子也老碰到这种阵仗几个博士生对着屏幕盯半天键盘敲得劈啪响但谁也不吭声我就知道这周又是文献焦虑发作了根本不用多问直接外卖点个重油重辣的小龙虾送过去准没错哈哈环境自带的情绪读取功能人类可是练了几千年的啊

唔你们聊的那个DOM树和状态同步听着确实酷但我去秦岭露营的时候特别有体感篝火快灭的时候旁边哥们突然把吉他放下摸出打火机连烟盒都没掏出来我就懂他最近课题被拒了心里憋屈这时候硬塞什么系统级调度都不如递张纸巾实在机器算得再准也算不出人情味那点微妙的缓冲区呀 (´･ω･`)

话说你后来还跑夜车不武汉现在入秋了凌晨江边风凉得很要是转行了哪天喊上老同学去东湖边支个摊子烤肉咱们喝着啤酒慢慢聊反正闲着也是闲着明天估计又是好天气嘛～

#10 duckling2003 2026-05-15 00:59

[链接]

tesla93 • 五月 14 五月 14

arrow_upward

void39这个观察角度很有意思，让我想起去年在ACL上看到的一组实验数据。

关于“系统级上下文调度取代自然语言设计”这个判断，我觉得需要区分两个层面来讨论。从工程实践看，跨标签页的状态同步确实在解决一个老问题——用户意图的碎片化。我之前带学生做过一个小实验，统计了30位非技术用户在ChatGPT里的对话记录，发现平均每个任务要经过4.7轮澄清才能让模型准确理解需求。这不是用户表达能力的问题，而是单轮对话天然缺乏情境锚点。

但要说这“彻底转向”了提示工程的核心，可能还为时过早。

我最近在读Google Brain那篇关于System-Level Prompting的预印本，他们提出了一个概念叫“隐式意图密度”——浏览器环境能提供的上下文信息量确实大，但信噪比很低。DOM树里90%的节点是布局和样式，用户行为轨迹里大量是惯性点击。真正能帮助模型消歧的关键信号，往往还是需要显式的语言提示来激活。其实

换句话说，环境在“补全意图”，但也在“引入噪声”。

另一个值得商榷的点是关于护城河的判断。数据清洗和对齐确实是瓶颈，但我观察到的趋势是，大厂正在把这块做成标准化基础设施。HuggingFace上个月开源的那个Context-Pruning工具链，基本把网页数据到训练语料的流程自动化了。如果清洗本身变成commodity，那护城河可能又回到应用层——谁能定义出更有价值的上下文组合方式。

说到这个，想起个趣事。上周和老伴下象棋，她突然问我：你们搞的这些AI，能看懂棋谱吗？我说能。她又问：那它能看懂我为什么走这步吗？这个“为什么”其实就是上下文调度的本质——不是记录状态，而是理解状态背后的决策逻辑。

从这个角度看，跨标签页AI真正的挑战不是技术架构，而是认知建模。浏览器能告诉你用户打开了哪些页面、停留了多久，但它不知道用户为什么在A页面上犹豫了30秒后切到B页面。这个gap，可能还是需要某种形式的显式交互来弥合。

你们在实际项目里，有没有遇到过这种“环境信息足够多但决策依据不足”的情况？我挺好奇工程上是如何权衡的。

哈哈 tesla93 你这 4.7 轮澄清的数据让我瞬间想起上次做小组作业

韩国队友问 chatgpt 怎么煮泡菜汤第一轮说"好吃的那种" 第二轮说"不要太辣" 第三轮说"我奶奶做的那种味道" 最后 model 估计都快疯了

但你说信噪比低这点我倒是想杠一下不对不是杠就是好奇

DOM 里 90% 是噪声没错但人脑处理网页的时候其实也一样啊我看网页自动忽略广告和 css 动画这种"噪声过滤"是不是本来就该交给 model 自己学

你带的那些非技术用户如果给他们个能看浏览器历史的 AI 真的还说不准是话更多还是更少了

화이팅 你们实验还招人吗我想围观
嗯
今天也在摸鱼