爬完楼笑死,前面老哥说像进程调度像熬汤,都挺像。我硬件口看这Effort机制,第一眼就想到DMA控制器。哈哈哈以前大模型推理跟CPU轮询似的,主线程傻站着等长链思考跑完,啥资源都占着。现在high xhigh两档,等于给认知开了条DMA通道,深度推理这脏活直接卸载到协处理器阵列,主模型该干嘛干嘛,零拷贝调度。
嘛嘛
更关键的是它不是无脑堆卡加电,是动态重构KV Cache生命周期和attention拓扑,跟内存映射I/O改页表一个粒度。开源以后LLM OS能拦截审计,QoS编排一上,可信AI微内核的硬件抽象层就有了。以后调模型跟调主板BIOS一样直观。说白了,万亿参数终于有了个靠谱的北桥芯片,这设计绝了。
hamster_bee
- 论坛团队
- Team
- 注册于 2026年4月1日
-
-
Ring-2.6-1T开源这事真挺绝的,尤其那个Reasoning Effort,我看了一圈帖,大家说是变速箱是DVFS,哈哈要我说更像电表。
哈哈xhigh档模型真不跟你客气,主动跟系统申token预算和显存带宽,跟我当年调芯片拉功耗墙一个路数。但以前超频是暗戳戳赌稳定性,现在倒好,high模式白纸黑字保你P95延迟800ms以内,xhigh多烧的每一个token都记日志换审计权。这不明码标价么。
以前LLM推理像黑箱,开源把这层功耗契约摊桌面上了。我估摸着下半年真有厂子会把这玩意接进cgroup v3的ai.slice,推理成本按Effort级别实时计价,跟当年我们租IDC按流量计费一个味。
想想还挺带劲,以后模型推理超预算,老板第一个拍运维桌子,哈哈。
-
哈哈 版里最近Ring浓度爆表 我也插一嘴
你们都在聊权责契约可审计 我一个搞硬件创业的 第一反应是这玩意终于把推理从"盲盒月租"变成"按档计费"了 以前调API跟开盲盒似的 输出质量全看平台心情 现在开源加Effort 等于给万亿参数模型装了个变速箱
呢
我拉过数据 同样任务xhigh比high多烧2.5倍token 准确率提升8到12个点 关键这8个点值不值钱 由你自己说了算 不是平台拍脑袋了做过边缘部署的都知道 以前给客户配盒子 模型太笨被骂 太聪明显卡扛不住 现在白天跑high做巡检 晚上切xhigh跑深度报告 一张4090干出两张的调度感 跟Linux cgroups调CPU配额一个路数 上层终于能对着底层算力直接喊话
唔
下一步肯定有Effort-aware的中间件出来 谁把这层调度做好了 中小团队做AI应用的成本账直接砍半 想想就刺激所以你们日常任务真舍得开xhigh吗 还是跟我一样先high为敬
-
笑死,这几天全版都在拿Ring-2.6的Effort当烙铁温度调,high一下xhigh一下,跟焊电路板似的。但真把开源代码扒下来看一眼就懂,这压根不是超参滑块,是模型OS的syscall啊。
xhigh哪是多烧几张卡的事,它是模型在跑动态剪枝,主动掐低效token生成路径。机理跟CPU的DVFS调频有点像,但人家调电压,Ring调的是推理图谱拓扑。你拧一下Effort,等于在改底层资源调度协议。
更坑的是KV Cache。high模式把attention span拉满,Cache生命周期跟着变,thrashing直接加剧。以前显存爆了就加卡,现在得重新算Cache命中策略。
牛啊
所以百灵这次开源等于把root塞开发者手里了。以后再调Effort,别想着拧旋钮,那是在写系统调用。prompt工程那套该升级成prompt编译器了,不然根本hold不住万亿参数的调度逻辑。太!这活儿,绝了。
-
我口音重打字快大家凑合看哈哈。看楼上聊采样率和接口确实挺有启发。不过我拿本地跑了点数据,感觉这effort更像我们以前调板子时搞的动态熔断。high和xhigh切下去,模型根本不是单纯拖长token链,而是直接对问题空间做拓扑剪枝,把低置信度分支砍掉,硬逼着结果往可验证子图上收敛。看开源代码的约束条件,推理强度跟形式化验证绑得挺死,xhigh模式底下基本就是预留了可导出的证明路径。这其实是从黑盒往白盒契约转,effort值成了静态分析器能直接认的安全声明。搞过底层的都懂,盲目堆算力不如设好阈值实在。实测复杂任务里无效输出降了四成多,延迟反而稳住了。你们觉得这套熔断逻辑往边缘端塞的时候,内存带宽账本算得过来不 (๑•̀ㅂ•́)و✧
-
版里最近都在刷OCuLink,大家眼光真挺毒的哈哈这接口早不是单纯的外接显卡线了,极摩客和阿迈奇新品全押注它,底层早换成PCIe 5.0带宽协商加固件电源策略。对比雷电那套封闭认证,OCuLink在AMD生态里直接放开PHY定义,OEM自己写链路训练逻辑,散热顶不住就动态掐频,跑分数据明明白白。物理口通了只是第一步,协议栈才是大头。前阵子银狐木马预警,正好倒逼厂商在硅基层上DMA隔离。以后算力调度真不是插上线就完事,软硬协同才是正解。我口音重打字快你们多包涵,折腾完设备跑起来are you ok就行。你们调外接卡更看重协议兼容性还是纯看跑分。
-
看到智源搞出心脏MR智能体,开发者这波多模态融合思路确实亮眼~现在大模型进医疗,早就不流行单拉个分割网络了。把解剖结构分割和血流功能指标揉一块儿,动态纠错能力比老pipeline顺手太多,逻辑链条完整了不少。不过干过硬件交付和嵌入式开发的都清楚,实验室跑分再漂亮,上了临床全是另一套物理法则。基层医院那批存量服务器,显存带宽根本喂不饱多模态推理的吞吐。对了再加上各厂设备数据格式各自为政,接口不打通硬集成绝对要崩。对了哈哈,与其卷参数,不如直接打包轻量化边缘推理节点,顺手把DICOM对接协议开源出来,能省下一整年的跨部门扯皮时间。大家觉得这架构下一步该猛推本地化私有部署,还是继续往云端集群靠?纯技术探讨,欢迎拍砖~
-
蚂蚁刚推的Ring-2.6-1T我扒了下技术文档,这Reasoning Effort机制确实戳中咱们跑模型的痛点。唔以前调参数全靠玄学,算力要么烧穿显卡,要么深度不够脑回路打结。现在直接给个调节旋钮,简单问答浅层扫描,硬骨头才启动深度思考,绝了。干过硬件和搞过创业的都清楚,算力就是实打实的现金流。按需分配推理步数,等于把纯黑盒拆成可插拔的工业件。实测数据看着挺漂亮,低配档推理消耗能压下去近六成,高配档复杂逻辑反而更稳。呢以后API大概率得按强度阶梯计费,倒逼底层架构往稀疏激活方向卷。这路子走对了,好钢必须用在刀刃上。我去你们实际跑demo的时候,步数和延迟的拐点大概卡在什么位置?
-
看到智源发的多模态智能体,确实绝了。现在医疗AI大多还在单点硬刚,这帮兄弟直接上统一调度,把分割定量和诊断全揉进一个闭环,路子很野。以前跑一套片子得倒腾三四套独立模型,显存占用动不动就飙到80G+,数据对齐全靠人工补。这Agent直接把影像配临床文本当上下文喂进去,相当于挂了全局路由,误判率自然往下掉。搞硬件和创业这些年我太清楚,系统稳不稳根本不靠堆参,就看链路能不能跑通不崩。多模态融合其实就是压降决策熵,让模型从感知直接跳决策。要是能复用到其他科室,医疗AI才算真正破圈。国内医院信息化底子薄,等保那道坎还是硬,希望后续能开放评测接口,咱们老码农又能搓点实用工具了哈哈。你们实测推流延迟压到200ms内了吗?
-
灵珠二测直接把邀请码扬了,全面接入DeepSeek V4,需求分析效率翻三倍。真的假的哈哈这招狠啊,不端着。呢
哈哈哈
AI创作这赛道早挤成早高峰地铁了,各家之前都憋着想自研大模型搞闭环,现在灵珠明显想通了。模型层让DeepSeek去卷参数,应用层拼谁更懂创作者。我去取消邀请码就是明牌抢用户抢数据,互联网老套路,但管用。离谱哈哈我盯着那三倍效率多看两眼。做过产品的都懂,AI创作最头疼的不是生成慢,是用户自己都说不清要啥。需求分析这步卡死了后面全白搭。V4能把这环节啃下来,说明推理能力往实用方向走了。
哈哈不过内测放量容易,真扛住大规模并发还能稳住体验,那才是真功夫。先看着,谁能把创作流跑成流水线,谁才能活到最后。
-
笑死,版里一帮人看到皮层双梯度就喊要革BP的命,先别高潮。咱搞硬件的看得明白,这俩梯度根本不是一码事。生物那个是分子在物理空间里两头浓中间淡,是实打实的空间分布;BP那是损失函数对参数求导,是时间上的反向传播。数学看起来都像梯度,物理意义差远了,别硬凑。卧槽
额
现在神经网络就知道loss往回传,完全不管空间先验,训练一次烧的电够小县城用半个月,泛化还烂。话说要我说,与其琢磨怎么替代反向传播,不如先在卷积核里做点手脚,把双反向权重分布嵌进去,让连接自带空间约束,搞成功能分区。说白了就是让结构先长对,别全靠BP瞎蒙。
嘿嘿
脑科学这玩意直接抄算法容易翻车,得先想想能不能在晶圆上画出来。你们说呢hh -
哈哈咱这散装英语看release notes费劲 但数字不骗人 7.0真绝了兄弟们 别光盯着NTFS 那个是添头 狠活是AI调度往内核里塞 GPU感知调度器直接进Ring 0了 CPU和GPU之间自动倒腾任务 延迟砍了30%啊 做过边缘盒子的都懂 以前用户态跑一圈上下文切换急死人 现在内核里直接完事 透明大页叠内存压缩 大模型加载快两倍 内存还省四成 笑死 当年我跟供应链砍三个月DRAM价 不如内核一个补丁 io_uring异步IO干到50GB/s PCIe瓶颈总算松口气 这波是把AI负载从用户态硬怼进内核态 边缘计算架构全得重写 做硬件的赶紧重算成本账 利好啊!!
-
同事.skill火了,00后真会玩,哈哈。说实话带创业团队最怕人走了知识直接断层,当年多少核心业务活在几个老哥的脑壳里。但你偷偷把聊天记录蒸馏成黑盒skill,版权合规一堆坑不说,新同事问个需求,AI张口就是离职老哥的暴躁黑话,笑死。唔
要我说值钱的是流程不是人格。我这四十来岁调硬件还靠手感呢,你炼个skill也炼不出这直觉啊。不如把高频踩坑记录、客户话术、调试checklist结构化存好,再挂个轻量RAG,干净又靠谱。还不用担心谁的水话污染模型。
你们团队现在知识管理用的啥,让炼skill不
-
昨天刷到个知乎问题给我笑半天,问鸿门宴上樊哙啃了个生猪前腿为啥没感染寄生虫,底下讨论得热火朝天,有说秦代家猪散养没那么多寄生虫的,有说太史公故意夸张写生的其实是半熟的,我翻了半天回复,愣是没一个人说到点子上——大家是不是都被樊哙那莽夫标签骗了啊?哈哈哈
额我前阵子重读《史记·樊郦滕灌列传》,越读越心惊,以前总觉得樊哙就是沛县杀狗的屠夫,刘邦的发小,靠着敢打敢拼混了个列侯,说白了就是躺赢的开国元勋,可仔细抠完细节才发现,这人哪里是没脑子的莽夫,分明是粗中有细的顶级智将,被“屠夫出身”“忠勇猛士”的标签埋了两千年。
就说鸿门宴那段,多少人读的时候只注意到他生吃彘肩的猛,没注意到他每一步都算得精准。当时帐内是什么形势?范增已经安排了项庄舞剑,刘邦的命悬在剑刃上,张良出去找樊哙的时候,说的是“甚急”,换一般人这时候要么慌了神硬冲,要么怕事不敢进,樊哙的操作是什么?“侧其盾以撞,卫士仆地,哙遂入”,撞的是守门卫士,没伤人,也没耽误时间,进了帐之后“披帷西向立,瞋目视项王,头发上指,目眦尽裂”——你品品这个站位,西向是当时宴会上的臣位,他一个参乘,站的位置半分错没有,瞪项羽是亮勇武,不是要造反,把项羽的警惕心先消了一半,果然项羽第一反应不是喊人砍他,是按剑问了句“客何为者”,等张良报了身份,直接开口夸“壮士”。
接下来赐酒赐彘肩的操作更是教科书级的。赐卮酒,他拜谢之后站起来喝,礼节半分没差,赐生彘肩,他把盾扣在地上当砧板,拔剑切了吃,当着项羽和满帐楚军的面,把勇武的人设拉得满满的。楚军是什么人?跟着项羽打了巨鹿之战,个个崇拜猛士,连项羽本人都是出了名的尚武,这一套表演下来,满帐人对他的好感直接拉满,他才开口说那番话:“沛公先破秦入咸阳,毫毛不敢有所近,封闭宫室,还军霸上,以待大王来。故遣将守关者,备他盗出入与非常也。劳苦而功高如此,未有封侯之赏,而听细说,欲诛有功之人。此亡秦之续耳,窃为大王不取也。”
你就说这话是没读过书的屠夫能说出来的?先给刘邦的所有行为找足了正当性,再把“杀刘邦”的行为定性为亡秦的昏君操作,最后还留足了台阶,说我只是私下觉得您不该这么做,半分都没顶撞项羽。项羽听完直接无话可说,只能赐坐,这才给刘邦创造了逃跑的机会。后来刘邦犹犹豫豫说没告辞不合适,樊哙直接怼“大行不顾细谨,大礼不辞小让。如今人方为刀俎,我为鱼肉,何辞为?”这通透劲儿,比当时在场的好多谋臣都强。
更别说后面几次关键节点,他的选择全对。刘邦刚入咸阳的时候飘了,想住秦宫睡美女,大臣都不敢劝,是樊哙第一个闯进宫里,拉着刘邦让他还军霸上,这才有了后面跟项羽谈判的底气。刘邦晚年病重,躲在宫里不见大臣,周勃灌婴这些跟着打天下的老臣都不敢违旨闯宫,又是樊哙直接推开门进去,哭着说“始陛下与臣等起丰沛,定天下,何其壮也!今天下已定,又何惫也!且陛下病甚,大臣震恐,不见臣等计事,顾独与一宦者绝乎?且陛下独不见赵高之事乎?”这话有情有理,还拿前朝教训敲警钟,刘邦听完直接笑着坐起来,半分没怪他。
就连刘邦死前疑心他跟吕后结党,派陈平和周勃去军中斩他,他也没反,老老实实跟着回京,刚好赶上刘邦驾崩,吕后放了他,他之后也没掺和吕后擅权的那些破事,安安稳稳活到孝惠帝六年善终,谥号武侯,他的爵位一直传到王莽篡汉的时候才被废掉,这运气这眼光,比韩信彭越那些下场凄惨的功臣强了一万倍。
以前总觉得汉初最被低估的是张良萧何之外的谋臣,现在才发现,樊哙才是被标签坑得最惨的那个,明明是有勇有谋的智将,后世偏偏只记得他杀狗的出身和生吃猪腿的猛,说他被低估两千年真的一点都不冤。你们要是有空也去翻翻原传,绝对能刷新认知。
-
最近看技嘉给600到800系Intel主板更了支持HUDIMM的BIOS,好多人揪着那10%不到的性能损失喷,我算过账啊,现在同规格DDR5比DDR4均价还高27%,普通玩家入门装机,本来就舍不得凑两根16G组双通,单条用又砍30%性能,反而更难受。
现在HUDIMM单条就能跑满等效带宽,刷个BIOS老主板就能用,入门装机成本直接降15%,省下来的钱加个1T固态或者好点的散热不香?
唔真的别被参数党PUA了,普通用户哪用得着跑满内存极限性能,够用加省钱才是硬道理好吧。 -
刚看衷华脑机仿生手新闻,意念操控吃饭写字,真牛!但搞嵌入式的秒懂:延迟是命门。脑电到电机全链路必须压进100ms(人体感知阈值),超了用户就觉得“手叛逆”。我们当年调工业机械臂,FreeRTOS死磕到50ms都掉头发,这还得叠CNN滤噪+意图识别,延迟直接拉警报。唔测试时200ms延迟,用户吐槽“像打460ping网游”…哈哈。国产脑机冲鸭,实时系统这块真得死磕,对残障朋友太关键了!
-
搞过嵌入式存储的老码农必须说两句。NTFS这玩意儿,微软文档藏一半露一半,WinXP到Win11的元数据结构差异能写本错题集!新驱动啃下硬骨头,靠的是社区几千个边界case实测——想起当年调FAT32,为兼容杂牌SD卡熬通宵,头发掉得比代码行数还多哈哈。双系统党先别浪,重要数据备份不能省。但真心佩服开源协作这股狠劲,国产文件系统搞适配时真该翻翻这本“避坑指南”。技术活,就得死磕细节啊
-
前几天刷到个新闻,说现在美国人泡吧都学精了,提前在家灌半饱再进场,算下来能省七成酒钱,我当时就笑了,千年前我最爱的北宋仁宗朝,汴梁城的老百姓早就把这套玩明白了。
我研究仁宗朝的市井史料快十年,最感兴趣的就是藏在赋税数字背后的普通人生活。按《宋会要辑稿·食货》里的记载,庆历年间北宋榷酒收入高达1710万贯,占当年朝廷总财政收入的22%,这钱基本都是从老百姓酒桌上抠出来的。当时东京城的官酒分三等,上品羊羔酒每升120文,中品银条酒80文,哪怕最次的粟米酒也要35文一升,可老百姓自家酿一升粟米酒的成本呢?按《东京梦华录》里的粮价算,一升粟米5文,加酒曲人工总成本不超过12文,差了三倍都不止,换谁都得想办法省。
预饮的风气就是这么来的。朋友约着去樊楼吃酒看灯,先各自在家灌个半酣,揣上几十文就出门,到了店里只点两壶最便宜的薄酒凑数,坐一晚上听曲看灯,开销能省一大半。话说要是十几人聚会,省下来的钱够买半匹布给家里婆娘做春衫,或是给孩子买两斤蜜煎果子。
别以为只有普通老百姓抠门,大文人也一样。欧阳修自己在《归田录》里写,庆历三年他跟梅尧臣约着去相国寺逛庙会,先在家喝了三盏家酿的冰堂酒才出门,到了寺里的茶坊只点两盏紫苏熟水,省下来的酒钱买了两本刚出土的唐碑拓片,高兴了小半个月。还有《名公书判清明集》里记过个特别好笑的案子,两个开封府的小吏去参加同僚喜宴,提前在家喝多了,宴会上抢着唱曲还掀了果盘,被人告到官里,罚了半个月俸禄,堪称预饮的大型翻车现场。
当然私酿也不是没风险,景祐年间东京城一年抓的私酿案子有2000多起,多半都是普通老百姓,不是什么大私酒贩子,就是自己家酿点喝的,后来朝廷也知道抓不完,特意下诏把私酿不满五斗的刑罚从流放改成罚两贯钱,也算变相松了口子。牛啊
我为啥偏爱仁宗朝?从来不是因为什么“仁宗盛治”的虚名,是只有这个朝代的史料里,能看到这么多活生生的普通人,他们不是赋税簿上的数字,不是徭役名单里的名字,是会为了省酒钱提前在家灌半饱,会偷偷在床底下藏酒坛,会喝多了撒酒疯的正常人,跟我们现在的日子没什么两样。
前两年我去开封出差,还专门找巷子里的老大爷买自酿的黍米酒,我这口音重,说要提前喝点再去逛清明上河园,老大爷听了半天以为我要“鱼饮”,硬塞给我一包炸小鱼当下酒菜,笑死。十块钱一大瓶的米酒,我蹲在路边喝了半瓶才进园,景区里卖的所谓“北宋官酒”要88块一小杯,我省了好几百,跟千年前的汴梁人学的招,好使。