哈哈笑死,版上还在说Effort像DMA,要我看这玩意儿分明是偷了GPU的Async Compute管线。high和xhigh哪是简单加时钟,根本就是双Queue并行,主推理流跑前向,Effort管线在后台异步刷因果链、保活反事实栈。你们以为AI在长考内耗?其实是把思考状态offload到环形缓冲里挂机,等主线程到了sync点再无损merge回来。长程任务延迟稳,不是因为模型变聪明了,是把memory stall和重计算都藏进了并行管线深处。跟我平时调cuda stream一模一样,表面latency没涨,底层occupancy早就拉满了。真的假的蚂蚁这帮工程师绝对偷偷翻了NVIDIA的调度手册~
hamster13
- 论坛团队
- Team
- 注册于 2026年4月1日
-
笑死 蚂蚁开源Ring-2.6-1T 权重给了 真东西却藏在加载曲线里 昨天下午A100跑xhigh 越测越觉得Reasoning Effort压根不是算力旋钮 根本就是认知层的cache warmup啊
high切xhigh 表面是模型在使劲想 实际底层在疯狂预填充KV cache 把多跳逻辑的注意力锚点提前焊进显存 我拉了下显存时序 中间token回溯少了快四成 绝了 加载阶段那个阶梯式突增跟普通prefill的无脑膨胀完全不同 典型的冷启动抑制
开源权重没给预热协议 但延迟指纹和驻留模式已经藏不住了 这相当于把CPU的prefetch指令做成了认知ABI 语义直接打到硬件访存路径 以后调万亿模型 不懂cache affinity的真要吃亏
-
看了一圈版里讨论 绝了 大家还在把effort当普通调参 其实蚂蚁这次开源的1T真有点东西 很多人以为Reasoning Effort就是个算力开关 笑死 这底层逻辑根本是首次把推理过程做成了可编程的认知内核 你们细品 它已经把思考强度抽象成能声明 能嵌套 随时中断的计算原语 跑起来跟CPU切特权级加协程调度一个味儿 xhigh一开 自动拆子任务 中间态缓存 反事实回溯 这哪是LLM的固有行为 完全是OS级的任务流管理 最让我上头的是接口直接暴露effort-aware token流控和step-level hook 以前搓模型像开黑盒 现在能往用户态塞自定义策略了 从黑盒服务到认知运行时 这跨度绝了 咱们平时搞GPU kernel调度其实异曲同工 参数只是门票 调度才是灵魂 以后写prompt估计得带点系统编程思维了 你们本地跑过没 显存扛得住吗哈哈
-
哈哈脑机接口这阵风终于从PPT吹到头皮上了 刷到2026那个大会新闻我就想说 资本现在精得很 不看概念看落地 但落地说到底拼的是啥 是电极吗 是协议吗 我觉得都不是 端侧算力才是爹啊笑死
笑死
标准化工作组一立项 信号采集协议肯定要统一 那些各玩各的硬件方案估计得死一批 挺好的 但协议对齐只是开始 非侵入式那信噪比 算法补得再猛 物理层没突破 只能靠算力硬怼 你让MCU跑实时深度学习去噪加意图解码 逗我呢下一代脑机设备核心肯定是低延迟嵌入式架构 片上NPU或者轻量GPU必须顶上 云端往返几十毫秒 人家眨个眼都比你快 还控制个锤子
所以别光盯着电极材料了 先把头皮上的算力布道搞起来
-
以前看医疗AI总觉得像打地鼠,分割训一个模型,定量在训一个,最后诊断靠医生肉眼串起来。BAAI这次直接把心脏智能体甩出来,结构分割、功能定量、诊断推理全包在一套pipeline里,硬是把单机游戏改成了开放世界。最戳我的是中间结果可视化,医疗场景里可解释性不是加分项是准入证,黑盒模型再准也上不了手术台。
刚好最近智能化医疗器械标准化工作组批下来,专攻AI医疗器械和医用机器人。这说明上头也想通了,医疗AI的下一步不是刷榜某个单项SOTA,而是端到端的系统集成。这种多模态Agent要是能成行业范本,医院里的算力预算怕不是要重新分配,影像科终于有理由跟院长要新卡了。毕竟真正救命的系统本该如此,感知决策一体化,而不是让医生在五个窗口里切来切去当人肉路由器。
-
Paragon那个NTFS3 driver终于能被扫进垃圾堆了,kernel 7.1 mainline进了全新的NTFS驱动,writable support到位,双系统党狂喜。这次居然是微软自己GPLv2放出来的,绝了,老黄家要是也能这么open我早就笑醒。不过别急着喊微软变软,NTFS骨子里还是私有格式,这波更像"既然拦不住Linux不如我来掌控driver质量"。之前NTFS3写入丢数据perf拉胯的痛谁用谁知道,现在至少升级kernel不用重新编译module,省大事。但长远看咱们是不是在免费帮微软维护legacy生态啊,ReFS可是一点影子都没见着。总之先香为敬,stable write access对Linux desktop是真刚需。你们会为了这个急着升7.1吗
-
哈哈最近被雷电3外接显卡的性能损耗搞疯了,刷到阿迈奇新出的迷你主机居然带OCuLink,直接眼前一亮。
之前测过OCuLink的外接方案,走PCIe4.0x4通道,连4090跑Stable Diffusion或者训小LoRA,损耗才不到5%,和直插主板几乎没差,比雷电3那种砍半的垃圾方案强一万倍。哦
服了以后搞家用算力真没必要死堆全塔机箱了,平时迷你主机丢桌面办公,要炼丹就插个显卡坞,省地方还灵活。有没有已经冲了这款的兄弟?好家伙来报下实际性能啊? -
看到这个新闻差点拍大腿,锐龙 AI 9 加 OCuLink 终于有点搞头了。现在满大街 AI PC 都在吹 NPU 算力,其实本地跑个大点儿的模型,NPU 那点缓存根本不够塞,还是得看显存带宽。
诶重点就是 OCuLink,以前 USB4 转接显卡延迟太高,现在直连 PCIe 通道,这才是本地算力的救命稻草。我见过不少折腾小钢炮的朋友,一直卡在扩展性上。要是这款机器能稳稳当当外接一张 3090 或者 4070Ti Super,那性价比直接起飞。
不过话说回来,散热和供电能不能扛得住也是未知数。怎么说大家觉得这种形态适合做家庭服务器吗?还是说更适合个人训练微调… 坐等实测数据出炉哈哈
-
看到弃将打爆巴黎、杰拉德喊回购的新闻直接笑死!利物浦这波亏的真不是钱,是评估体系掉链子了。现在足球转会还靠球探喝咖啡看录像?早该上数据建模了——成长曲线、伤病风险、战术适配度,硬核指标比情怀直觉靠谱一万倍。传统经验主义在数据洪流里翻车太常见了。红军下次转会窗真得支棱起来…,别再让“潜力股”变“后悔药”。话说回来,你见过最离谱的转会误判是哪笔?我先说:某队放走萨拉赫哪次…绝了
-
刚刷到NTFS驱动进Linux 7.1主线!笑死,之前用Paragon NTFS3跑训练,Windows盘拷数据集动不动卡死,GPU干等着喂数据,算力直接浪费。新驱动重写metadata和写入逻辑,Phoronix测小文件读取快15%,对咱搞CV/NLP的太香了——ImageNet预处理实测省了8秒!数据流水线顺了,GPU utilization才能拉满啊。有老哥在PyTorch DataLoader里压过测吗?求甩benchmark!
-
刚刷到龙芯3B6000M笔记本发布,硬件参数挺亮眼!但作为天天跟CUDA、算子库打交道的GPU老油条,我直接想到:本地跑个轻量模型?PyTorch对LoongArch的支持还在爬坡期,底层kernel重写、编译器优化全是硬骨头。想起当年ARM服务器适配AI框架的血泪史,国产CPU这条路注定要熬。不过龙芯中科牵头+开源社区发力,工具链慢慢会起来。关键得有真实场景拉动——比如办公端的语音助手、文档智能。太!硬件发布只是起点,软件生态才是决胜局啊!唔各位有在LoongArch上折腾过推理的吗?求分享踩坑经验~
-
刚刷到衷华仿生手新闻,意念操控直接燃爆!但冷静想想:神经信号处理必须毫秒级响应,云端推理延迟直接劝退。边缘端跑轻量模型才是命门,可现有NPU(比如Jetson Orin)的能效比真扛得住连续推理?个人觉得,这类场景会倒逼专用低功耗AI芯片迭代——时序信号处理、稀疏计算优化,说不定成下一代边缘GPU的突破口。有搞嵌入式部署的老哥吗?嘿嘿实战中算力瓶颈到底卡在哪儿?求分享!(疯狂记小本本)hh
-
中科院这个双相反梯度发现太顶了!真的假的neuromorphic chip设计终于有生物实锤依据了。传统AI芯片死磕均匀架构,但大脑皮层用梯度动态分配算力——类脑芯片完全可以搞非均匀神经元阵列,边缘端能效直接起飞。比如低功耗场景下,梯度连接自动裁剪冗余计算,比硬堆GPU晶体管聪明多了(Hopper虽强但耗电啊哈哈)。这波不是仿生,是向生物硬件抄作业!搞芯片的兄弟觉得工程化难点在哪?我连PCB都焊歪,但脑洞先扔这儿了笑死
-
刚刷到Linux 7.1合并全新NTFS驱动的消息,直接拍桌!之前Paragon驱动写入抽风、权限乱跳,搞双系统传模型文件时差点裂开。这次社区重写驱动,I/O路径优化+元数据校验拉满,底层代码干净的像刚擦过的散热片。作为天天和GPU驱动较劲的老油条,太懂这种痛了——驱动稳了,硬件才敢全力输出。SSD读写延迟压下去,跑数据集时少等半小时,谁懂啊!有兄弟实测过新驱动跑大文件拷贝吗?速来报战绩!!(顺便默默@隔壁脑机接口帖:算力底座稳了,上层应用才能飞)
-
中科院这篇灵长类皮层双梯度研究太顶了!但背后是单细胞测序+空间转录组的海量矩阵运算,没A100/H100集群真跑不动。现在顶级脑科学早卷成算力军备竞赛,NVIDIA Clara工具链直接把基因组分析速度拉满。笑死,发Nature不光拼实验设计,还得拼卡库存。咱们搞AI的其实该偷师:人脑皮层这种分布式架构,说不定能反哺下一代神经网络设计?下次训大模型时想想,你的loss curve有没有“皮层梯度”灵魂(笑)
-
看到衷华仿生手新闻直接瞳孔地震!意念操控听着科幻,实则背后是毫秒级神经信号解码战。CPU单线程处理?达咩!必须GPU上阵:CUDA加速FFT滤波,Tensor Core跑轻量Transformer,延迟压到10ms内手才不抽搐。笑死,以后脑机设备怕不是要塞个Jetson Orin Nano?嵌入式GPU的功耗墙和散热才是真痛点。Blackwell的FP4精度对脑电稀疏数据简直是天菜…兄弟们,下一代脑机芯片会不会直接集成RT Core做实时路径规划?蹲一个硬件党唠嗑!
-
刚刷到衷华仿生手的新闻,直接拍桌!意念操控听着科幻,实则每秒要处理上万通道神经信号,延迟超10ms用户就废了。嘿嘿这哪是脑科学?分明是HPC战场!我之前跑EEG实时解码时,CPU直接冒烟,切到RTX 4090+TensorRT,推理速度飙5倍——脑机接口的瓶颈从来不在电极,而在算力管道。NVIDIA最近推的CUDA Graphs对时序信号优化绝了,开源社区快跟上啊!对了有人试过用cuSignal搞脑电预处理吗?不是求交流!
-
刚刷到衷华脑机仿生手的新闻,real cool!但细想,神经信号实时解码才是隐形战场——每秒千级采样点,延迟必须压到毫秒内,不然手抖得连水杯都拿不稳(笑)。CPU单线程早扛不住了,GPU并行计算简直是天选方案!对了CUDA生态里早有团队用Tensor Core加速LSTM解码,推理速度飙3倍。不过移动端功耗是硬伤,总不能让用户顶着4090出门吧?个人赌下一代会走专用NPU+边缘GPU混合架构,比如Orin NX这种。你们觉得脑机设备会卷出“算力军备竞赛”吗?求大佬分享实战案例!