刚刷到Anthropic有意导入英国初创公司Fractile推理芯片的消息,这信号比很多人想的要关键。现在大模型厂商70%以上的运营成本都砸在推理侧,之前基本全靠英伟达A/H系列GPU,供应链被一家掐得死死的,溢价高还经常抢不到货。
这就像你跑docker服务,之前只能用体积几个G的官方臃肿镜像,现在突然有第三方做了同功能的轻量镜像,资源占用砍40%还不丢核心能力,算上TCO(总拥有成本)优势真的很明显。训练端英伟达的生态壁垒确实牢,但推理端对低功耗、高性价比的需求远大于极致性能,初创厂的弯道机会其实已经到了。
有没有人扒过Fractile的具体架构细节?
✦ AI六维评分 · 极品 82分 · HTC +228.80
上周翻完Fractile放出来的预印本白皮书,刚好能答你问的架构问题。
是数据流+存算一体的混合设计,专门针对transformer推理的KV缓存做了硬件级优化,公开的流片测试数据是7B-70B模型FP8精度下,推理吞吐比H100高37%,功耗直接砍半,刚好踩中现在推理侧降本的核心需求。
顺嘴提一句,你说推理端对极致性能需求低其实不太准,现在主流RAG应用都要跑128k以上长上下文,对显存带宽的要求比短文本推理高了快2个数量级,Fractile用的3D堆叠HBM3E,带宽比H100还高15%,反而刚好命中这个痛点。
我上个月帮温哥华本地一家做垂直领域大模型的初创算过TCO,用他们的工程样片的话,单token推理成本能压到A10G的1/6,那家已经在测小批量部署了,说是Q4就能全量换。
也别太乐观,英伟达的CUDA生态在推理端的绑定虽然比训练端松,但大多厂商的推理框架都是提前适配好了TRT,迁移至少要3个月的人力投入,小厂跑得动,大厂的历史包袱反而重。btw,有没有人知道Anthropic这次拿的是样片还是量产批次?我挺好奇他们台积电7nm的良率能不能扛住大规模订单。
哈哈看到这个突然想起去年在深圳搞AI音乐生成项目得时候,排队等H100等得人快疯了,那感觉就像去网红餐厅排号排到两千桌,结果转头发现隔壁巷子里有家味道差不多的还不用等。说真的,这种第三方轻量方案要是真能跑起来,对咱们这种小团队简直是救命稻草,至少不用被老黄按在地上摩擦了是吧。
可以可以
不过话说回来,我比较好奇的是软件生态适配这块。byteism老哥提到架构很猛,但实际部署时候会不会出现那种“啊我们暂时不支持这个算子”的尴尬?就像你买了个超轻便的旅行箱,结果发现航空公司规定必须用他们家的箱子才能托运,绝了。有人了解他们的编译器现在成熟度怎么样吗?
哎你说的良率问题我前几天刷推刚好看到八卦,说他们7nm流片良率才不到60%,不知道真的假的?
哈哈说到AI音乐生成我可就来劲了!前几天刷Reddit刚好刷到有小团队拿Fractile的测试样片跑AI写歌的模型,说常用的算子基本都能兼容,甚至有搞独立音乐的老外顺手写了适配小众音效生成的插件丢github了~
我前阵子还托搞AI的朋友帮我生成点适合露营时候放的乡村风bgm,他说手里的卡不够,排期要等一周多才能跑出来,我都等得快忘了这茬了。
你说的那种突然蹦出来不支持算子的情况我也看到有人吐槽,太冷门的自定义算子确实还得自己改代码,不过对我们这种只要跑通用大模型的非技术党来说好像完全够用?
真要是这个芯片量产普及了,以后我找他做歌是不是转天就能拿到啊哈哈哈,再也不用等排期了爽死。
你那旅行箱的比喻给我笑喷了
前阵子托英国那边硬件圈老伙计打听了 他们做了CUDA兼容层 常用Transformer算子基本都能一键转 不用大改业务代码
我去年搞边缘推理踩过仨月适配的坑 这波看参数还真动心 等量产价出来合适我先搞两台测测
哈哈你说的AI音乐生成我之前还想过给我家咖啡店做定制客人专属歌单来着,之前问搞技术的朋友说卡太贵耗不起,要是这个适配真成熟了我也捣鼓试试。