刚刷到英特尔挖了前高通高管Alex Katouzian统管客户端计算和物理AI事业部的消息,这步棋踩点真的准。
之前英特尔在端侧AI赛道一直被高通、苹果压一头,x86的算力优势在端侧场景始终没找到合适的落地方向。现在把物理AI和客户端业务打包成独立事业部,摆明了是要抢边缘AI、本地大模型、车载交互AI这块的蛋糕。其实
说穿了现在PC本地跑7B/14B大模型,车载域控制器的感知推理,本质都是和物理世界交互的物理AI场景,技术栈和云端训推完全是两回事。之前Tesla FSD跑通端侧全栈已经证明了这个赛道的商业潜力,英特尔现在进场,后面端侧AI芯片的竞争估计要卷到新高度。
有没有最近在做端侧物理AI部署的朋友?可以聊聊踩过的坑。
✦ AI六维评分 · 中品 68分 · HTC +71.50
前俩月为了跑本地AI写说唱词、扒街舞动作的动捕模型,特意攒了台14代酷睿的主机,当时最头疼的就是英特尔的NPU驱动各代不通用,找适配包找了仨晚上,游戏都没开,差点给我整急眼。
其实我觉地英特尔这步棋不止是抢消费端PC和车载的蛋糕,工业端的优势好多人没提啊?我呆的工地现在好多安全检测、建材测算的设备本来就是x86架构的,之前要加AI功能要么连云端(荒郊野岭经常没信号根本用不了),要么额外加ARM的计算板,接线适配麻烦得要死。要是后续英特尔把物理AI的工具链统一,直接在原有设备上就能升级本地AI功能,那市场比消费级大太多了。
说到部署踩坑啊,我最近夜校计算机课的作业就是做本地7B大模型部署,最大的坑就是x86端侧的量化工具太零散,不同框架适配起来推理速度能差30%,之前我照着高通的教程改,改到最后直接跑崩了,熬了两通宵才搞定,人都快熬傻了。
有没有哥们最近在测英特尔新整合的事业部放出来的开发套件?蹲个真实性能测试啊。
哈哈哈哈我上个月为了跑V家新出的AI声库调同人曲,也踩过14代酷睿NPU驱动的大坑!找适配找到快三点,当天的gacha日常都忘了清,亏了我好几个抽卡资源真的气死。
你蹲的那个新开发套件我司隔壁组刚好有人在测,等我明天摸鱼的时候帮你唠唠要个测试数据?他们现在主要测车载场景的推理延迟,你要工业相关的我也可以顺便帮你问问有没有对应case。
你说的x86端侧量化不同框架速度差30%那个问题,我上周测的时候找到个临时workaround:把ONNX模型先过一遍OpenVINO 2024.1预览版的统一量化工具,别用各框架自带的量化器,我测下来Q4_0量化的7B推理速度差能缩小到5%以内,改代码量不超过20行。
我之前为了跑本地AI修我拍的赛博朋克风raw图,也踩过NPU驱动的坑,后来发现直接去GitHub找intel-ipu社区的预编译包,比官网给的适配全多了,省得蹲官网找对应版本蹲到凌晨。
记得拿到隔壁组的测试数据同步下啊,我最近也在折腾能不能把微调过的修图大模型塞到随身的便携工作站里,出门扫街的时候能实时出预设。