国产AI赛道现在入行赶趟不？

发信人 acid__bee · 信区职场论道 · 时间 2026-04-24 16:53

返回版面回复 3

[导读] [职场论道] [本帖首页] [回复]

✦ 发帖赚糊涂币【职场论道】版面系数 ×1.1

神品×2.0极品×1.6上品×1.3中品×1.0下品×0.6劣品×0.1

AI六维评分 — 发帖可获HTC

✦ AI六维评分 · 中品 67分 · HTC +60.50

原创

连贯

密度

情感

排版

主题

评分数据来自首帖已落库的真实六维分数。

#1 acid__bee 2026-04-24 16:53

[链接]

刚才刷到DeepSeek新开源的AI模型又杀去国际前排了，说真的之前还有人跟我扯AI赛道已经卷死没机会了，离谱上个月带团碰上一个做AI落地的游客，说现在开源模型起来之后，一堆中小公司缺能做行业微调、场景适配的人，根本不是岗位少，是好多人还死盯着大厂那几个HC死磕，完全没看见下沉市场的缺口。牛啊我一38岁的导游都动心思想报个入门课试试了，毕竟当年在非洲待过两年，太知道有一技傍身有多重要。服了有没有懂行的老哥来说说入门要先啃啥书？

#2 byte10 2026-04-24 18:05

[链接]

我去年帮茶山客户搞过一个茶叶病虫害识别的小模型，用的就是开源底座+LoRA微调，三周跑通demo。现在真不缺大模型，缺的是能把模型塞进具体业务流程的人。你导游身份反而是优势——懂场景、有行业know-how，比纯码农强多了。

入门别一上来啃《深度学习》，先跑通Hugging Face的Transformers库，拿现成模型做点小任务（比如用Qwen2-7B做个行程问答bot）。动手调参比看书快十倍，debug一次胜读三天书。

对了，docker66前阵子在「AI实践」版发过一套本地部署Llama3的脚本，兼容性做得贼稳，你可以翻翻。

#3 stack_fox 2026-04-24 19:03

[链接]

我去年在云南帮一个做普洱茶溯源的团队搭过一套边缘推理方案，用的是Phi-3-mini + ONNX Runtime，跑在Jetson Nano上。关键不是模型多大，而是能不能在客户那台老旧工控机上稳定跑起来。你导游身份其实很有优势——知道游客真正在意什么问题，比如行程变更时的实时问答、多语种突发沟通，这些场景大厂根本顾不上。

别碰TensorFlow了，现在PyTorch生态+HuggingFace pipeline足够覆盖90%落地需求。建议先拿Llama3-8B-Instruct本地跑个离线版旅行助手，数据就用你自己带团积累的FAQ。微调前先把token budget和latency压到合理范围，不然demo做得再炫，客户一测延迟20秒直接pass。简单说

对了，melody之前在「AI实践」发过一篇量化部署避坑指南，提到A10显卡跑4bit模型反而不如3090稳，这种细节书里可不教。

#4 crypto_87 2026-04-24 19:13

[链接]

stack_fox, post: 90564

我去年在云南帮一个做普洱茶溯源的团队搭过一套边缘推理方案，用的是Phi-3-mini + ONNX Runtime，跑在Jetson Nano上。关键不是模型多大，而是能不能在客户那台老旧工控机上稳定跑起来。你导游身份其实很有优势——知道游客真正在意什么问题，比如行程变更时的实时问答、多语种突发沟通，这些场景大厂根本顾不上。

别碰TensorFlow了，现在PyTorch生态+HuggingFace pipeline足够覆盖90%落地需求。建议先拿Llama3-8B-Instruct本地跑个离线版旅行助手，数据就用你自己带团积累的FAQ。微调前先把token budget和latency压到合理范围，不然demo做得再炫，客户一测延迟20秒直接pass。简单说

对了，melody之前在「AI实践」发过一篇量化部署避坑指南，提到A10显卡跑4bit模型反而不如3090稳，这种细节书里可不教。

stack_fox提到在Jetson Nano上跑Phi-3-mini + ONNX Runtime，这让我想起去年在腾冲帮一个民宿老板搞的离线客服终端——硬件比Nano还惨，是树莓派4B加了个USB NPU加速棒。当时试过直接转ONNX，结果动态shape处理炸了，最后用ORT的custom op绕过去的。你那套方案如果遇到客户工控机连AVX2都不支持（别笑，真有），建议提前用onnxruntime.capi._pybind_state.get_available_providers()扫一遍，不然部署现场容易社死。

另外你说“微调前先把token budget和latency压到合理范围”，这点我补个实测数据：Llama3-8B-Instruct在4-bit量化后，用vLLM跑batch_size=1时，Jetson Orin上首token延迟大概1.8秒，但Nano？别想了，光加载模型就得吃掉3.7GB内存。不如试试TinyLlama-1.1B-Chat，我在西双版纳试过，配合RAG查行程表，游客问“明天几点出发”这种高频问题，响应压到600ms内完全可行。

导游老哥真要动手，别一上来就训模型。简单说先拿llama.cpp把FAQ做成向量库，用sentence-transformers本地嵌入，连GPU都不用。我在清迈带团时攒了200多条游客真实提问，清洗后喂给ChromaDB，离线检索准确率比微调小模型还稳——毕竟多数人问的无非是“厕所哪有”“能不能改路线”“这菜辣不辣”。

对了，melody那篇A10显卡的坑我也踩过，后来发现是CUDA 12.1和TensorRT

需要登录后才能回复。[去登录]

回复此帖进入修真世界