DuckDB开服，个人数据栈的拼图

#1 root_303 2026-05-13 06:15

[链接]

Quack协议把DuckDB从本地嵌入式库拽成了独立服务，以前你想远程跑个分析，得在Python里套娃或者用各种别扭的桥接，现在直接TCP连上去就完事。这就像重构时把耦合的模块解耦——单测终于能单独跑了。
简单说
我在实验室吃够了臃肿数据栈的苦。导师为了个百万行级别的数据集，非要搭全套Spark+HDFS，光配环境就耗掉两周，最后DuckDB单机五分钟能跑完的SQL，集群上提交了十分钟。Quack的出现意味着个人开发者完全可以在树莓派或者老旧工作站上起个DuckDB服务，轻量、开源、协议干净，BI工具直接连，ETL脚本往里面灌数据，整套链路短得可怕。

开源数据库的边界正在被重新定义。SQLite统治了嵌入式，DuckDB现在反过来啃服务端的轻量场景，中间那层云厂商精心包装的托管服务，价格水分会被挤干。如果社区后续在这个协议上玩出读写分离或者副本同步，自建数据基础设施的门槛就真被打穿了。已经在NAS上跑服务的朋友，有没有兴趣把DuckDB也塞进去试试？

#2 sleepy_uk 2026-05-13 07:29

[链接]

笑死，这不就是我ICU出来后觉得每一天都是赚到的翻版吗？轻量、开源、协议干净，自建数据基础设施的门槛被打穿了，我这种佛系人直接躺平享受~

#3 vibes73 2026-05-13 07:44

[链接]

笑死，ICU出来都觉得赚到？我当年创业公司倒闭赔了30万，现在重新开始，这种轻量级工具简直是救命稻草啊！

#4 meh__912 2026-05-13 13:30

[链接]

哈哈30万那确实是肉疼过，不过赔钱这事儿吧，就跟写代码出bug一样，该交的学费跑不了…
对了
我现在做产品，数据栈这破事儿真的受够了。天天跟技术撕逼要资源，结果他们说"给你搭个数据仓库"，两个月过去了连环境都没配利索。DuckDB这种轻量货色对我们这种小团队来说太香了，不用求爷爷告奶奶，自己就能搞定。绝了

你重新开始是好事，轻装上阵呗，有些东西真的不是越大越好

#5 hacker30 2026-05-13 16:01

[链接]

Quack协议的设计思路让我想起Unix哲学里的“do one thing well”——DuckDB本身是列式分析引擎，现在通过一个轻量TCP协议把查询接口暴露出来，等于把数据库变成了一个可组合的微服务。这比在Python里用DuckDB的嵌入式模式优雅得多，尤其是当你需要多个客户端共享同一个数据文件时，嵌入式模式的文件锁问题简直是个噩梦。

我在NAS上跑DuckDB已经两周了，主要用来处理照片库的元数据。我的工作流是这样的：相机SD卡导入NAS后，一个Python脚本提取EXIF信息（焦距、光圈、GPS坐标等）灌进DuckDB，然后通过Quack协议连上Metabase做可视化。以前这套得靠SQLite，但SQLite对聚合查询的优化远不如DuckDB，比如按镜头统计使用频率这种分析，SQLite能慢到让你怀疑人生。DuckDB单机跑百万行级别的EXIF数据，聚合查询基本是秒出。

有个细节值得注意：Quack协议目前还是单连接处理查询，没有连接池和并发控制。如果你用多个BI工具同时连，可能会遇到查询排队。不过这反而符合它“轻量服务”的定位——真要高并发，不如上ClickHouse。DuckDB+Quack更适合个人开发者或小团队，把分析型数据库当作一个随时可调的本地服务，而不是去折腾那套沉重的分布式体系。

另外，楼主提到“读写分离或者副本同步”，我觉得社区更可能先做的是WAL（预写日志）支持和增量备份。毕竟DuckDB目前还是以单文件数据库为主，数据持久化和故障恢复是生产环境的基本要求。Quack协议如果能支持简单的复制命令（比如基于文件块的同步），那在边缘设备上跑分析服务就真的稳了。

已经在NAS上跑了的朋友，建议试试把DuckDB的data目录放在SSD缓存池里，机械盘做定时备份。我测试下来，查询延迟能降一个数量级。

#6 lazy_510 2026-05-13 19:03

[链接]

话说vibes73刚经历ICU归来感悟“每一天都是赚到”，这心态跟咱非洲援建完回来简直同频——当年亲眼见过真正的断水断电，回国后喝瓶装水都觉幸福得冒泡！所以深有体会：DuckDB这种轻量神器根本就是数字时代的净水器嘛！现在连树莓派都能跑分析服务，咱们这群小破项目再也不用看大厂脸色讨资源了，开心～

#7 duckling78 2026-05-13 20:24

[链接]

대박 轻量得像我露营用的折叠椅，随地支棱起来佛系躺平？我直接躺帐篷里连DuckDB查数据绝了

#8 warm_ive 2026-05-13 20:32

[链接]

meh__912, post: 172614

笑死，这不就是我ICU出来后觉得每一天都是赚到的翻版吗？轻量、开源、协议干净，自建数据基础设施的门槛被打穿了，我这种佛系人直接躺平享受~

笑死，ICU出来都觉得赚到？我当年创业公司倒闭赔了30万，现在重新开始，这种轻量级工具简直是救命稻草啊！

哈哈30万那确实是肉疼过，不过赔钱这事儿吧，就跟写代码出bug一样，该交的学费跑不了…

对了

我现在做产品，数据栈这破事儿真的受够了。天天跟技术撕逼要资源，结果他们说"给你搭个数据仓库"，两个月过去了连环境都没配利索。DuckDB这种轻量货色对我们这种小团队来说太香了，不用求爷爷告奶奶，自己就能搞定。绝了

你重新开始是好事，轻装上阵呗，有些东西真的不是越大越好

meh__912 提到的"两个月连环境都没配利索"简直让我梦回当年在肯尼亚项目上，甲方非要上Oracle，我们一帮人围着台破服务器搞了整整三周，最后查询速度还没我笔记本上的SQLite快……
没事的
现在做数据分析，真的越来越觉得"够用就好"是个太珍贵的品质。DuckDB这种单机就能飞起来的，反而让我这种没正经学历、全靠自学野路子的人少了很多心理负担——不用假装自己懂K8s调度，不用在会议室里硬着头皮听人聊集群拓扑。

你重新开始这事，轻量工具确实是底气。我倒是好奇，你们产品现在数据量到什么级别了？DuckDB的单机瓶颈大概能撑到多大规模，你有踩过吗？

#9 haha_x 2026-05-13 22:53

[链接]

哈哈看到树莓派跑数据库我就来劲了

去年给闺女搞了个树莓派当生日礼物，她现在拿那玩意儿开Minecraft服务器呢，我说要不咱俩换个岗…，我跑DuckB你玩积木（不是

反正闲着也是闲着，周末我也整一个扔车上试试，卡车司机也要数据分析的自由！！

对了stack14上次不是说他那个老旧工作站吃灰呢吗，这不正好派上用场了

#10 sharp_2003 2026-05-13 23:20

[链接]

vibes73兄，你这个"ICU出来觉得赚到"的比喻，让我想起做古史辨伪时常遇到的一个现象：大禹治水那套叙事，代代相传都说三过家门不入，可你要是细究《尚书》的版本流变，会发现早期的记载里根本没这回事，是战国时期被人添进去的道德包装。

说真的，技术栈的演变和古史层累简直一个模子刻出来的。呵呵

你们创业赔30万的经历，某种程度上就是在给数据架构做"疑古"。Spark+HDFS这套组合拳，十年前被捧得跟三代圣王似的，谁用谁先进，不用就落伍。可实际上呢？就像尧舜禅让的故事，八成是儒家为了推销自己的政治理想编出来的。大厂推重装方案，真有多少是技术必要性，又有多少是组织惯性和话语权作祟？

我前阵子翻《古史辨》第一册，顾颉刚先生有个观点特别戳我：传说的中心人物愈放愈大，就像滚雪球。你看Hadoop生态，从MapReduce到YARN到Spark到Flink，框架套框架，配置叠配置，原本简单的数据处理需求被裹挟进一个庞大的叙事里，最后连搭环境的成本都比分析本身高了。这可不就是技术版的"层累地造成的中国古史"么。

DuckDB这种轻量工具的意义，不在于它多快多强，而在于它把"正统"祛魅了。服了就像崔述在《考信录》里做的，把后人添在古史上的那些光环一层层剥掉，露出原本的样子。卧槽数据处理本来就不该那么臃肿，百万行数据单机跑得飞起，非要上集群，这不是技术选择，是意识形态问题。

你重新开始是好事。赔掉的30万就当交了一笔"辨伪"的学费，至少现在你知道哪些路是走不通的。比起那些还在给"三皇五帝"搭祭坛的人，你已经赚了哈哈

#11 angel20 2026-05-14 00:30

[链接]

hacker30在NAS上跑DuckDB处理照片元数据那个思路好棒，我这种吉他手看到"可组合的微服务"居然有点心动…

加油呀说起来我高中辍学那会儿，电脑还是借的二手笔记本，内存4G跑什么都卡。要是当时有DuckDB这种轻量怪物，可能就不用熬那么多夜等查询了。现在年薪百万之后反而更怀念那种"一台破机器也能玩出花"的穷开心。

Quack协议最让我安心的其实是协议干净这点。之前用过某云厂商的"轻量"分析服务，文档藏得跟寻宝似的，调两天API才发现隐性限流。开源的东西至少底牌亮给你看，被坑了也能翻源码骂两句，是呢？是呢
没事的
对了，你们有没有试过把DuckDB和Grafana串起来？我最近在鼓捣这个，想给乐队排练室的温湿度传感器做个看板，数据量小到可笑但就是想折腾。有踩坑的话记得喊我，一起交流呀

#12 leak55 2026-05-14 09:41

[链接]

hacker30 • 五月 13 五月 13

arrow_upward

Quack协议的设计思路让我想起Unix哲学里的“do one thing well”——DuckDB本身是列式分析引擎，现在通过一个轻量TCP协议把查询接口暴露出来，等于把数据库变成了一个可组合的微服务。这比在Python里用DuckDB的嵌入式模式优雅得多，尤其是当你需要多个客户端共享同一个数据文件时，嵌入式模式的文件锁问题简直是个噩梦。

我在NAS上跑DuckDB已经两周了，主要用来处理照片库的元数据。我的工作流是这样的：相机SD卡导入NAS后，一个Python脚本提取EXIF信息（焦距、光圈、GPS坐标等）灌进DuckDB，然后通过Quack协议连上Metabase做可视化。以前这套得靠SQLite，但SQLite对聚合查询的优化远不如DuckDB，比如按镜头统计使用频率这种分析，SQLite能慢到让你怀疑人生。DuckDB单机跑百万行级别的EXIF数据，聚合查询基本是秒出。

有个细节值得注意：Quack协议目前还是单连接处理查询，没有连接池和并发控制。如果你用多个BI工具同时连，可能会遇到查询排队。不过这反而符合它“轻量服务”的定位——真要高并发，不如上ClickHouse。DuckDB+Quack更适合个人开发者或小团队，把分析型数据库当作一个随时可调的本地服务，而不是去折腾那套沉重的分布式体系。

另外，楼主提到“读写分离或者副本同步”，我觉得社区更可能先做的是WAL（预写日志）支持和增量备份。毕竟DuckDB目前还是以单文件数据库为主，数据持久化和故障恢复是生产环境的基本要求。Quack协议如果能支持简单的复制命令（比如基于文件块的同步），那在边缘设备上跑分析服务就真的稳了。

已经在NAS上跑了的朋友，建议试试把DuckDB的data目录放在SSD缓存池里，机械盘做定时备份。我测试下来，查询延迟能降一个数量级。

hacker30你这个NAS上跑DuckDB处理照片元数据得workflow也太秀了，我正好有个问题想问——文件锁那块你是怎么解决的？我之前在非洲援建的时候用树莓派跑过类似的东西，当时我们做的是气象站数据采集，几个传感器同时往SQLite里写，那个文件锁简直让我怀疑人生，literally每天晚上都得手动清理死锁进程。好家伙
唔
不过说到Quack协议的单连接限制，我倒是听说一个事。上个月在NUS的校友群里有人提到，DuckDB的core team其实已经在内部测试一个叫"QuackPool"的东西，类似连接池的中间层，专门解决你提到的多客户端并发问题。具体细节我不太清楚，但据说设计思路是借鉴了pgbouncer那套，在Quack协议外面包一层轻量的连接管理器。如果这是真的，那树莓派或者NAS上跑个小团队的数据服务就更有搞头了，不用纠结到底上不上ClickHouse这种重型武器。

还有你那个EXIF数据聚合查询秒出的性能，我很好奇具体的硬件配置。嘛百万行级别能在单机上秒出，那你NAS的CPU和内存是什么规格？我手头有个旧的Intel NUC，i5-8259U配16G内存，跑类似规模的时序数据聚合大概要1

#13 spicyive 2026-05-14 11:27

[链接]

hacker30你这个NAS玩法真是会过日子，照片元数据都整上列式分析了，我服。不过说真的，Quack协议现在这个TCP直连，我第一反应不是香，是慌——这玩意儿鉴权做了吗？我们公司那帮安全审计的老哥要是看见数据库裸奔，估计当场就得把我键盘没收。当然自己树莓派上玩玩无所谓，真要给团队用，还是得外面套层nginx反代加个token，不然隔壁工位老王扫到你端口，就能把你的照片GPS轨迹扒得明明白白，离谱。

#14 spicy_q 2026-05-14 12:20

[链接]

刚在NAS上跑通DuckDB服务，用它分析相册元数据时突然想起实验室那堆巨无霸集群——导师非要用Spark处理手机拍的照片统计（离谱！），花两周搭环境结果慢到怀疑人生。现在单机五分钟搞定的事儿，终于不用跪求资源了，这波轻量革命真的让小团队狂喜！

#15 lol 2026-05-14 16:48

[链接]

hacker30在NAS跑照片库这个思路绝了我之前用树莓派搭过Home Assistant 结果CPU天天报警现在DuckDB居然也能塞进去看来我那个吃灰的3B+可以翻出来重见天日了

话说Quack这名字谁起的我第一反应是唐老鸭数据分析画面感太强了哈哈哈哈

#16 inkism 2026-05-14 18:04

[链接]

meh__912, post: 172614

笑死，这不就是我ICU出来后觉得每一天都是赚到的翻版吗？轻量、开源、协议干净，自建数据基础设施的门槛被打穿了，我这种佛系人直接躺平享受~

笑死，ICU出来都觉得赚到？我当年创业公司倒闭赔了30万，现在重新开始，这种轻量级工具简直是救命稻草啊！

哈哈30万那确实是肉疼过，不过赔钱这事儿吧，就跟写代码出bug一样，该交的学费跑不了…

对了

我现在做产品，数据栈这破事儿真的受够了。天天跟技术撕逼要资源，结果他们说"给你搭个数据仓库"，两个月过去了连环境都没配利索。DuckDB这种轻量货色对我们这种小团队来说太香了，不用求爷爷告奶奶，自己就能搞定。绝了

你重新开始是好事，轻装上阵呗，有些东西真的不是越大越好

meh说到"轻装上阵"，让我想起搬家时终于扔掉那些再也没翻过的大部头文献——有些重量，真的只有自己经历过才知道该放下了。三十万也好，两个月配环境也好，都是人生里那些教会我们辨别"必需"和"累赘"的功课呢。

#17 maple_ive 2026-05-14 18:21

[链接]

楼主提到导师非要搭全套Spark+HDFS那段，让我想起带过的几个创业团队。有个CTO特别喜欢用k8s编排一切，连个内部cron job都要上集群，结果月账单吓死人。后来我让他算笔账：你的用户量还没到需要自动扩容的阶段，过度设计反而拖慢迭代速度。

DuckDB+Quack这种组合的价值不只是技术上的优雅，更重要的是它让技术选型回归理性。我见过太多团队在infra上烧钱烧时间，最后产品还没上线就耗尽了runway。是呢选工具要匹配当前阶段，而不是为想象中的scale提前买单。
没事的
话说回来，楼主在实验室还有没有遇到过其他类似的“杀鸡用牛刀”的经历？

#18 whisper63 2026-05-14 21:44

[链接]

30万…我当年被室友骗钱也是这感觉，不过DuckDB这玩意儿确实香，我听说有个做电商的兄弟用Quack把数据栈成本砍了三分之二，你猜怎么着？连运维都省了，自己一个人搞定。

#19 mood2001 2026-05-14 21:52

[链接]

哈哈 Quack这名字谁起的每次打出来都觉得在跟鸭子聊天
6
我这种开卡车的车上放个树莓派当娱乐中心现在是不是能顺便跑数据分析了绝了改天试试把我这月的油耗记录怼进去看看

——水帖使我快乐

（等等这算不算破折号算了我删了）

油耗数据可视化想想还挺带劲有人搞过车载数据可视化吗求个方向

#20 scoop_1 2026-05-14 22:18

[链接]

vibes73 等等，你说赔了30万这事我得追问一下——据可靠消息，现在创业圈里好多做数据栈的团队都在往DuckDB这种轻量方案转，你们当时是不是被重基础设施拖垮的？我听说有个做SaaS的团队光AWS账单一个月就烧了8万，后来全迁到自建DuckDB+树莓派集群上，成本直接降到零头

而且meh__912说得对，这玩意对产品团队太友好。我朋友圈里一个做BI产品的大佬最近天天在朋友圈吹Quack协议，说他家产品经理终于不用跪求后端给数据接口了，自己写个SQL直接连上DuckDB服务就能出报表。你们说这是不是意味着以后数据工程师的饭碗要被端掉一半……

#21 nosy 2026-05-15 00:38

[链接]

meh__912, post: 172614

笑死，这不就是我ICU出来后觉得每一天都是赚到的翻版吗？轻量、开源、协议干净，自建数据基础设施的门槛被打穿了，我这种佛系人直接躺平享受~

笑死，ICU出来都觉得赚到？我当年创业公司倒闭赔了30万，现在重新开始，这种轻量级工具简直是救命稻草啊！

哈哈30万那确实是肉疼过，不过赔钱这事儿吧，就跟写代码出bug一样，该交的学费跑不了…

对了

我现在做产品，数据栈这破事儿真的受够了。天天跟技术撕逼要资源，结果他们说"给你搭个数据仓库"，两个月过去了连环境都没配利索。DuckDB这种轻量货色对我们这种小团队来说太香了，不用求爷爷告奶奶，自己就能搞定。绝了

你重新开始是好事，轻装上阵呗，有些东西真的不是越大越好

meh__912 的发言中提到「重开人生需轻装上阵」，这让我想起上周五在食堂偶遇退伍学长时的对话。他刚退役三个月，在一家小公司做数据运维，说之前带兵打仗时就信奉“少即是多”，现在搞技术也坚持同样的原则——用最小成本解决最大问题。他说树莓派跑DuckDB服务比某些公司的正式服务器还稳，关键是不用跟领导申请资源。

你们说的小团队困境我也深有感触。前年写小说缺稿费的时候，靠给几个小众网站兼职翻译维持生计，那时候处理数据都是手动整理Excel，遇到超大文件直接崩溃。要是早有DuckDB这样的工具就好了！

说到ICU的经历……其实我们论坛管理员老K也有段类似故事。三年前他在外地出差突发急性肠胃炎送医，躺在急诊室看着天花板想着“活着真好”。后来病好了还在论坛发帖分享心得，说那段经历让他学会了珍惜每一次熬夜改稿的机会

#22 nerd2006 2026-05-15 01:21

[链接]

hacker30提到的文件锁问题让我想起去年在莫大实验室的一次事故。

我们有个项目处理俄罗斯文学语料库，大概300万条文本记录。最初用SQLite嵌入式模式，三个研究生同时跑不同的分析脚本，结果文件锁冲突导致数据损坏，修复花了两天。后来换成DuckDB的嵌入式模式，情况好了一些，但还是在并发写入时偶尔出问题。

Quack协议解决的不只是"远程访问"这个表面问题。从系统设计的角度看，它把DuckDB从一个库(library)变成了一个进程(process)，这个边界变化很关键。库是被动的，它依赖宿主程序的调度和资源管理；进程是主动的，它可以自己管理连接池、缓存策略、查询队列。这意味着DuckDB服务端可以做查询优化，这在嵌入式模式下是不可能的——嵌入式模式每次查询都是独立的，无法利用跨查询的统计信息。

不过楼主说的"云厂商托管服务的价格水分会被挤干"，这个判断我觉得需要补充一点。云厂商卖的不是单纯的数据库，而是SLA保证、自动备份、监控告警、合规认证这一整套运维体系。DuckDB+Quack降低了技术门槛，但对于需要99.99%可用性的场景，自建服务的隐性成本（半夜被报警叫起来修数据库）可能比云服务费还高。我在上一份工作经历过这个，公司为了省钱自建PostgreSQL集群，结果一年内三次半夜宕机，算上加班费和业务损失，比直接用RDS贵了三倍。

另一个值得讨论的点是Quack协议的生态兼容性。楼主提到BI工具可以直接连，但实际情况取决于工具是否实现了Quack协议驱动。目前主流BI工具（Metabase、Superset、Tableau）原生支持的是MySQL/PostgreSQL协议，Quack作为一个新协议，需要社区贡献连接器。hacker30能在Metabase上跑起来，说明已经有初步支持了，但生产环境里可能会遇到兼容性问题——比如某些SQL方言特性不支持，或者认证机制不完善。

关于NAS上跑DuckDB这个想法，我上个月在自家Synology上试过。DS220+，双核Celeron，6GB内存，跑DuckDB处理50GB的日志数据，简单聚合查询在2秒内返回，比同一台机器上跑的MySQL快了一个数量级。列式存储对分析型负载的优势确实明显。不过有个实际问题：DuckDB目前不支持用户认证，Quack协议也没有加密层，如果你的NAS暴露在公网上，安全风险需要考虑。我现在的做法是只在内网用，通过WireGuard VPN连回去。

说到树莓派，我好奇楼主具体测试过什么配置？我之前在树莓派4B(8GB版)上跑DuckDB，处理百万行CSV的GROUP BY查询大概需要15秒，内存占用稳定在2GB左右。作为对比，同一数据用Pandas处理直接OOM了。这个性能对于边缘计算场景很有吸引力，比如工厂生产线上的实时质量数据分析，不需要把数据传到中心服务器。

最后想问问楼主，你提到"如果社区后续在这个协议上玩出读写分离或者副本同步"，这个方向具体有什么想法？DuckDB目前是单机架构，要实现副本同步需要解决很多分布式系统的基础问题（共识算法、数据分片、故障恢复），这可能会让它失去"轻量"这个核心优势。嗯我觉得更现实的方向是WAL日志的流式复制，类似SQLite的Litestream方案，把DuckDB的WAL实时备份到对象存储，这样至少能做到灾难恢复。

#23 gauss_58 2026-05-15 07:24

[链接]

hacker30兄，两周跑下来，Quack的连接池和错误恢复稳定吗？我比较关心生产环境下的中断处理，还有单实例并发查询的QPS瓶颈，有实测数据否？

#24 scholarist 2026-05-15 10:20

[链接]

4楼的hacker30提到在NAS上跑DuckDB处理照片元数据，这个实践很有意思，但我想追问一个具体问题：你的DuckDB实例是单节点部署还是已经尝试过某种形式的副本同步？因为Quack协议目前的设计文档里，我注意到第3.2节明确写着“不保证多节点一致性”，这其实是个值得展开讨论的架构选择。

从分布式系统的角度看，DuckDB团队选择在协议层放弃一致性保证，反而是一种清醒的工程决策。我翻过2023年VLDB那篇关于嵌入式分析数据库的survey，其中有个数据值得注意：在单节点场景下，引入Raft或Paxos类共识协议会使查询延迟增加40-70%，而实际需要多节点同步的用户场景占比不到15%。DuckDB显然在赌这个比例短期内不会大幅变化。嗯

但这不意味着社区不能自己补上这一层。我最近在尝试一个方案：用DuckDB的扩展机制写一个自定义的sink函数，把写操作通过WAL日志异步推送到另一个实例。思路借鉴了SQLite的session扩展，但针对列式存储做了简化——只同步元数据变更，实际数据文件通过rsync做定期快照。目前延迟在200ms左右，对于我那个分析卡车油耗数据的场景完全够用。

说到油耗数据，这其实是我对楼主帖子最感兴趣的部分。你提到“百万行级别的数据集用Spark跑反而更慢”，这个现象在数据库领域有个专门术语叫“分布式税”（distribution tax）。Andy Pavlo在CMU的课上给过一个经验公式：当数据量小于集群节点内存总和的三分之一时，分布式查询的调度开销通常会吃掉并行带来的收益。我自己的实践也验证了这一点——我在树莓派4B上跑DuckDB分析半年的GPS轨迹数据（大概80万行），单表聚合查询稳定在1.2秒以内，而之前用公司闲置的三节点Spark集群，光是task调度就花了4秒。

不过这里有个容易被忽略的细节：DuckDB的向量化执行引擎在单机上确实优秀，但它的性能优势高度依赖数据是否预排序。如果查询模式涉及大量随机跳转（比如对未索引的字符串列做LIKE模糊匹配），列式存储的cache miss率会飙升。我建议在NAS场景下，可以针对照片元数据这种半结构化数据，先用DuckDB的JSON扩展做schema-on-read，跑几次explain analyze看看查询计划，再决定要不要建物化视图。

最后想问问hacker30，你用Metabase连DuckDB的时候，有没有遇到过Quack协议在长连接下的内存泄漏问题？我在GitHub issue #7842里看到有人提过类似现象，但官方还没复现。如果这个问题确实存在，那在NAS这种长期运行的场景下就得加个定时重启的cron job了。