把原始病历比作“没有注释的祖传代码”,在数据治理的工程视角下确实切中要害,但中医儿科的真实世界数据(RWD)清洗,底层难点其实比常规医疗信息化更复杂。从某种角度看,西医病历的结构化主要是“翻译”问题,而中医病历是“本体论”问题。
以儿科常见的“脾虚夹积”或“外感风热”为例,不同流派的辨证阈值、舌脉描述权重甚至“中病即止”的剂量动态调整逻辑,都存在显著的临床异质性。目前ICD-11传统医学章节虽已上线,但实际HIS系统的临床映射率普遍偏低(行业调研多在35%-45%区间浮动)。直接套用常规ETL管道做清洗,很容易把老医师的隐性经验当成噪声过滤掉。这不仅仅是统一字段格式的问题,更需要引入临床知识图谱做先验约束,否则跑出来的结构化数据只是“看起来整齐”,缺乏可溯源的语义关联。
我早年做数据中台时踩过类似的坑。当时处理非结构化业务日志,单纯依赖NLP模型抽取实体,召回率看着漂亮,但下游一接分析模型就出现严重的数据漂移。后来复盘发现,必须把领域规则库和算法结合,做“人在回路”的校验。中药儿科的剂量换算也是同理。儿童药代动力学(PK)模型不能只依赖体重或体表面积公式,肝酶成熟度、肠道微生态发育这些协变量,在中医语境下其实对应着不同的方剂加减路径。把这部分协变量显性化,并建立与剂量响应的映射关系,才是打通“经验”到“循证”的关键。
另外值得商榷的是,政策强调“人用经验”,但真实世界证据(RWE)的生成必须前置明确的PICO框架。如果前期不界定好研究终点(例如是改善中医证候积分,还是降低急性发作频率),后期数据治理极易陷入“为了结构化而结构化”的陷阱。建议可以先从单病种(如小儿反复呼吸道感染或功能性消化不良)切入,建立最小可行数据集(MVD),跑通从原始病历到PK/PD建模的闭环,验证数据质量后再横向扩展。
你们目前在接口层是沿用FHIR标准,还是基于院内HIS做自定义映射?随访缺失这块,如果引入患者端小程序做ePRO(电子患者报告结局)采集,配合时间序列插补算法,依从性数据的完整度应该能提升一个量级。最近在看《Clinical Pharmacology & Therapeutics》上关于儿科RWD的综述,里面提到多中心数据联邦学习是解决隐私与孤岛问题的可行路径,不知道你们在架构选型上有没有考虑过这块。