10年专注公共卫生服务项目智能化研发 !
公卫体检系统的数据质量直接影响分析结果的可靠性,而数据清洗与去噪是剔除 “脏数据” 的关键步骤。以下是一套简洁易懂的操作流程,帮助系统高效净化数据:
一、明确清洗目标:先定标准,再动手
数据清洗不是 “一刀切”,需先根据业务需求设定清洗规则:
基础规则:如年龄需>0 岁且<150 岁,血压收缩压需在 90-180mmHg 之间,超出范围直接标记为 “待处理”。
业务定制规则:例如糖尿病分析中,空腹血糖>11.1mmol/L 且糖化血红蛋白>6.5% 才判定为 “疑似糖尿病”,单一指标异常需复核。
关键逻辑:先通过规则过滤 “明显错误”,再处理 “模糊异常”,避免过度清洗导致数据失真。
二、六步清洗法:从粗到细,层层过滤
1. 缺失值处理:补漏或舍弃
小范围缺失:
数值型数据:用均值 / 中位数填充;
分类数据:用众数填充。
大范围缺失:直接剔除该字段或样本。
2. 异常值识别:用医学逻辑 “抓 outliers”
统计法:
绘制箱线图,剔除超出 Q3+1.5IQR 或 Q1-1.5IQR 范围的数据;
计算Z-score,绝对值>3 的标记为异常。
医学常识法:
直接排除矛盾数据:如 “年龄 18 岁,诊断为前列腺癌”;
核查逻辑冲突:如 “身高 170cm,体重 50kg,BMI=17.3,但标注‘肥胖’”。
3. 重复值处理:去重留一
按唯一标识字段筛选重复记录,保留最新或完整度最高的一条。
4. 数据一致性校准:统一 “语言”
单位统一:如血压单位有的用 “mmHg” 有的用 “kPa”,需全部转换为 mmHg(1kPa≈7.5mmHg);
分类统一:如 “吸烟史” 字段存在 “是 / 否 / 偶尔 / 经常”,需映射为 “吸烟(是 / 否)”,“偶尔 / 经常” 归为 “是”。
5. 逻辑校验:用规则链排除隐性错误
建立多层规则校验:
第一层:基础格式校验;
第二层:指标关联校验;
第三层:跨表校验。
6. 人工复核:机器之外的 “最后防线”
对机器标记的异常数据,由公卫人员人工核查原始表单:
例:某条记录 “年龄 25 岁,血压 220/110mmHg”,机器标记为异常,人工核对纸质表发现实为 “120/80mmHg”,系录入时误触键盘。
三、清洗效果评估:用指标检验成果
清洗后需验证数据质量是否提升,核心指标:
缺失率:目标<3%;
异常值占比:目标<1%;
逻辑冲突率:目标<0.3%。
四、自动化与标准化:让清洗可持续
建立清洗模板:将常用规则固化为系统默认规则,新数据导入时自动触发清洗流程;
记录清洗日志:详细记录每条数据的清洗操作,便于追溯和审计;
定期更新规则:根据医学指南变化,及时调整清洗规则,避免 “刻舟求剑”。