数据信息
数据简介
本数据集为阿尔茨海默症住院患者真实世界临床诊疗文本数据集,聚焦于疑似或确诊阿尔茨海默病患者的完整住院诊疗过程。本数据集涵盖了2021年12月31日至2025年12月1日期间,深圳市宝安区人民医院神经内科、老年科及综合内科等科室收治的约260例患者的原始临床记录,包括入院记录、病程记录、手术信息、出院小结等非结构化/半结构化中文文本,以及对应的脱敏患者ID、入院日期、检查检验结果等结构化字段。在此基础上,生成了以患者为中心的多元化临床数据。通过分析评估阿尔茨海默病患者在真实住院场景中的症状描述演化模式、共病记录习惯及诊疗叙事结构等维度,可帮助深入理解中文医疗语境下神经认知障碍的临床表征规律,为构建面向中文临床文本的自然语言处理基准、疾病表型挖掘方法及真实世界疾病描述体系提供高质量语料支撑,进而推动人工智能在老年神经退行性疾病观察性研究与知识发现中的应用。
数据处理规则说明
数据采集:系统部署于医院中心机房,通过医院信息系统(HIS)与电子病历(EMR)系统的标准化接口,自动抽取神经内科、老年科等科室收治的阿尔茨海默病患者的住院诊疗数据。原始数据包括患者基本信息、非结构化中文临床文本(如入院记录、病程记录、出院小结等)及部分结构化字段(如检验检查结果等)。数据处理:采用 MySQL 数据库存储,通过患者唯一主键实现跨表关联。对原始数据进行标准化清洗,剔除空值过多的记录,并实施严格脱敏:敏感信息(如姓名、身份证号)经匿名化与去标识化处理,以代号替代,最大限度降低信息泄露风险,保障患者隐私与数据安全。按功能分类存储患者基础信息表、诊断与基础病表、治疗与手术表、病史与过敏史表、检验报告表和检查报告表。数据分析:依托 DeepSeek R1 大模型,结合深度学习推理与医学领域提示词工程,对临床文本进行语义解析,自动识别认知障碍相关临床特征与风险因素,智能生成结构化的疾病表型摘要、严重程度评估及个性化随访建议,为阿尔茨海默病的真实世界研究与AI辅助临床分析提供高质量中文数据支撑。
应用场景描述
适用条件:研究或应用需基于真实世界住院患者的临床文本数据; 应用目标聚焦于疾病早期识别、临床分型、诊疗模式挖掘或临床决策支持等。
适用范围:疾病领域,阿尔茨海默病及相关认知障碍;数据类型,非结构化/半结构化中文临床文本(如主诉、现病史、初步诊断、医嘱、首次病程记录)与关键结构化字段(年龄、住院天数、出院科室,检查检验结果等)。
适用对象:医学人工智能研究人员;临床神经病学、老年医学等临床科研人员。
可解决的主要问题:提升早期识别能力,从临床自由文本中挖掘量表未覆盖的细微症状,助力阿尔茨海默病早筛;支持疾病精准分型,基于病史和医嘱,识别遗忘型、语言型等AD亚型;填补中文数据空白,构建面向中国基层三甲医院的AD临床文本资源;辅助智能诊疗工具开发,为病历质控、诊断一致性分析和临床决策支持提供数据基础。
样例数据
患者唯一标识ID 性别 年龄 身高(M) 体重(KG) 科室 入院途径 入院时间
0001 男 91岁 无法测量 无法测量 EICU(急诊监护病房) 急诊 2021-12-31 00:00:00
0002 男 89岁 1.72 无法测量 建安院区全科医学科 急诊 2022-01-03 00:00:00
0003 男 88岁 1.68 60 神经内科 门诊 2022-01-20 00:00:00
患者唯一标识ID 主要诊断 其他诊断是否含阿尔茨海默症 其他诊断 是否脑卒中 病例分型
0001 脓毒性休克(感染性休克) 是 泌尿道感染^肾功能不全^2型糖尿病^脑梗死后遗症^高尿酸血症^阿尔茨海默病性痴呆^坠积性肺炎^前列腺增生^胸椎骨折 否 危重
0002 社区获得性肺炎 是 阿尔茨海默病^上消化道出血^高血压病2级(高危)^高血压性心脏病^胆囊结石^肝囊肿^低钠血症^切口愈合不良^ 否 危重
0003 短暂性脑缺血发作 是 高血压病1级(极高危)^阿尔茨海默病(老年型)^重度耳聋^多发性大脑动脉狭窄^白内障^缺血性视神经病变^前列腺癌^颈动脉粥样硬化^高同型半胱氨酸血症 否 疑难
附件下载
数据结构样例
本数据集涵盖患者诊疗核心环节,共包含6张数据表,所有表均通过 患者唯一标识ID 进行关联。
1. 患者基础信息表
记录患者人口学与入院信息,核心字段包括:患者唯一标识ID(主键)、性别、年龄、身高、体重、入院科室及入院时间。
2. 诊断与基础病表
记录患者诊断信息,核心字段包括:主要诊断、其他诊断是否含阿尔茨海默症(关键筛选字段)、其他诊断、是否脑卒中(重要共病)及病例分型。
3. 治疗与手术表
记录住院过程与干预措施,核心字段包括:住院天数、手术名称与日期、手术记录、离院方式及抢救次数。
4. 病史与过敏史表
记录临床文书与病史摘要,核心字段包括:主诉、现病史、既往史、药物过敏史及各类病程记录(首次病程记录、出院记录等)。
5. 检验报告表
记录实验室检验结果,采用“项目-细项-结果”结构,核心字段包括:检验项目、检验细项、检验结果、单位及参考值。
6. 检查报告表
记录影像等检查项目,核心字段包括:检查项目与检查细项。
该结构以通用临床事件为主线,为从海量住院数据中筛选与分析阿尔茨海默症病例提供了基础框架。