医疗大数据挖掘与可视化

978-7-115-61574-9
作者: 赵杰何贤英
译者:
编辑: 贾鸿飞

图书目录:

详情

普及医疗大数据挖掘与可视化技术,对提升医疗行业数据的质量与处理效率、实现数据价值的最大化、推动精准医疗深入应用有着重要的作用。 本书内容立足于医疗大数据的挖掘与可视化,分为总体篇、数据挖掘篇、可视化篇、应用篇等5部分,共10章,包含医疗大数据及其平台的发展概况,医疗大数据的采集、清洗、融合,医疗大数据挖掘概述、工具与方法,医疗大数据可视化概述、工具与方法,以及用实例展示医疗大数据分析平台的设计与使用方法等。

图书摘要

版权信息

书名:医疗大数据挖掘与可视化

ISBN:978-7-115-61574-9

本书由人民邮电出版社发行数字版。版权所有,侵权必究。

您购买的人民邮电出版社电子书仅供您个人使用,未经授权,不得以任何方式复制和传播本书内容。

我们愿意相信读者具有这样的良知和觉悟,与我们共同保护知识产权。

如果购买者有侵权行为,我们可能对该用户实施包括但不限于关闭该帐号等维权措施,并可能追究法律责任。

版  权

主  编  赵 杰 何贤英

副 主 编 王琳琳 马倩倩 崔芳芳

责任编辑 贾鸿飞

人民邮电出版社出版发行  北京市丰台区成寿寺路11号

邮编 100164  电子邮件 315@ptpress.com.cn

网址 http://www.ptpress.com.cn

读者服务热线:(010)81055410

反盗版热线:(010)81055315

内 容 提 要

普及医疗大数据挖掘与可视化技术,对提升医疗行业数据的质量与处理效率、实现数据的价值最大化、推动精准医疗深入应用有着重要的作用。

本书内容立足于医疗大数据的挖掘与可视化,分为总体篇、数据基础篇、数据挖掘篇、可视化篇、应用篇等5个部分,共10章,包含医疗大数据及其平台的概述,医疗大数据的采集、清洗、融合,医疗大数据挖掘概述、工具与方法,医疗大数据可视化概述、工具与方法,以及用实例展示医疗大数据可视化分析平台的设计与使用方法等内容。

本书结构清晰,图文并茂,从实际应用角度探讨医疗大数据与数据挖掘及可视化技术的深度结合,适合从事医疗大数据相关工作的读者阅读,也适合作为高校相关专业学生的参考书。

本书编委会

主编

赵杰 何贤英

副主编

王琳琳 马倩倩 崔芳芳

编委(按姓氏笔画排序)

马倩倩 王文超 王 琳 王琳琳 石小兵 叶 明 任晓阳 刘冬清

李陈晨 李明原 杨 红 何贤英 范兆函 赵 杰 高景宏 黄山松

黄国书 崔芳芳 谭中科

前  言

医疗大数据已是当下重要的基础性战略资源。前所未有的海量医疗数据为现代医学的发展带来了机遇,为发现疾病本质规律、生命知识奠定了数据基础,也对数据价值的挖掘提出了挑战。面对复杂而庞大的医疗数据,进行高效的挖掘与可视化是促进现代医学发展的重要手段,也是进行精准医疗必不可少的环节。在信息化飞速发展和“数据大爆炸”的时代,主动学习数据挖掘与可视化技术,善于将其应用于医疗大数据的处理和分析,是新一代医疗工作者应具备的职业技能之一。

本书旨在厘清医疗大数据挖掘与可视化技术各个环节的内涵、关键技术、流程和实用工具的应用等,推广和普及医疗大数据挖掘与可视化技术,进而提升医疗大数据处理的质量与效率,实现医疗数据的价值最大化,推动精准医疗在疾病“防诊治”中的深入应用。本书由总体篇、数据基础篇、数据挖掘篇、可视化篇、应用篇5个部分组成,共10章。总体篇对医疗大数据及医疗大数据平台进行概述;数据基础篇介绍医疗大数据采集、清洗、融合等数据处理前期的基础准备过程;数据挖掘篇介绍医疗大数据挖掘的相关概念、原理与应用,并系统总结医疗大数据挖掘所用的工具与方法;可视化篇主要讲解医疗大数据挖掘与研究结果的可视化技术,并对可视化的流程与设计、常用工具与方法等进行详细介绍;应用篇以医疗大数据可视化分析平台为例,展现相关技术的实际应用。

本书独特之处在于将医疗大数据与数据的挖掘和可视化技术深度结合,从医疗大数据本身出发,探讨适用于医疗大数据挖掘与可视化的工具和方法,为医院、高校等的科研人员,医学或数据科学相关专业的学生,从事医疗或数据科学相关工作的技术人员,以及医疗大数据挖掘与可视化爱好者提供可读性高、操作性强的参考,本书也可帮助医疗工作者掌握医疗大数据挖掘与可视化技术,更深入地开展疾病的个性化诊疗,用新思路解决医学难题。

本书得到了中央引导地方科技发展资金项目、国家超级计算郑州中心创新生态系统建设科技专项(201400210400)、河南省高等学校重点科研项目(22A330004)、河南省科技攻关计划项目(222102310178)、河南省医学科技攻关计划项目(LHGJ20210360、LHGJ20210313、LHGJ20200331、LHGJ20210349)的支持,由互联网医疗系统与应用国家工程实验室组织编写。在编写本书的过程中,编者参考了国内外医疗大数据和医疗人工智能相关的研究成果、应用现状与先进理念,感谢相关专家、学者的研究与著作给予编者启示。另外,在此谨对支持本书编写的领导与专家致以衷心的感谢。

医疗大数据挖掘与可视化技术涉及临床医学、计算机科学与技术、统计学等多个学科,正处于快速发展阶段。由于编者水平有限,书中难免存在不妥和疏漏之处,敬请业界同人和广大读者不吝指正,发送电子邮件至jiahongfei@ptpress.com.cn,以帮助本书渐臻完善。编者亦会实时关注行业发展趋势,不断学习与总结,与时俱进。未来,我们希望能与国内外医疗大数据领域的专家携手奋进,做出更好的成绩,使更多的人享受到医疗大数据带来的益处。

编者

2023年6月

第1部分 总体篇

第1章 医疗大数据概述

1.1 大数据概述

1.1.1 大数据基础知识

1.大数据定义

2008年Nature出版专刊Big Data,首次提出名词“大数据”[1]。2011年Science推出关于数据处理的专刊Dealing with Data[2]。大数据自提出至今得到各界高度关注,但其定义学术界尚未达成共识,目前主要为从内涵和外延进行的定性描述。

(1)技术分析角度。这一类定义重点关注的是对海量、复杂的数据进行分析、处理,从而获得信息和知识的技术手段。其中较为权威的观点来自麦肯锡全球研究院(McKinsey Global Institute,MGI)所发表的《大数据:下一个创新、竞争和生产力的前沿》,其提出:“大数据”是指无法在一定时间范围内用常规软件工具进行捕捉、存储、管理和分析的数据集合。维基百科将其定义为利用常用软件工具捕获、管理和处理数据所耗时间超过可容忍时间的数据集。徐宗本院士在第462次香山科学会议上的报告中,将大数据定义为不能集中存储并且难以在可接受时间内分析、处理,其中个体或部分数据呈现低价值性而数据整体呈现高价值性的海量、复杂数据集。综合此类观点来看,一是大数据是一种难以处理的大规模数据集,二是需要特定的技术才能完成其采集、分析、应用等。

(2)大数据应用价值角度。这一类定义强调大数据的应用,关注的是从数据中获取有价值的信息和知识,最终目的是建立商业方面的竞争优势甚至是创新商业模式。高德纳咨询公司(Gartner Group)曾提出:大数据是需要新处理模式赋予更强的决策力、洞察力和流程优化能力来适应海量、高增长率和多样化等特征的信息资产。哈佛大学访问学者徐晋在《大数据经济学》中指出,大数据是指存在价值关联的海量数据。其本质是社会经济的离散化解构和全息化重构,表现为行业间海量数据的关系从量变到质变的转变,即深度挖掘。《促进大数据发展行动纲要》中指出,大数据是以容量大、类型多、存取速度快、应用价值高为主要特征的数据集合,其相关技术正快速发展为对数量巨大、来源分散、格式多样的数据进行采集、存储和关联分析,从中发现新知识、创造新价值、提升新能力的新一代信息技术和服务业态。

(3)大数据对社会发展影响角度。这一类定义强调大数据对人类社会生产和生活方式、思维范式等产生的重大影响,认为大数据开启了人类发展的新阶段,并且认为这种范式的影响是持久而深远的。英国数据科学家维克托·迈尔-舍恩伯格(Viktor Mayer-Schönberger)及肯尼斯·库克耶(Kenneth Cukier)在出版的《大数据时代》中提出,大数据是人们获得新的认知、创造新的价值的源泉,大数据还是改变市场、组织结构的方法。哈佛大学定量社会学研究所主任盖瑞·金(Gary King)在名为“Why ‘Big Data’ Is a Big Deal”的演讲中指出,大数据技术是一场“大数据革命”(Big Data Revolution),给政府管理、学术研究及商业活动带来了很多颠覆式变革。他认为,大数据技术将触及任何一个领域,其改变的不仅仅是信息生产力,更是信息生产关系。

虽然以上关于大数据定义的方式、角度以及侧重点不同,但是所传递的信息基本一致,即大数据归根结底是由数量巨大、结构复杂、类型众多的数据构成的数据集,其特性是无法使用传统的数据管理以及处理技术,其本质是“信息爆炸时代”对数据的核心价值再挖掘。

2.大数据特征

最初不同的学者对大数据的特征进行归纳和阐述,认为大数据满足“3V”的特征,即规模性(Volume)、高速性(Velocity)、多样性(Variety)[3]。后来也有学者提出价值性(Value)作为第4个特征。

(1)规模性:指数据量极大。根据国际数据公司(International Data Corporation,IDC)的估测,数据以每年50%的速度增长,即每两年就增长一倍(大数据摩尔定律)。

(2)高速性:指数据产生和更新的速度很快,大数据的产生、传输、更新速度快,是一个快速的动态过程。在“大数据时代”,从数据的生成到消耗,时间窗口非常小,需要对数据进行实时分析与处理,在秒级完成万亿张表的聚合查询,以实现实时推荐、交互查询以及决策等场景。

(3)多样性:包括来源多样化、形态多样化、格式多样化以及表达多样化等特点。大数据不仅包括文本数据,还包括图像、视频以及音频等多媒体数据。大数据由非结构化数据、结构化数据以及半结构化数据组成。大部分为非结构化数据,其与人类信息密切相关。

(4)价值性:指数据价值稀疏,犹如浪里淘沙却又弥足珍贵。大数据虽然多,但价值密度非常低。以视频为例,在连续不间断的监控中,可能有用的数据时长仅一两秒。例如,若基于用户发送的微博评估其信用水平,大部分微博未必能提供有效信息。大数据虽然价值密度低,但商业价值高。大数据中隐藏了具有高价值的信息,这些信息需要通过机器学习与数据挖掘方法才可能提取到。

以医院电子病历数据为例,它是典型的大数据。首先,电子病历数据量大。以一个小规模城市的数家医院形成的区域医疗系统为例,每天门诊量和住院患者数都在数万人以上,每人每次的病历、检验数据可达到几个GB,因此每天的数据都在几个TB甚至数十个TB以上。其次,电子病历数据的更新速度快。每天在线检查、化验的人数快速增加,其数据也在快速更新。然后,电子病历数据包括文本、图像和视频等多类型数据。最重要的是电子病历数据中隐藏着极有价值的医疗和医学信息。通过数据挖掘方法可以挖掘出这些信息以便医生进一步分析患者的病因,形成更好的治疗方案。

同时,不同学者在“4V”的基础上对大数据特征进行了拓展,认为大数据还具有真实性(Veracity)、易变性(Variability)等特征。大数据的真实性是指数据的准确度和可信赖度,代表数据的质量。大数据的易变性是指伴随数据高速性的特征,数据流还呈现一种波动的特征。

综上所述,大数据特征如图1-1所示。

图1-1 大数据特征

随着时间的推移,业界对大数据的认识更深入、更全面。除以上对大数据特征的通用描述之外,不同应用领域的大数据的具体特征也存在差异。如医疗领域需要根据患者病历以及影像等信息判断病情,由于其与人们的健康息息相关,所以数据精度以及可靠性要求非常高。医疗大数据的特征将在1.2.3小节中详细介绍。

1.1.2 大数据关键技术

大数据技术是指从各种各样类型的巨量数据中,快速获得有价值的信息的技术。解决大数据问题的核心是大数据技术。大数据研发目的是发展大数据技术并将其应用到相关领域,通过解决巨量数据处理问题来促进其突破性发展。因此,大数据时代带来的挑战不仅体现在如何处理巨量数据并从中获取有价值的信息,也体现在如何加强大数据技术研发,抢占时代发展的前沿。大数据关键技术包括数据采集、数据清洗、数据融合等基础技术,以及数据挖掘和数据可视化技术(见图1-2)。

图1-2 大数据关键技术

1.数据采集

大数据来源广泛,包含文本、图像、音/视频等各类结构化、半结构化及非结构化数据,数据采集是大数据技术开展的基础。对于数据的采集,目前常用的技术包括射频识别技术、传感器技术、网络爬虫技术、软件采集技术等。

2.数据清洗

并非所有的数据皆是有价值的,有些数据并不是我们所关心的内容,同时有些数据存在完全错误的干扰项,因此要对数据通过过滤“去噪”,从而提取有效数据。数据清洗是一种清除错误数据、去掉重复数据的技术,包括检查数据一致性、数据降噪、处理无效值和缺失值等。

3.数据融合

数据融合是将来自不同数据源的异构数据进行检测、抽取、预处理、关联、估计和整合等一系列操作的一种多层次、多角度数据处理手段,包括数据集成、数据标准化、数据结构化、数据归约等技术。数据融合是大数据处理的难点。

4.数据挖掘

大数据的核心在于对这些有意义的数据进行专业化处理,通过数据挖掘实现数据价值最大化。数据挖掘就是从大量的实际应用数据中,提取隐藏在其中的有价值的信息的过程。一般而言,数据挖掘技术包括统计学、聚类与模式识别、机器学习等。

5.数据可视化

数据可视化就是借助图形化的手段,将信息形象化,清晰、有效地传达与沟通信息。利用人类对形状、颜色的敏感,有效地传递信息,从而直观展现数据中的关系、规律和趋势。数据可视化技术包括2D/3D法、时间可视化、多维法和层次法等。常用的数据可视化图表有柱状图、条形图、饼图、雷达图、折线图、堆积图、散点图、标签云、关系图等。

大数据的意义不仅仅在于生产和掌握庞大的数据信息,更重要的是利用大数据技术对数据进行深度价值挖掘与利用。换言之,如果把大数据比作一种产业,那么这种产业实现盈利的关键在于提高大数据技术对数据的“加工能力”,通过“加工”实现数据的“增值”。

1.2 医疗大数据本质

1.2.1 医疗大数据产生的背景

一方面,大数据时代的到来为现代医学的发展带来了前所未有的机遇,网络大数据使人们获得了前所未有的大规模医学数据。医疗机构开始利用信息技术将越来越多的医疗数据电子化,并以不同的形式和结构存储起来。各类医疗信息系统数据,加上医院与医保的结算与费用数据、医学研究的数据、医院药物采购与使用监管数据、居民的行为与健康管理数据及政府的人口与公共卫生数据,构成了医疗卫生领域大数据的初期数据资源。另一方面,现代医学的发展也带来海量的数据,如现代医学除了常规收集的患者信息量非常巨大以外,基因组学、蛋白质组学、脂质组学、表观遗传学、代谢组学、转录组学等数据规模也同样庞大。这些规模庞大、动态性强、复杂性高、种类繁多的数据为我们综合分析、挖掘每位患者病理学、生理学和病理生理学等数据提供了充足的样本。

医疗大数据的合理利用能提供巨大的产业空间和社会价值。首先,大数据能够极大地增强医生和医学研究者获取新知识的能力。主观地从不同结构的数据中寻找问题的答案的代价是很大的。通过大数据分析技术自动化处理医疗数据,例如,通过自然语言处理技术对医疗文本报告进行分析,能够提取有效的信息。其次,大数据的应用更有利于知识的传播。例如,在面对一个具有多重慢性疾病的临床病例时,即便医疗人员获得了所有的相关数据和证据,整理这些数据并从中获得一个相对可行的治疗方案也是极为复杂的。传统的医疗信息系统无法让这一过程变得更加高效。而在大数据的帮助下,医疗人员或许可以从其他相似病例的医疗数据和治疗方案中找到答案。然后,大数据的应用能够将大量孤立的医疗数据整合起来,形成专家库,以供后续的研究和学习。最后,大数据能够转变传统的医疗模式,患者不再只是被动地接收信息,而是以更加主动的角色参与到整个医疗过程中。

总而言之,随着大数据时代的到来,医疗领域面临着大数据带来的机遇和挑战。物联网和云计算等信息技术的飞速发展、医疗信息系统的应用和医疗信息共享,以及合理利用医疗大数据获得的巨大价值,都为医疗大数据的产生与发展创造了条件。

1.2.2 医疗大数据来源与内容

1.医疗大数据来源

医疗大数据是指个人从出生到死亡的全生命周期过程所产生的医疗数据。医疗大数据的第一大来源是医疗机构。经过多年的信息化建设,我国的医院基本都有自己的医疗信息系统,其是医疗大数据的重要来源。医疗大数据的第二大来源是第三方检测机构,如基因测序产生的数据。人的基因组约有3G个碱基对,如果考虑到人的基因组的多态性,数据量将是非常庞大的。随着基因测序价格越来越低,越来越多的基因数据将被积累起来,基因技术对健康的影响正变成计算和分析的能力问题。医疗大数据的第三大来源是制药企业。药物研发是一个相当复杂的过程,需要进行大量的临床试验,一般的中小型药企的数据体量是TB级的,大型药企的数据体量则是PB级的。医疗大数据的第四大来源是各类可穿戴设备。随着移动互联网的飞速发展和可穿戴设备的普及,各种健康设备通过“云+端”的方式收集用户的生命体征信息,如心电数据、血氧浓度、血压、体温、脉搏、运动量等。除此之外,有关健康的网络搜索数据和网络分享数据、各类研究机构的二次加工数据等都是医疗大数据的来源。

2.医疗大数据的主要内容

医疗大数据的主要内容通常包括医疗服务数据、生物医学数据、医疗保险数据、医药研发与管理数据、公共卫生数据、医疗行业数据、经营运行数据、健康管理与监测数据等[4]。例如,医疗服务数据以电子健康档案、医学影像等为主;生物医学数据以个人基因检测,生物样本,蛋白质组学、代谢组学、基因组学等组学数据为主;医疗保险数据以新型农村合作医疗保险、城镇职工基本医疗保险、城镇居民基本医疗保险等为主;医药研发与管理数据以药物临床试验、药物筛查、基本药物集中采购、医疗机构药品与疫苗电子监管等为主;公共卫生数据以疾病监测、突发公共卫生事件监测、传染病报告等为主,详见表1-1。

表1-1 医疗大数据的主要内容

内容

描述

来源

医疗服务数据

电子病历(Electronic Medical Record,EMR)、实验室信息系统(Laboratory Information System,LIS)、影像归档和通信系统(Picture Archiving and Communication System,PACS),心电、病理数据以及产生于医院日常诊疗、科研和运维过程的各种门/急诊信息,住院、用药、手术等记录

医疗机构、第三方医学诊断中心、药企、药店

生物医学数据

个人基因检测,生物样本,蛋白质组学、代谢组学、基因组学等组学数据

第三方检测机构、医疗机构

医疗保险数据

医疗费用、医疗保险

医疗机构、社保中心、商业保险机构

医药研发与管理数据

药物临床试验、药物筛查、基本药物集中采购、医疗机构药品与疫苗电子监管等

药企、医疗机构

公共卫生数据

公共卫生专题调查,专病监测,膳食调查,疾病防控、妇幼保健、职业病防护等过程中产生的公共卫生数据;气象、空气污染等环境监测数据

疾病控制中心

医疗行业数据

医学文献,医药、医疗器械和耗材销售数据,政府、主管部门和行业协会的监管、服务相关数据

政府及相关企业

经营运行数据

成本核算数据,医药、耗材、器械采购与管理数据,第三方支付数据,产品流通数据

医疗机构、第三方支付机构

健康管理与监测数据

移动或物联网连接的可穿戴设备产生的数据,健康医疗设备通过“云+端”方式收集的用户的各种生命体征信息,以及有关健康、疾病或寻医的网络访问与购药行为

体检机构、可穿戴设备

1.2.3 医疗大数据的特征

医疗大数据具有5个基础特征,即规模性、高速性、多样性、价值性、真实性(见图1-3),还具有时效性、不完整性、冗余性、隐私性等4个医疗领域特有的特征[5]

(1)时效性:时效性是指信息仅在一定时间段内对决策具有价值的属性,健康医疗数据的时效性反映在数据的快速产生及数据变更的频率上。患者的就诊和发病过程、疾病传播等在时间上有一个进度,比如心电图的记录,普通的心电图无法检测出阵发性的心脏疾病的信号,必须长期实时监测心脏状态。医学监测的波形信号属于时间函数,具有时效性。

(2)不完整性:健康医疗数据存在缺失的情况,这是患者转诊、提前出院等导致整个治疗过程的数据没有被完整记录下来。同时,疾病的复杂性和医疗水平的有限性使得疾病不可能完全通过数据来记录。

(3)冗余性:健康医疗数据既有不完整性,也有冗余性。冗余性指的是相同或相似的数据被重复记录,比如对某个疾病的多次检查、有关疾病的基本描述情况、与疾病无关的其他信息等都会被多次记录,且包含大量重复、与医生无关甚至是相互矛盾的就诊记录。 

图1-3 医疗大数据的5个基础特征

(4)隐私性:健康医疗数据具有高度的隐私性。电子病历、电子健康档案包含患者的多项信息,这些信息的泄露会对患者的生活造成困扰及危害,特别是一些敏感性疾病、患者的基因测序信息等。尤其是在发展互联网健康体系中,将医疗大数据通过网络与移动健康监测相结合,隐私数据泄露将会带来更加严重的危害。在对健康医疗大数据进行分析时隐私保护至关重要,目前相关研究人员都在讨论如何有效分析健康医疗大数据而不造成患者隐私泄露的问题。

参考文献

[1] LYNCH C. How do your data grow?[J]. Nature, 2008, 455(7209): 28-29.

[2] KUM H C, AHALT S, CARSEY T M. Dealing with data: governments records[J]. Science, 2011, 332(6035): 1263.

[3] Bryant R E, Katz R H, Lazowska E D. Big-Data Computing : Creating revolutionary breakthroughs in commerce,science,and society Motivation: Our Data-Driven World[J]. Computing Community Consortium, 2008,8:1-15.

[4] 李岳峰, 胡建平, 张学高. 中国健康医疗大数据资源目录体系与技术架构研究[J]. 中国卫生信息管理杂志, 2019, 16(03): 249-256.

[5] 郭子菁, 罗玉川, 蔡志平等. 医疗健康大数据隐私保护综述[J]. 计算机科学与探索, 2021, 15(03): 389-402.

相关图书

SPSS医学数据统计与分析
SPSS医学数据统计与分析
首席数据官知识体系指南
首席数据官知识体系指南
大数据实时流处理技术实战——基于Flink+Kafka技术
大数据实时流处理技术实战——基于Flink+Kafka技术
大数据安全治理与防范——流量反欺诈实战
大数据安全治理与防范——流量反欺诈实战
搜索引擎与程序化广告:原理、设计与实战
搜索引擎与程序化广告:原理、设计与实战
大数据安全治理与防范——反欺诈体系建设
大数据安全治理与防范——反欺诈体系建设

相关文章

相关课程