随着医疗信息化的深入发展,面对日益庞大的临床医学数据,有效的数据分析成为了挑战。在这一领域,未来速度公司与浙江大学一院生物医学大数据中心合作,共同推进临床医学大数据的分析和应用。
在最近举办的专题培训中,未来速度公司 CTO 何开圣详细介绍了面对大规模临床数据分析时的性能优化策略。何开圣强调:“虽然传统数据库和数据分析工具在处理海量医疗数据时存在效率低下、学习成本高和数据安全问题,但借助未来速度公司开发的 Xorbits 大数据引擎,这些挑战可以得到有效解决。”
大数据挖掘就诊信息
挖掘科室临床信息,面对的问题包括以下方面:
- 分析效率。数据库系统,受限于单台节点的性能极限,以及单表的容量限制,面对海量信息无法有效分析
- 学习成本。无论是 MySQL Oracle 等数据库,clickhouse、doris 等分析引擎,还是 Hadoop Spark 等大数据引擎,均需要大量 IT 领域专业知识积累,与临床科研领域关系并不紧密
- 数据安全。由于医疗数据敏感性,临床数据出院有潜在的数据安全风险。
以某科室项目为例,该科室仅在过去3年内,即积累了近 5000 万条数据,基于传统 MySQL 挖掘,不仅计算时间久,而且缺乏有效的可视化工具,且科研人员需要学习大量 IT 领域知识。而科研人员相对熟悉的 Python R 相关工具普遍基于单一线程,面对海量数据场景效率一般。同时受限于数据安全要求,核心数据无法通过外部合作分析,这部分数据一直没有得到充分利用。
未来速度公司为浙大一院生物医学大数据中心设计的解决方案包括以下几个核心部分:
- 高效的分布式计算引擎:Xorbits 引擎与 pandas API 完美兼容,使得具有数据分析背景的医学科研人员能够迅速上手,无需深入学习底层大数据技术。
- 交互式数据分析与可视化平台:集成了 Jupyter / RStudio 等先进工具,有效提升数据处理的交互性和图表的可视化效果。
- 本地代码仓库:为科研人员提供了方便的代码管理和版本控制,支持科研工作的持续性和论文的复现性。
数据不出院,LLM 辅助数据分析挖掘
上一节中所述的数据分析框架主要面向具备一定数据分析知识的医学科研人员,它们可以在不深入了解底层 IT 技术的情况下,有效地进行大规模数据分析。这依然要求用户具备一定的专业基础。
那么,对于普通的临床科研人员来说,如何轻松参与到大数据分析中,并满足基本的分析需求呢?随着 ChatGPT 等先进大模型技术的发展,这些工具的问题理解和代码生成能力,为普通临床科研人员提供了强大支持。
具体来说,临床科研人员可以仅通过自然语言的提示词,而非复杂的编程代码来提交分析任务。例如,外模型能够根据简单的提示词加上当前数据的元信息,自动生成相应的分析代码。这些代码随后被提交给内部部署的大数据引擎处理。
该大数据引擎利用其分布式计算能力,在短时间内完成数据处理并以图表形式呈现结果,实现了一种对话式的数据分析过程。这不仅大大降低了用户的技术门槛,而且由于外部大模型仅处理数据的元信息而不直接接触敏感数据本身,因此满足了医疗数据安全的严格要求。这种方式不仅为临床科研人员提供了便捷的数据分析途径,也保证了数据分析的准确性和安全性。
上亿行离线数据的最佳分析
Pandas,作为当前广泛应用的数据分析工具,以其强大的接口和丰富的生态系统著称,使得数据操作变得简单且高效。然而,面对更大规模的数据,如 50GB、100GB 甚至更大,Pandas 在性能和内存使用上显得捉襟见肘。尤其是普遍使用的个人笔记本电脑上——由于其处理方式需将全量数据载入内存,随着数据量的增长,极易造成内存溢出(Out of Memory, OOM)问题。
未来速度公司旗下的 Xorbits Pandas 为此问题提供了一种创新解决方案。这套与 Pandas API 完全兼容的框架采用多种存储后端,灵活适应各类数据处理和分析场景。Xorbits 的核心技术在于其能够动态地从磁盘载入数据,将内存使用控制在一个稳定水平,从而规避 OOM 问题。理论上,这使得个人电脑能够处理接近其磁盘容量上限的数据量。
在我们的基准测试中,使用 TPC-H 数据集(100GB, 6亿行)作为例证,在一台配备 32GB 内存、1TB 硬盘和 M1 Max 芯片的个人笔记本上,Xorbits 完成了对超过 6亿行、近 100GB 数据规模的分析和处理。此外,针对 TPC-H SF100 完整的 22 个查询,Xorbits 仅需 34 分钟即可完成,性能表现优于 Spark、Dask 等分布式计算框架。
Xorbits 引擎通过数据自动划分能自动生成计算图和执行计划,并通过算子融合等技术进行优化。通过管理节点下发任务至计算节点并汇总结果,实现了数据并行处理的显著加速。
在浙大一院生物医学大数据中心的实际应用案例中,Xorbits 引擎展现了其卓越的性能,实现了与单节点 pandas 相比的 20 倍加速效果。
总结
未来速度公司与浙大一院的合作标志着临床医学大数据分析领域的一个重要突破。通过这些创新技术的应用,未来速度公司不仅提高了医疗数据处理的效率和安全性,还为医疗科研人员提供了强大的数据分析工具,为未来的医疗健康服务奠定了坚实的数据基础。