HealthGPT：华工数字孪生人实验室发布主动健康大模型基座

科技 TOM 2023-06-12 18:03

基于主动健康的主动性、预防性、精确性、个性化、共建共享、自律性六大特征[]，华南理工大学未来技术学院-广东省数字孪生人重点实验室开源了中文领域生活空间主动健康大模型基座ProactiveHealthGPT，包括：(1) 经过千万规模中文健康对话数据指令微调的生活空间健康大模型扁鹊 (BianQue) ；(2) 经过百万规模心理咨询领域中文长文本指令与多轮共情对话数据联合指令微调的心理健康大模型灵心 (SoulChat)，我们期望，生活空间主动健康大模型基座ProactiveHealthGPT可以帮助学术界加速大模型在慢性病、心理咨询等主动健康领域的研究与应用。

图 1 中文领域生活空间主动健康大模型基座ProactiveHealthGPT

一、引言

当前，在“大数据+大算力+强算法”的加持下，大规模语言模型 (Large Language Model, LLM)通过“大规模预训练+微调”的模式应用在很多不同领域，在国内外发展迅猛，建立了一种人工智能应用的新范式，极大改变人类社会的生活和生产模式。

然而，大模型脱胎于大数据、大算力，对资源要求很大，特别地，由于训练语料有限以及任务的个性化特点，大模型在健康领域的效果仍然有限，例如：问询能力、共情的倾听能力等。我们认为，未来，结合对话数据与院外多生理数据的大模型将有望进一步提升在生活空间的主动健康服务能力，这其中又可以分为：生理健康和心理健康。

为了提升大模型的主动健康服务能力，现阶段我们基于现有的医疗对话数据以及自主积累的健康对话数据，经过多轮数据清洗与数据挖掘，构建了千万级别的健康对话大数据、百万级别的心理健康对话大数据，并且通过全参数指令微调构建了初步具备多轮问询与健康建议能力的中文领域生活空间健康大模型扁鹊 (BianQue)，以及初步具备共情倾听能力的中文领域心理健康大模型灵心 (SoulChat)。

BianQue与SoulChat作为基础模型，期待与医疗界、学术界、相关企业等科研力量携手，共同推进模型的专业能力与创新应用，愿景是让每个人都有自己的家庭医生与心灵守护者。

二、中文领域生活空间健康对话大模型 (BianQue)

我们经过调研发现，在健康领域，用户通常不会在一轮交互当中清晰地描述自己的问题，而当前常见的开源医疗问答模型(例如：ChatDoctor、本草(HuaTuo，原名华驼 )、DoctorGLM、MedicalGPT-zh)侧重于解决单轮用户描述的问题，而忽略了“用户描述可能存在不足”的情况。

哪怕是当前大火的ChatGPT也会存在类似的问题：如果用户不强制通过文本描述让ChatGPT采用一问一答的形式，ChatGPT也偏向于针对用户的描述，迅速给出它认为合适的建议和方案。然而，实际的医生与用户交谈往往会存在“医生根据用户当前的描述进行持续多轮的询问”。

并且医生在最后根据用户提供的信息综合给出建议，如下图所示。我们把医生不断问询的过程定义为询问链(CoQ, Chain of Questioning)，当模型处于询问链阶段，其下一个问题通常由对话上下文历史决定。

图 2 真实世界下的医生-病人交谈方式(红色部分为医生的问询过程，绿色部分为医生的建议过程)

为此，我们调研了当前开源的医疗问答数据集MedDialog-CN、IMCS-V2、CHIP-MDCFNPC、MedDG、cMedQA2、Chinese-medical-dialogue-data等，分析其中的单轮/多轮特性以及医生问询特性，结合实验室长期自建的生活空间健康对话大数据，构建了千万级别规模的扁鹊健康大数据BianQueCorpus。对话数据通过“病人：xxxn医生：xxxn病人：xxxn医生：”的形式统一为一种指令格式，如下图所示。

图 3 扁鹊健康大数据BianQueCorpus样例

基于扁鹊健康大数据BianQueCorpus，我们选择了ChatGLM-6B[]作为初始化模型，经过全量参数的指令微调训练得到了新一代BianQue。以下是扁鹊模型在huatuo26M-testdatasets测试集[](注意：扁鹊模型没有经过Huatuo-26M数据集的微调)的部分效果展示图：

样例1：宝宝特别喜欢打嗝，是什么原因啊，该怎么预防啊

图 4 样例1

样例2：我外婆近来身体越来越差了，带她去医院检查，医生说她得了肾静脉血栓，我们全家都很担心，医生开了很多注射用低分子量肝素钙，我想问它的药理毒理?

图 5 样例2

以下是模型的多轮问询能力的测试：

样例3：多轮问询与建议

图 6 样例3

本项目于2023年04月22日发布了扁鹊-1.0版本[]，现在开源的是新一代扁鹊-2.0版本的模型，扁鹊-1.0版本侧重于问诊能力，扁鹊-2.0版本侧重于建议能力，更详细的评测结果会在我们后续发布的论文当中公布。我们将迭代优化BianQue基础模型，持续加强问询与建议的双重能力。未来，我们将进一步接入院外全时空多生理数据，提升模型在生活空间的健康服务范围与能力。

三、中文领域心理健康对话大模型灵心 (SoulChat)

我们调研了当前常见的心理咨询平台，发现，用户寻求在线心理帮助时，通常需要进行较长篇幅地进行自我描述，然后提供帮助的心理咨询师同样地提供长篇幅的回复(如图 7)，缺失了一个渐进式的倾诉过程。

但是，在实际的心理咨询过程当中，用户和心理咨询师之间会存在多轮次的沟通过程，在该过程当中，心理咨询师会引导用户进行倾诉，并且提供共情，例如：“非常棒”、“我理解你的感受”、“当然可以”等等(如图 8)。

图 7 单轮的长文本的心理咨询示例

图 8 多轮的、共情的心理咨询示例

考虑到当前十分欠缺多轮共情对话数据集，我们一方面，自建了超过15万规模的单轮长文本心理咨询指令与答案(SoulChatCorpus-single_turn)，回答数量超过50万(指令数是当前的常见的心理咨询数据集PsyQA[]的6.7倍)，以及约100万轮次的多轮回答数据(SoulChatCorpus-multi_turn)。

特别地，我们在预实验中发现，纯单轮长本文驱动的心理咨询模型会产生让用户感到厌烦的文本长度，而且不具备引导用户倾诉的能力，纯多轮心理咨询对话数据驱动的心理咨询模型则弱化了模型的建议能力，因此，我们混合SoulChatCorpus-single_turn和SoulChatCorpus-multi_turn构造成超过120万个样本的单轮与多轮混合的共情对话数据集SoulChatCorpus。所有数据采用“用户：xxxn心理咨询师：xxxn用户：xxxn心理咨询师：”的形式统一为一种指令格式。

与扁鹊-2.0类似，我们选择了ChatGLM-6B[]作为初始化模型，进行了全量参数的指令微调，旨在提升模型的共情能力、引导用户倾诉能力以及提供合理建议的能力。以下是灵心模型SoulChat作为高校数字辅导员的一些测试样例(受限于截图的关系，只展示对话的若干轮)：失恋、宿舍关系、期末考试、科研压力。

样例1：失恋

样例2：期末考试

样例3：科研压力

特别地，模型的详细测试报告将在后续公布的论文公开。

四、总结与未来展望

我们开源了中文领域生活空间主动健康大模型基座ProactiveHealthGPT，包括：生活空间健康大模型扁鹊 (BianQue) 和心理健康大模型灵心 (SoulChat)。这将有助于主动健康领域研究人员进一步借助大模型探索主动健康系列服务。

我们当前开源的扁鹊 (BianQue) 模型具备了初步的主动健康服务能力，灵心 (SoulChat)模型具备了初步的共情能力与倾听能力。当前版本的模型，仍然处于探索阶段，我们期待与医疗、心理等各交叉领域的研究人员、机构一起合作，加强专业知识的融合，探索面向未来、面向主动健康的大模型，打通全场景数据壁垒，建立覆盖生活空间各场景的主动健康服务。