专家大咖齐聚YOCSEF深圳，论道AI与医疗健康

科技亿欧网 2018-09-09 16:20

图片来自“123rf.com.cn”

2018年9月5日，由深圳市内容中心网络与区块链重点实验室、中国计算机学会青年计算机科技论坛深圳（CCF Young Computer Scientists & Engineers Forum，简称为YOCSEF）共同承办的学术报告分享交流会在北京大学深圳研究生院举办。

本次交流会上，生物信息学科学家Stephen J. Song和哈尔滨工业大学计算机科学学院副教授汤步州分别就《人工智能在生药大数据中序列标注问题的关键应用》、《中国临床自然语言处理：研究现状与挑战》两大主题做主题演讲。

据了解，YOCSEF是由中国计算机学会(CCF)于1998年创建的系列性学术活动，总部设在北京，已在上海、杭州、长沙、成都、苏州、西安、深圳、南京、昆明等26个城市建立了分论坛，每年活动数百次，活动形式主要包括：专题论坛、学术报告会、学术评价、评奖、扶贫助教等。AI+生物信息学，助力生物蛋白序列标注

广义的生物信息学是一门致力于开发新的方法或软件以帮助研究者加深对生物学数据理解的交叉学科，涉及计算机、生物学、数学与统计学以及工程学等学科门类, 重点在于集成各种算法和异构数据源的计算框架/方法/平台。从信息科学技术的角度来看,生物信息学的研究是一个从“数据”到“发现”的过程。

目前，功能被充分表征的基因产物（蛋白）的数量与根本没有功能注释的基因产物（蛋白）的数量之间的差距越来越大。确定蛋白质功能的实验技术往往是昂贵且耗时的。当AI与生物信息学相碰撞时，基于机器学习的人工智能可以应用到预测蛋白质的柔性和无序区域、预测蛋白酶特异性靶切割位点、预测细菌分泌效应蛋白、预测酶催化残基、预测单个氨基酸多态性的功能影响等多个方面。

在会上，Stephen J. Song博士介绍了他们开发的一种名为Bastion4的生物信息学方法，主要采用了基于多种机器学习分类器集成学习算法，用来预测T4SE序列。一般的机器学习的训练方法包括训练集、测试集和验证集，Bastion4的数据集包含了390个阳性T4SE序列和1112个阴性非T4SE序列，期间采用了CD-HIT程序用于去除高度同源的序列以避免模型训练中的潜在偏差。

据了解，这种新算法的好处在于：

（1）与通过组合各种特征训练的单个模型相比，使用单个特征训练的单个模型的集成模型显着地改善了预测效果;

（2）基于具有不同单一特征的集成学习模型预测的多数表决策略，预测结果更为稳定和准确。

Stephen J. Song表示，基于机器学习的框架通常可用于基于序列数据解决其他蛋白质、 DNA 、 RNA序列表征问题。

此外，Stephen J. Song还提出了一种称为PREvaIL的新计算方法，该方法结合了互补的序列、结构以及网络特征，用于鉴定具有3D结构信息但尚未在功能上表征的结构基因组学靶蛋白的功能残基。

Stephen J. Song是澳大利亚蒙纳士大学生物医学发现研究所癌症与感染与免疫项目的高级研究员和团队负责人，是计算生物医学、数据挖掘、机器学习和蛋白质组学的生物信息学和数据科学家。

当回答亿欧记者如何解决模型的泛化问题时，Stephen J. Song表示，这与研究的数据集和所选择的实验方法有关，一些具备特定属性的样本会相对易于检测，而另外一些则难以被检测出来。NLP助力临床医疗文本处理

随着电子病历的迅速普及和医疗大数据时代的到来，自然语言处理技术（简称NLP）在生物医学领域迅速发展，已经成为当前的研究热点。所谓NLP技术，就是用机器来处理人类赖以交流的书写文字和口头语言。它利用语言学和统计学，加上机器学习，以便在自动化服务中对语言进行建模。

目前，临床医学信息大多以非结构化（或半结构化）文本形式存储于信息系统中，NLP是从医疗文本中提取有用信息的关键技术。通过自然语言处理，如句子的分词，实体识别，实体的归一化和链接等，这些非结构化的医疗文本可以被转化为包含重要医学信息的计算机可以进行计算的结构化数据，有助于科研人员从结构化的数据中发现有用医学信息，从而提高医疗系统的运行质量，减少运行成本。

在交流会上，汤步州主要分享了医疗领域中的自然语言处理问题及相关技术，通过自身在中文临床医疗自然语言处理方面的一些研究工作，探讨中文临床医疗文本处理当前所面临的问题与挑战。