Phenomics表型组学前沿论坛第六十期“组学数据挖掘的‘大模型’和‘小样本’”圆满举办

来源：上海国际人类表型组研究院 发布时间：2023-07-06

2023年7月4日晚，由上海国际人类表型组研究院、Phenomics表型组学期刊、复旦大学人类表型组研究院、中国生物物理学会表型组学分会共同举办的生命天眼论：Phenomics表型组学前沿论坛第六十期顺利开讲。

本次论坛特别邀请了同济大学生物信息系、上海-同济大学教育部自主智能无人系统前沿科学中心PI刘琦教授，作了主题为“组学数据挖掘的‘大模型’和‘小样本’”的精彩报告。论坛由复旦大学人类表型组研究院钱斌治教授主持，来自全国的5000余名专家、学者线上参加了本次论坛。

刘琦，同济大学生物信息系长聘教授，博士生导师，上海-同济大学教育部自主智能无人系统前沿科学中心PI。长期致力于发展人工智能和生物组学交叉融合的研究范式（AI for Omics），以组学人工智能赋能数据驱动的精准医学研究和转化。在Nature Machine Intelligence （Research Highlight），Science Advances，Nature Communications, Genome Biology, Genome Medicine, Science Bulletins, Trends 和WIREs 系列以及计算机科学领域重要期刊会议如IEEE TKDE/SDM/ICDM等发表系列高水平论文。刘教授系中国计算机学会（CCF）杰出会员，中国生物信息学会（筹）人工智能和生命科学专委会首任常委。任ELSEVIER出版社人工智能生命科学交叉领域期刊Artificial Intelligence in the Life Sciences编委，华为公司科学顾问。先后主持国家863生物信息重大专项、国家重点研发计划BT&IT重大专项课题、国家自然科学基金等。其研究团队和多家国际制药公司、CRO公司以及互联网公司开展紧密合作，推动人工智能技术在生物医学领域的应用和转化。其在人工智能和生物组学交叉领域的研究工作先后多次入选中国生物信息学研究十大进展，获F1000推荐，Cell Trends系列Best Review Award，WILEY Outstanding Open Science Author Award。获药明康德生命化学研究奖、吴文俊人工智能自然科学技术奖、微众学者奖等。

论坛开始，主持人钱斌治教授代表主办方对莅临的嘉宾及观众表示热烈欢迎，并对上海国际人类表型组研究院（IHPI）、Phenomics表型组学期刊、复旦大学人类表型组研究院（HuPI），以及演讲嘉宾刘琦教授做了简要而隆重的介绍。

报告中，刘琦教授首先从组学数据特点入手，从宏观层面解释了组学与人工智能之间的关联，并针对组学研究的常见场景分享了两个面向组学数据的AI方法学。他指出“大模型”例如大型语言模型与“小样本”例如元学习的模型，是弱监督场景下的两个重要AI范式，两者的共同目标是在目标任务上完成不依赖于大量样本的训练。

接着，刘教授介绍了团队在组学数据挖掘领域应用“大模型”与“小样本”AI范式的一些工作进展。刘教授分享了团队在2022年度发布的大规模小分子预训练模型X-MOL及其开源模型的成果。在此项工作中，研究人员构建了一个大规模的Transformer-based模型，结合海量的训练数据与强大的计算资源，训练了对于小分子进行有效表征的大规模预训练模型X-MOL，并在五种不同的下游任务中验证了小分子预训练所带来的性能提升，这些任务包括分子活性预测、化学反应产率预测、药物-药物相互作用预测、小分子从头生成与小分子优化。X-MOL被证明了在不同的小分子相关的下游任务上均取得了最先进的性能，同时兼顾了良好的可解释性。X-MOL将进一步促进AI制药行业利用大规模的预训练与微调策略来统一现有的各种AI辅助小分子设计任务，为AI制药领域提供了一个可以借鉴的普适AI计算框架和开源平台。

其次，刘教授介绍了团队近期发布了普适有效的抗原-TCR亲和力预测的AI模型PanPep。面向MHC-多肽复合物与T细胞受体（TCR）亲和力计算识别中的挑战和瓶颈，团队创新性地提出了基于元学习（Meta Learning）和神经图灵机（Neural Turning Machine）的AI计算框架，通过模拟人类对于已知任务的存储记忆和新任务的类比学习机制，可有效地解决数据的长尾分布识别问题：即面向中部肽段（Few shot）和肿瘤新生抗原或外源性肽段（Zero shot）进行TCR亲和力识别。实验证明PanPep在三种应用场景：Majority learning、Few-shot learning以及Zero-shot learning场景中均取得了较高的抗原-TCR预测准确率。

最后，刘教授表示要基于生物学理解来做AI模型，才能更好解决科研难题取得进展。

在精彩的报告后，刘琦教授还与观众们展开了热烈讨论。如有观众提问：“刘教授，目前我们课题组所做的工作包含了大量的调参工作。请问如何在立足调参的基础上更好地找到课题的创新点？”刘教授答复：“调参是AI模型训练过程中非常重要的一环，面对现在深度学习的大模型，在调参上投入大量时间是必要的，但与此同时，也希望大家能够加深对于生物学问题的理解，明确解决该问题所需要的AI范式是什么，这样将有助于提升解决问题的效率并找到创新点。”

生命天眼论：Phenomics表型组学前沿论坛将持续为大家提供高质量的讲座，第六十一期生命天眼论：Phenomics表型组学前沿论坛将于7月11日（下周二）晚上20:00-21:30举行，届时将由复旦大学生命科学学院、遗传工程国家重点实验室，粤港澳大湾区精准医学研究院（广州）研究员沈侠教授，带来主题为“Genetic Correlation and the Causal Relationship Across the Human Phenome”的报告。敬请各位同仁关注！

近期新闻

{{item.date}} {{item.name}}