7月5日消息,腾讯公司5日宣布,已搭建一个海量的 MdrDB 耐药性数据库,提供最全的数据信息,为 AI 研发新药提供耐药性预测测试的「练兵场」。
【资料图】
据悉,这是腾讯量子实验室的最新研究成果,相关研究论文已登上了国际学术期刊 Nature 的子刊 Communications Chemistry。
看过电影《我不是药神》就知道:癌症患者后期,使用的靶向药物经常出现耐药性,需要寻找新的替代药物。不止癌症,艾滋和抗生素药物都会产生耐药性。这是由于癌细胞和病原体的蛋白突变所导致的。
打个比方,关键蛋白是解决癌细胞/病原体的「门锁」,但由于细胞进化和药物刺激,蛋白突变几乎不可避免。而无法预知蛋白的突变方向,就无法定向研发能够解决疾病的药物来做“钥匙”。
AI 学习,可以为预测蛋白、研制新药提速。但全世界都面临的最大问题是——蛋白突变的数据样本不足,对耐药性测试造成了很大的数据缺口。
针对数据量不足,腾讯发布的 MdrDB 耐药性数据库,首先在量上做到第一:从包括 GDSC、DepMap 等公开的行业数据集内,搜集了接近 10万个样本,总共收纳了 240 种蛋白质(总共 5119 个 PDB 结构)、2503 个突变和 440 种药物,涵盖了各种蛋白质家族的突变信息。
这个样本量总共达到了 10 万,是行业第二名的 100 倍。丰富的数据量,能够为 AI 进行药物的耐药性测试提供足够的训练样本。
为了让 AI 更好消化数据,量子实验室耗时半年,搭建了一套数据的加工流程:通过细胞系的数据清洗,数据库内将野生型蛋白、突变性蛋白等蛋白质类型,单点突变、删除突变等突变类型分门别类,方便AI随时「调阅」。
最后,通过自研的 Mutfold 蛋白质突变预测平台和蛋白质折叠算法,能就生成一个可视化的蛋白质三维结构「锁孔」样本,可供进行药物分子的结合模拟,提供耐药性数据。
新药研发,必须经过大量的测试,以确认能够匹配突变蛋白。更全面、更多维的数据库,能更有效助力进行突变诱导耐药性的预测、联合治疗策略的开发以及创新药物的研发。
在海量数据的加持下,MdrDB 也实现了性能的突破:在就 MdrDB 与其它行业公开耐药数据库作为训练数据、分别在10种经典机器学习模型上进行测试的实验中,与其它数据库相比,模型的预测值与真实值的均方根误差从 0.907 下降至 0.656,相关性从 0.094 提升至 0.607,耐药性的分类性能则从 0.243 提升至 0.538。
经过测试,使用 MdrDB 的AI耐药性预测精准度提升30%。这也是自2020年打造 AI 药物研发平台云深智药(idrug)以来,腾讯又一次探索前沿技术助力药物研发。
目前,MdrDB 已向行业和学术机构全面开放。未来,MdrDB 还将持续更新耐药性数据。