人工智能对“可疑”蛋白质进行“指纹识别”

Sep 2021


警察通过各种方式发现小偷的可疑行为,比如一个人是否以不寻常的方式移动?或者他们是否选择了与其他人不同的路线?经常查看周围环境?通常情况下,多种因素的组合会产生影响,但可能很难根据具体情况确定哪些因素最重要。


这种情况同样适用于,生物化学家在显微镜下寻找具有可疑行为的蛋白质。然而,这些微观现象比小偷要小一百万倍,而移动速度是最快的罪犯的一千倍。蛋白质的运动方式通常决定了关键的生理过程以及疾病的治疗方式。例如,较慢移动的蛋白质可能会导致癌症,而快速移动的蛋白质则有可能通过快速进入生物体来杀死细菌。不幸的是,这些运动很难用语言来解释。


哥本哈根大学的一个研究小组使用人工智能工具,可以仅根据分子的运动模式,自动识别在细胞周围奔波的蛋白分子中的「恶棍」和「神童」;这包括与纳米药物相关的蛋白质、癌症产生蛋白质、用于绿色洗涤剂应用的蛋白质——可能还有病毒蛋白质。



单个生物分子的单粒子跟踪 (SPT) 分析,是从动态生物过程中提取定量信息不可或缺的工具,但通常需要对系统有一些先验知识。


在这里,研究人员提出了一种用于 SPT 数据分析、处理和分类的方法——「单粒子扩散指纹识别」;这是一种更通用的方法,可用于独立于生物系统提取 SPT 中的扩散模式。这种方法允许剖析作为扩散行为基础的特征,并建立分子身份,而不管底层的扩散类型如何。


该方法为每个观察到的运动轨迹隔离 17 个描述性特征,并为每种类型的粒子生成所有特征的扩散图。然后通过训练一个简单的逻辑回归模型来获得扩散粒子身份的精确分类。线性判别分析生成一个特征排序,输出扩散特征之间的主要差异,从而提供关键的机制见解。


研究表明,它能够生成跨多个系统的扩散特征字典(例如,水解脂肪的脂肪酶、在细胞中扩散的转录因子和粘液中的纳米颗粒),同时支持多种生物现象(例如,药物递送、受体动力学和 病毒学)。这种灵活性最终支持扩散指纹作为 SPT 扩散分析和预测的通用范例的效用。


这里引入了扩散指纹的概念,这种方法可以对 SPT 轨迹进行分类和描述,而不管潜在的扩散类型如何。研究人员展示了如何使用训练有素的分类器来预测变体,以及一维 LDA 投影如何允许精确输出使变体与众不同的扩散特征。通过依赖于每个分类相同的 17 个特征,单粒子扩散指纹提供了一种统一的方法来将广泛的扩散现象映射到一个公共空间。



使用具有两种不同 HMM 职业概率(A/D)的四态扩散模型模拟数据的功能排名和机器学习预测。由于指纹是特征的分布,特征值的重叠程度决定了扩散指纹的可分离性。模拟数据被故意选择为短的(每条轨迹 40 帧),从而真实可靠地代表细胞中具有挑战性的 SPT。成像时间的延长,大大抑制了误差;增加成像时间所减少的定位误差,大大提高了指纹分布的可分离性,从而提高了所有模拟数据集的分类精度。


虽然大多数特征分布可以由此解释,但指纹中的部分分布可能源于对特征的次优选择。观察结果表明,双向 LSTM 神经网络和 CNN 略微提高了原生和 L3 数据集的指纹预测精度。特征总是可以改进的,随着未来使用更好的特征和分类器,对扩散指纹的研究可能会有进一步扩展。


然而,在转录因子数据集和压力测试数据集上执行的方法与 CNN 相当时,没有发现任何改进。这些比较表明,虽然可能对功能进行轻微改进,但大部分相关信息都在 17 个所选功能中捕获。



扩散指纹应用于三个不同的广泛系统

在该团队的调查中,专注于标记数据的情况;但用于扩散指纹的特征的描述能力,会自然延伸到未标记数据,这些特征不需要标签进行计算。降维和聚类技术可用于识别数据集中具有不同扩散特征的痕迹,并以无监督的方式从指纹聚类中提取它们的扩散指纹。扩散指纹在一系列不同生物分子系统的公共空间中精确输出特征;这一事实强烈支持这里概述的扩散指纹的原理验证用途,只是该技术众多可能性中的一小部分。


设想它跨系统或实验室的应用,为不同类型的运动生成条件库。随着更多数据的添加,可以使用变分方法迭代更新 HMM 状态的最佳数量。一旦生成了扩散特征字典,基于机器学习的模式识别算法就可以输出特征分类和输出身份;这可能是粒子类型、生物分子识别、配体介导的构象变化、来自高通量筛选分析扩散介质的几何变化,或理论扩散模型,以及病毒进入细胞的不同机制或途径或纳米载体。


素材来源于《PNAS》