艾沐蒽联合发表Nature子刊|T-classifier®AI诊断模型准确率92.86%

免疫系统是我们最精细的诊断系统，适应性免疫系统中T细胞能够通过T细胞受体（TCR）在我们感知前早期，就敏感地识别到极少量的抗原，并只和特定抗原发生结合，伴随抗原特异性T细胞的克隆性增殖后，在全身血液中循环去消灭抗原，并能维持一部分T细胞在长期记忆中。TCR就像我们人体健康的指纹一样，我们相信通过读取外周血TCR信息就可以识别疾病诊断，这也是艾沐蒽自始以来一直布局的管线方向。

经过不懈努力自主研发，艾沐蒽成功开发T-classifier^®基于AI机器学习算法平台的疾病早筛平台，能大规模地将TCRs映射到抗原上，即将数万亿TCRs与数百万个临床相关抗原对应，进而识别和验证疾病相关TCR特征，以改善许多疾病的诊断、监测和治疗。

以下是艾沐蒽通过T-classifier^®技术平台联合内蒙古大学人工智能团队发表的TCR应用于CMV病毒诊断的机器学习算法模型验证，这将为非侵入性外周血TCR用于疾病早筛奠定基础。

引言

信息技术和运算速度的快速发展，推动了人工智能等热门技术取得突破。同时，随着医疗行业的信息化，产生的医疗数据越来越多。如何将医学数据和不断发展的人工智能技术应用于疾病预防、检测和医疗保健等问题亟待解决，尤其用于回答医学问题是当前研究的一大热点。

在过去的几十年里，人工智能及其分支，如机器学习（ML），在医疗行业取得了显著成就，在医疗诊断中发挥了关键作用，其智能应用程序已投入使用。ML在临床实践中的一些重要应用包括提供减少诊断和治疗错误的最新信息、实时推理、健康风险警报和健康结果预测。目前，越来越多的疾病可以通过机器学习识别和初步预测。2018年，Ocampo等人建立了基于神经网络的肺癌诊断模型，其肺癌识别的AUC达到0.97；2020年，Lyngdoh等人使用多种算法预测糖尿病，其中K-nearest neighbor算法的准确率达到76%。

与此同时，医学研究已开始从传统的疾病预防转向细胞和基因方面，寻求疾病消灭的根本原因。机器学习算法已广泛应用于各种应用和医学研究。虽然算法种类繁多，但目前使用的主要算法仍是传统算法，如随机森林、逻辑回归等，以及支持向量机，他们都有一个充分的理论。然而，不存在对所有的疾病都为最优的算法，针对不同的疾病需要使用不同的算法。

巨细胞病毒（Cytomegalovirus, CMV）是一种在人群中感染非常广泛的疱疹病毒，在中国成年人中感染率超过95%。初次感染后，CMV在宿主细胞内处于终生潜伏状态，并在功能性免疫系统调控下处于周期性亚临床再激活状态。当严重免疫功能缺陷的患者发生再激活或原发性感染时，导致CMV复制失控出现发热、骨髓抑制和组织侵袭性疾病的临床表现。因此。诊断患者的CMV暴露史具有较大的研究意义。

在本研究中以CMV感染作为模型，我们提出了一种通过T细胞受体β链（TCRβ）高通量测序结果来检测疾病状态的新方法。

结果

CMV相关TCRs的鉴定

Fisher精确检验：基于训练样本队列1中，每个CMV相关TCRβ在每个阳性、阴性样本中出现的样本数，以及没有该序列数据的样本数，建立每个序列的混淆矩阵，计算Fisher精确检验的p值。因此，Fisher精确检验得到的相关序列仅与队列1的训练数据相关，与队列2的测试数据没有直接相关性。

如图1所示，不同阈值标准筛选出了不同数量的TCRβ序列，其中10^-1、10^-2、10^-3、10^-4、10^-5、10^-6、10^-7和10^-8阈值对应的CMV相关TCRβ序列种类数量分别为309406、8638、571、166、70、39和11。

Figure 1.Associated TCRβ sequences. The picture shows the number of CMV-associated TCRβ sequences corresponding to different thresholds of p value (10⁻⁸ ~ 10⁻¹).

结果

LDA的p值的最佳截断值为10^-4，LR、SVM和RF的p值的最佳截断值为10^-5

图2描述了四种算法的分类有效性指标的性能，测量了四种分类算法的数据。x轴表示P值的不同阈值，y轴表示对应不同阈值的四种算法的评价指标。如图2a所示，LR logistic回归算法的F1得分随阈值的增加呈现先上升后下降的趋势，在阈值为10^-4、10^-5和10^-6时处于较高水平。当阈值增大时，AUC值先增大后随阈值的增大而减小，在阈值为10^-3、10^-4、10^-5时AUC值较高，在10^-4时AUC值最高。FDR错误发现率随阈值的增大先减小后增大，在10^-5时最低。交叉熵损失函数随时间的增加先缓慢减小后迅速增大，最低点是在10^-4，第二个是10^-5。从图2b中可以看出，SVM算法的F1评分随着阈值的增大先增大后减小，在阈值为10^-4、10^-5、10^-6时处于较高水平。AUC值随阈值的增大先增大后减小，在阈值为10^-4和10^-5时AUC值较高。FDR错误率随阈值的增大先增大后减小再增大，在10^-5时达到最高水平0.0851。SVM的交叉熵损失函数随着阈值的增大先减小后增大，在10^-4时最小，低至0.2609。图2c描述了不同阈值的RF随机森林算法与前两种算法相比的趋势。F1评分和AUC仍在开始时增加，然后随着阈值的增加而下降，在10^-4、10^-5和10^-6的中间阈值处处于较高水平。FDR错误发现率和交叉熵损失函数都随着阈值的增加而波动，在10^-3、10^-4、10^-5和10^-6时均较低。由图2d可知，LDA线性判别分析的F1评分和AUC随阈值的增大先增大后减小，在10^-4、10^-5和10^-6的中间阈值处均处于较高水平，在10^-4处达到最高水平。同样，FDR和损失函数随阈值的增大先减小后增大，且均在10^-5处取最小值。

Figure 2.Evaluation metrics of algorithms. The scores of four algorithms of logistic regression (LR,a), support vector machine (SVM,b), random forest (RF,c), and linear discriminant analysis (LDA,d) were based on four evaluation metrics. The purple, red, orange, and blue curves represent the F1 score, FDR, AUC, and cross-entropy loss, respectively, with the first three indicators on the left Y-axis and the cross-entropy loss on the right Y-axis.

结果

4种算法的决策边界

如图3所示，如果一个点落在粉色区域，则表示算法预测为阳性；在天蓝色区域，则表示为阴性。图3a是logistic回归算法的分类图。分割线表示为向上倾斜的直线。分割效果好，错误分类的测试样本点不易被肉眼看到。图3b为SVM算法的分类图和测试样本点的分布。由于采用了性能更好的多项式核函数，SVM算法分割的区域包含了一定程度的圆形结构，在左上角仍有一些区域被归类为阴性。图3c是随机森林算法的分类图。图像的整体分割似乎过于拟合，容易导致模型在训练样本上表现良好，而在测试样本上表现较差。图3d所示的线性判别分析算法的分类图比LR算法更接近直线。划分更加细致平滑，分类效果更加稳定准确。

Figure 3.Scatter plots and area classification lines of testing samples. The figure depicts a scatter plot of positive and negative decision boundaries obtained by the four classification algorithms trained on cohort1 training samples and cohort2 test samples, where the x-axis represents the total number of TCRβ sequence species per sample and the y-axis donates the number of repeat species with associated TCR sequences. The blue dots represent negative samples in cohort 2, and the red dots represent positive samples in cohort 2. The pink and sky blue regions represent the positive and negative regions obtained by training each algorithm’s cohort1 training data, respectively. Figure (a–d) shows the classification graph algorithms and the distribution of test sample points of the LR, SVM, RF and LDA, respectively.

结果

每种算法的最佳性能

我们认为LDA的p值的最佳截断值为10^-4，LR、SVM和RF的p值的最佳截断值为10^-5。在上述最佳截止点的基础上，图4显示了每种算法根据最佳阈值对应的最佳性能所对应的准确性、灵敏度和特异性。x轴的三个坐标从左到右分别是accuracy, sensitivity, specificity，算法LDA, LR, RF, SVM用不同的颜色标记。在最优阈值下，四种算法的准确性没有显著差异，且准确率几乎都在90%以上。其中LR和LDA准确率最高，达到92.86%，SVM准确率为91.96%，RF准确率最低，为89.29%。在灵敏度方面，LDA表现较好，达到95.83%以上，其他三种算法在85% – 88%之间，说明LDA更倾向于基于较高的分类精度将样本分类为阳性。在特异性方面，LR和SVM算法表现较好，均为96.88%，说明这两种算法更倾向于将样本分类为阴性。

从一致性衡量分类效果方面，LR、SVM、RF和LDA的Kappa系数分别为0.8346、0.8364、0.8518和0.8364。这意味着四个模型的预测结果与实际分类结果是一致的。

Figure 4.LDA and LR perform better on CMV data. Figure depicts the optimal performance of each algorithm corresponding to the optimal threshold value to obtain the accuracy, sensitivity and specificity of each algorithm.

讨论

算法讨论

灵敏度是检测阳性样本的灵敏度程度，特异性是检测阴性样本的灵敏度程度，准确性是准确度的广义度量。灵敏度和特异性都不能过度强调。过分强调灵敏度的重要性容易使分类器过于敏感，增加实际阴性的假阳性率。反之，过分强调特异性容易使分类器过于保守，可能会错过大量的阳性信息。准确性、灵敏度和特异性都受到判断阈值的影响，因此我们通过AUC选择最佳的判断阈值对模型进行分类，并计算相应的准确率。

从图2中可以看出，具有较高的F1和AUC，或者具有较低的FDR和交叉熵损失的模型是较好的分类模型。此外，准确性、灵敏度或特异性越高，分类效果也越好。

由前文可知，LDA算法和LR算法的准确率最高，但LR算法在灵敏度和特异性上的差异大于LDA算法。当LDA的准确性最高时，可以同时考虑灵敏度和特异性，使两者同时处于较高水平。因此，对于CMV二维打乱后的数据，四种算法中性能最好的算法是LDA算法。主要原因是分割的数据更线性可分，所以LDA算法是更合适的选择。如果它是线性不可分的，LDA算法不太可能是性能最好的算法。

讨论

研究评价

如上所述，我们的研究创造性地将这四种二分类算法应用于高通量测序后的二维TCRβ阵列，诊断巨细胞病毒的感染史。事实证明，这种方法在实现这一目标方面非常有效。整体逻辑是可以自洽的。此外，我们尝试了不同的算法和不同的参数调整方法，以及用AUC确定的最佳判断阈值来计算准确率，从而大大提高了结果的准确率，平均准确率达到90%以上。

然而，目前仍有许多集成学习算法或神经网络算法或许可以获得较好的结果。在以后的文章中是否可以尝试多维度的科研探索，例如是否可以尝试其他的多维分类算法，比如降维算法，来获得对该疾病表达最关键的TCR序列，以及本文的方法是否也适用于其他疾病。

结论

我们的研究证明了四种二分类算法在用受检者独有的TCRβ和CMV相关TCRβ诊断CMV暴露史中发挥重要作用。从AUC评价维度来看，LDA算法在CMV病毒的二维数组中比其他三种算法表现更好。

综上所述，我们目前的研究揭示了一个重要信号，即如LDA的线性划分模型更有效，而随机森林等非线性可分算法的分割效果相对不准确，这可能是因为CMV数据样本的二维分布是线性可分的。重要的是，T-classifier^®是一种潜在的CMV和其他疾病的早筛、诊断方法。

参考文献

Zhou, K., Huo, J., Gao, C. et al. Applying T-classifier, binary classifiers, upon high-throughput TCR sequencing output to identify cytomegalovirus exposure history. Sci Rep 13, 5024 (2023). https://doi.org/10.1038/s41598-023-31013-z

关于艾沐蒽

杭州艾沐蒽生物科技有限公司由美国芝加哥大学科研团队回国创办，是一家专注于通过解码适应性免疫系统来改变疾病的诊断和治疗，并致力于推进免疫驱动医学领域发展的国家高新技术企业。

艾沐蒽站在适应性免疫系统研究的前沿，自主研发的免疫医学平台可揭示和翻译适应性免疫系统的遗传密码，并能应用于癌症、自身免疫性疾病、传染性疾病等免疫介导性疾病的诊断、监测和治疗中。

ImmunoDiagnostics | ImmunoMonitoring

免疫诊断 | 免疫监控

专注于免疫组高通量测序

长按关注艾沐蒽生物

ImmuHub | Seq-MRD | Seq-SHM

Immun-Traq| Immun-Cheq

Web：www.immuquad.com

Email：Contact@immuquad.com

Tel：0571-81061561

Address：杭州市上城区石桥路196号浙江省农创园

4号楼1层