2026年5月,斯坦福大学K. Christopher Garcia团队联合芝加哥大学Aly A. Khan团队于《Nature Biotechnology》刊发最新研究。该研究融合高通量酵母展示技术与蛋白质语言模型,成功构建T细胞受体(TCR)肽段识别全景图谱(PRPs)。研究证实,TCR的功能活性主要由其抗原识别模式决定,而非氨基酸序列相似度;同时筛选出强直性脊柱炎等自身免疫病相关新型抗原,为免疫疾病机制探究及免疫治疗研发奠定了全新技术基础。


摘要
T细胞受体(TCR)的抗原特异性无法仅通过序列信息进行可靠预测,序列高度相似的TCR可能识别完全不同的抗原,而序列差异显著的TCR却可能识别同一抗原。本研究构建了一套整合实验与计算的技术体系,通过高通量酵母展示技术与微调后的蛋白质语言模型(pLMs)相结合,为单个TCR生成肽识别全景图谱(PRPs),全面解析其与数百万种肽段的结合特性。
本研究聚焦于强直性脊柱炎与急性前葡萄膜炎患者来源的HLA-B*27:05限制性TCR,此类TCR的抗原识别主要由CDR3β链介导。基于PRPs训练的模型,在T细胞活化预测任务中的性能显著优于AlphaFold3等传统结构预测工具。
研究证实,模型对新TCR的泛化能力与功能距离(PRP差异度)高度相关,而非序列相似性;同时引入了模型固有不确定性指标以量化预测置信度,为疾病相关抗原的发现及TCR工程化改造提供了高效、可规模化的技术路径。

引言
TCR识别抗原肽-MHC复合物是适应性免疫的核心,但TCR序列与抗原特异性无固定对应关系,传统序列分析法、主流结构预测模型均存在明显短板,难以挖掘自身免疫病相关隐蔽抗原。本研究整合高通量实验与机器学习技术,构建平台并绘制TCR肽识别全景图谱。该体系可精准预测T细胞活化,成功鉴定出强直性脊柱炎、急性前葡萄膜炎的新型自身抗原,同时明确模型泛化依据为TCR功能差异,为免疫研究与免疫疗法研发提供了新方案。

方法
一、TCR筛选
研究共纳入16种来自强直性脊柱炎、急性前葡萄膜炎样本的疾病相关TCR,分为三类:
(1)公共家族TCR:含TCR4.1、8.4、9.1,均为HLA-B*27阳性患者来源,经流式分选、单细胞测序获得,属经典BV9公共家族。
(2)非BV9 TCR:以TCR019.1为代表,取自葡萄膜炎患者房水,不携带经典基序,拓展了TCR家族范围。
(3)YeiH四聚体分选TCR:含9种TCR,来自患者外周血,经抗原特异性四聚体筛选,覆盖多种克隆型。
二、工程化TCR与α链互换
构建突变体:在 TCR19.2的CDR3β引入1-3个氨基酸突变,保留 α链,获得5种工程变体,用于模型泛化测试。
构建嵌合TCR:互换匹配的α链,验证β链主导识别的机制,在细胞中表达并检测活化差异。
三、PSG5四聚体流式检测
伦理与入组:研究符合伦理,患者严格按疾病标准入组,健康对照无自身免疫病,均确认为HLA-B*27阳性。
样本处理:采集外周血,分离冻存免疫细胞,用于后续流式检测。
流式染色:用PSG5等特异性四聚体标记细胞,染色、固定后上机检测,分析抗原特异性T细胞频率。
四、TCR蛋白表达
将TCRα/β链克隆至载体,共转染Expi293细胞,表达后经亲和、浓缩、生物素化、层析纯化,获得高纯度TCR。
五、酵母肽文库构建与筛选
构建含固定锚定残基的9肽酵母文库,经多轮阳性、阴性筛选,富集特异性肽序列,用于深度测序。
六、文库深度测序
提取酵母DNA,扩增肽序列,测序后分析富集肽种类、数量,构建 TCR识别数据集。
七、T 细胞活化实验
载体构建:将TCR、HLA分别导入慢病毒载体,感染细胞获得稳定表达细胞系。
共培养检测:抗原呈递细胞负载肽,与T细胞共培养,检测活化标志物。
八、HLA蛋白原核表达
HLA重链、β2m在大肠杆菌中以包涵体表达,裂解洗涤后溶解备用。
九、pMHC复性
将肽、HLA重链、β2m混合复性,透析纯化,获得功能性pMHC复合物。
十、复合物结晶与结构解析
纯化TCR-pMHC复合物,结晶、衍射、解析原子结构,阐明识别机制。

结果
一、搭建整合平台,绘制TCR-肽识别全景图谱
打造实验与计算结合的技术平台,解析TCR与肽抗原的作用规律。借助高通量酵母展示联合二代测序技术,检测TCR和肽段的结合情况。针对特定分型设计肽库,固定关键锚定氨基酸,兼顾肽库稳定性与检测全面性。团队利用16种关联强直性脊柱炎、急性前葡萄膜炎的TCR完成测试,得到海量识别数据,并结合蛋白质语言模型建模分析TCR作用规律。


作者通过Fig.2给出了整篇文章的核心:PRP不是给TCR做普通分类,而是把TCR放进“肽识别空间”里重新定位。真正能定义TCR关系的,是它们识别肽的整体模式。


Fig.2从序列、结构到功能,层层递进地揭示了HLA-B*27相关TCR的多样性:
序列≠功能:即使序列相似,TCR的交叉反应性和肽识别谱也可能完全不同。
结构决定特异性:β链主导的识别模式是这类TCR的共性特征。
功能距离是关键:基于肽识别全景图谱的分析,比传统的序列分析更能反映TCR的真实特异性。
这也是后续研究中,模型预测性能优于传统序列/结构方法的根本原因。
二、PRPs证实TCR功能聚类和序列相似性无关
选用16种致病相关TCR,其CDR3区域存在明显序列差异。结构分析显示,这类TCR主要依靠β链实现与肽段的结合。通过计算功能距离、多维标度可视化等方式分析发现,TCR会依据肽识别偏好形成独立类群,该聚类结果和基因序列相似度没有关联,也通过多种降维算法验证了结论的稳定性。
三、依托PRP优化模型,精准预测肽段结合特性
利用肽识别图谱数据微调蛋白质语言模型,模型可高效区分结合与非结合肽段。实验对比发现,新增α链序列并不能提升预测效果,证明β链是决定肽识别特异性的核心。并且定位出影响结合效果的关键氨基酸位点,同时利用模型筛查人类蛋白组,筛选出十余种可结合多种致病TCR的潜在自身抗原。


Fig.3直观展示了模型的核心作用:用PRP训练蛋白语言模型,让模型学会TCR识别肽的规则的步骤。
结构背景:展示了TCR8.4、19.2、4.3与HLA-B*27:05-肽复合物的结构。
实验肽基序:上方的序列Logo图,是从酵母展示数据中得到的真实结合肽段的偏好性。
四、模型可有效预测肽段引发的T细胞活化反应
T细胞活化是衡量相互作用的核心指标,实验证实该模型能精准区分可激活T细胞的肽段,性能优于传统结构预测工具。研究筛选出多种新型自身抗原,其中部分肽段激活能力强于已知抗原。单独依靠MHC强结合能力无法实现T细胞活化,而源自PSG5的肽段契合病症发病部位,被证实是两类自身免疫病的全新候选抗原。

Fig.4是该研究的“验证闭环”,它从细胞功能、抗原反应、临床相关性和结构解析四个层面,验证了模型预测的候选自身抗原(特别是PSG5肽段)的生物学意义,同时证明了模型在预测T细胞活化上的优势:
功能验证:细胞实验证明,模型预测的肽段能有效激活T细胞。
性能碾压:模型在预测T细胞活化上,显著优于传统结构预测方法。
临床关联:发现并验证了与疾病(尤其是眼部并发症)相关的新型自身抗原PSG5。
结构支撑:晶体结构证明了模型预测的生物学合理性。
五、联合建模提升同谱系TCR的预测泛化能力
多种致病TCR可识别同一类抗原,说明它们拥有相似的作用机制。通过人工突变构建同源TCR群组,单模型在肽结合预测中表现稳定,但预测T细胞活化效果有限。将同谱系TCR数据整合后开展联合建模,模型预测能力得到显著提升,证明整合同源受体数据,能够更精准地识别可激活T细胞的活性肽段。


Fig.5聚焦于TCR模型的泛化能力与知识迁移,通过TCR19.2及其5种CDR3β突变体(C1-C5),系统验证了模型在局部“TCR邻域”内的预测规律:
序列≠泛化能力:TCR的微小突变会导致功能的显著变化,模型的泛化能力取决于TCR间的功能距离,而非序列相似度。
联合训练是关键:在功能相关的TCR邻域内进行联合训练,可以实现知识迁移,显著提升模型对边缘突变体的预测性能。
模型具备生物学意义:模型性能的变化,真实反映了TCR识别抗原的分子机制,为后续优化模型和理解TCR交叉反应提供了指导。
核心结论是:TCR之间的功能距离,而非序列相似性,决定了模型的泛化性能。
六、探究模型泛化边界,建立可靠性评估体系
探索模型对全新TCR的预测能力,提出功能距离才是决定预测效果的关键,而非基因序列相似度。团队引入马氏距离评估模型预测可靠性,该数值和实际功能差异高度相关。验证实验表明:新TCR与训练样本越相近,模型预测结果越准确,这套评估方式可有效指导后续TCR相关实验研究。

Fig.6阐明了模型对新TCR的泛化能力,核心发现是:TCR间的功能距离(肽识别谱差异)是预测模型泛化性能的关键指标,而非序列相似度。
序列相似度≠功能相似度:传统的序列编辑距离、TCRdist等指标无法反映真实的功能差异。
功能距离是关键:TCR间的JS距离(基于肽谱)与模型性能强相关,是衡量泛化能力的黄金标准。
马氏距离是可量化的工具:模型嵌入空间中的马氏距离,可以作为预测新TCR泛化难度的“置信度指标”。
性能差异体现在基序层面:模型性能差的本质,是未能正确捕捉TCR识别抗原的关键基序。

讨论
一、 搭建全新实验计算整合研究平台
搭建以肽识别全景图谱(PRPs)为核心的整合分析平台,结合高通量pMHC酵母展示技术与微调后的蛋白质语言模型。该平台能够高分辨率解析TCR序列与功能的内在关联,产出的数据集与预测模型,可为TCR特异性图谱绘制、疾病抗原挖掘、TCR预测泛化规则研究提供全新的技术支撑与研究思路。
二、明确TCR聚类规律与链功能分工机制
研究证实,即便受同种MHC基因限制,TCR也可依据肽识别特征形成不同功能聚类。明确TCRβ链主导核心抗原识别特异性,α链仅微调识别效果、调控免疫反应强度。基于PRP的分类方法,弥补了传统序列分组技术的不足,精准捕捉TCR与肽段相互作用的细微规律。
三、模型可突破结合层面,精准预测T细胞活化功能
该模型仅依靠肽结合数据训练,却能有效预测肽段诱导的人体T细胞活化反应,性能优于主流传统结构预测工具。模型可捕捉静态结构无法体现的构象动态、能量变化等关键信息,还成功筛选出强直性脊柱炎新型自身抗原PSG5,为自身免疫病的发病机制研究提供了新依据。
四、提出功能距离标准,优化TCR预测泛化能力
推翻仅靠序列相似度判断TCR功能的传统思路,证实TCR间的功能距离才是预测准确性的核心关键。研究引入马氏距离量化模型预测可靠性,可精准评估未知TCR的预测置信度。同时证实,同功能TCR邻域联合建模,能进一步提升模型对精细抗原识别的预测能力。
五、拓展TCR交叉反应性的研究认知
研究序列高度相似的TCR,其肽识别功能图谱也可能存在明显差异。这意味着在疾病相关TCR克隆研究中,无法单纯依靠序列相似度,判断TCR的分子模拟与交叉反应特性。
六、客观梳理研究存在的局限性
本研究仅聚焦单一MHC亚型的致病TCR,传统序列聚类工具在高相似TCR群体中分辨率不足。同时实验肽库的固定设计,虽提升了数据质量,但也限制了肽段筛选范围。研究团队已通过多类独立实验验证候选抗原,最大程度降低实验设计带来的结果偏差。
七、平台具备广泛的科研推广应用价值
尽管存在局限,这套整合研究平台通用性极强,可适配多种MHC基因亚型,也能应用于肿瘤、感染性疾病的免疫组库研究。模型可精准预测活化肽段并输出置信评分,能够指导TCR免疫治疗的精准设计,助力研发出特异性更强、安全性更高的工程化免疫受体。
本研究成功搭建了以肽识别为核心的TCR特异性研究框架,实现了TCR识别特性的精准定义与预测。这套全新的实验计算整合平台与配套数据资源,不仅深化了人类对适应性免疫的基础认知,也为免疫学研究与生物医疗技术研发提供了高效的新型工具。
艾沐蒽专注于免疫驱动医学领域多年,开发的ImmuHub®技术平台方法全面,检测物种多样,建库方法具有灵活性,致力于为各大高校、医院、科研机构、企业等提供优良的科研服务。


ImmuHub®部分科研方向

ImmuHub®适用基因座

部分数据分析结果展示

杭州艾沐蒽生物科技有限公司成立于2016年,是国际前沿的专注于免疫驱动医学技术的国家高新技术企业和专精特新企业。创始人团队来自美国芝加哥大学,在2010年开始使用免疫组基因高通量测序技术开展各种疾病相关研究,于2016年通过自主研发,全国首家推出NGS-MRD血液肿瘤微小残留病(MRD)检测Seq-MRD®,并授权泛生子使用。同时,公司拥有Immun-Traq®肿瘤治疗伴随诊断、Immun-Cheq® 免疫力测评以及ImmuHub®免疫组测序科研服务产品,并布局有基于AI机器学习算法的T-classifier®肿瘤早筛、单细胞测序、新抗原、TCR和抗体发现等平台管线。目前为止发表了60余篇论文,其中包括:The New England Journal of Medicine(IF:158.5), The Lancet(IF:98.4), Nature(IF:65), Signal Transduction and Targeted Therapy(IF:40), Cellular and Molecular Immunology(IF:24), Nature Communications (IF:17)等多篇高分杂志。公司构建几十项发明专利和软件著作权为核心的自主知识产权体系,为医院临床、生命科学研究、新药开发等提供解决方案和产品。艾沐蒽专注于通过解码适应性免疫系统来改变疾病的诊断和治疗,并致力于推进免疫驱动医学领域发展。


