Advanced Science | 自动化+机器学习,罗小舟课题组攻克代谢途径改造不确定性的技术壁垒

北京时间2024年2月6日,中国科学院深圳先进技术研究院合成所罗小舟团队与Jay D. Keasling团队合作在Advanced Science发表题为 “Pathway evolution through a bottlenecking-debottlenecking strategy and machine learning-aided flux balancing” 的文章。

这项研究旨在解决代谢途径工程中的一个关键性问题:基因上位效应限制了其进化潜力和适应性,导致进化过程的不确定性。例如,一个酶的微小改造可能会使另一个酶成为途径的瓶颈,这可能需要数千年才能增强或开发新功能。因此,如何以更少的进化时间和迭代次数达到数千年自然进化过程所需的效果,一直是该领域研究的难点。针对上述问题,研究团队利用自动化大设施平台技术,确定可控的进化轨迹,实现了代谢通路多个关键性基因的自动化同步进化。该研究还搭载了ProEnsemble机器学习框架,进一步缓解了进化途径各基因间的上位效应影响,进而创造了一个高效的通用型底盘来合成黄酮化合物。这项工作(DOI: 10.1002/advs.202306935)可以有效克服代谢途径进化不确定性的技术难题。这是罗小舟团队在2023年开发酶挖掘与进化的UniKP大语言模型框架后(Nat. Commun. 2023),在IT和BT交叉领域的又一重要进展。这项研究还融合了自动化技术和机器学习技术的优势,可以显著提高底盘开发的速度和效率,减少研发时间,降低经济成本。这也为推进生物智能制造领域的发展,提供了前沿的技术路线和全新的解决方案。

 

文章上线截图2.png

https://doi.org/10.1002/advs.202306935

(点击文末“阅读原文”可直达文章链接)


01 探秘代谢途径进化“速度之谜”:基因上位效应是否存在?

在本项研究中,研究团队试图解决一个合成生物学领域的科学问题:如何在特定的进化轨迹中获得最优的突变组合。但是,不同突变组合在不同的背景下会呈现出不同的表现,该种现象称为基因上位效应。这种效应将导致途径进化的不确定性,限制进化潜力和适应性。为了验证这个现象,研究团队以柚皮素代谢途径为例,首先确定了TAL有义突变体,然后在不同的基因组合背景下评估了其适应性,最终证实了基因上位效应在代谢途径进化过程中的普遍存在。

首先,将TAL基因放置于不同拷贝数、弱启动子质粒,其余关键性代谢基因维持原质粒(图1),发现当TAL基因被放置在中高拷贝数质粒ColE1时能获得最高柚皮素产量。然而,在该背景质粒下,直接筛选TAL的随机突变库时,未能获得产量更高的有义突变体,揭示了复杂的基因上位效应可能诱发途径进化陷入局部最优解。为解决该问题,该团队将TAL随机突变库置于低拷贝数质粒,以创造一个人工代谢瓶颈,确保TAL的表达和活性是限制柚皮素产量的唯一因素。在这种情况下,突变体的进化轨迹更为清晰,在产量达到其本身在中高拷贝数质粒上所能达到的最高产量之前,理论上不会遇到中间体毒性或复杂调控等问题而导致进化的不确定性问题。基于此,研究团队获得了7株在该背景下能显著提升柚皮素产量的TAL突变体,并确认了其突变位点。随后,将野生型TAL及7种变体放置于中高质粒,发现所有TAL变体的柚皮素产量均低于其野生型的最高产量(357.66 mg/L)。上述结果证实了TAL基因置于中高拷贝数质粒(如ColE1 origin)时,基因上位效应可能会掩盖柚皮素的有义突变体,导致代谢途径在直接进化中往往只能达到次优水平;这也解释了途径进化常出现微小或无明显效果的原因。


图1 探究柚皮素代谢通路基因上位效应(以TAL基因为例).png

图1 探究柚皮素代谢通路基因上位效应(以TAL基因为例)


02 自动化平台加速代谢途径同步进化:开辟酶活性与适应性新视野

改变外部环境可重塑途径进化适应度特性,解决代谢途径进化陷入局部最优解的困局。因此,研究团队逐个降低各关键基因表达水平,进而改变代谢途径关键性基因进化的适应性。为了达成同步自动化辅助酶进化,研究团队还进行了如下设计:1)仅用终产物柚皮素响应的分子探针系统作为评估途径代谢能力的标准,以实现统一的筛选方法;2)搭载自动化大设施平台技术,在清晰进化轨迹内实现各基因同步、迭代进化。

该自动化大设施平台2周内可实现挑菌、培养、突变库筛选、备选突变体产物提取等常规流程,整个操作与手工操作并无差异,证实了自动化大设施平台在代谢途径进化过程中的可靠性和准确性。此外,该平台通量可达到1.1万克隆子分选/次,即单次流程可同步进化2个基因(5000克隆子/每个基因/单次)或进化1个基因(10000克隆子/每个基因/单次)。


图2 确认柚皮素关键性基因可控范围内的进化轨迹.png

图2 确认柚皮素关键性基因可控范围内的进化轨迹


随后,该自动化大设施平台技术实现了4CL和CHS基因在清晰进化轨迹内的定向进化(图2):低水平表达各基因(低拷贝数背景)为进化起点,即人工瓶颈状态;随拷贝数增强,柚皮素产量达到最高阈值,即为该酶能进化到的最低阈值状态(人工瓶颈解除状态)。最终,分别从约5000个克隆子库中筛选到12和57个4CL和CHS突变体,对其最高的5和2个突变体分别进行产量和突变位点分析。4CL-11C1和CHS-9H9柚皮素产量与其对应的人工瓶颈解除状态相似,展示了在清晰轨迹范围内人工瓶颈创造与解除策略可实现代谢途径高效进化,也进一步证实了上位效应可能会限制途径进化的边界。此外,4CL-11C1与CHS-9H9的kcat/KM值比其野生型分别显著增强了2.07倍与4.16倍(表1)。部分TAL与CHS突变位点不在催化核心,揭示了利用高通量自动化大设施平台技术可高效探寻理性设计难以预测的潜在活性远端位点。该发现颠覆了传统理性设计预期,也为我们提供了一个新视角:高通量自动化大设施平台技术可用于探索之前未知的、与酶活或特异性有关的关键性位点,有助于推动生物工程和药物设计等领域发展,为我们提供了解锁酶潜能和拓展生物催化应用范围的新钥匙。

 

图3在清晰进化轨迹范围内平行进化柚皮素关键性基因(自动化大设施平台)与探究基因间上位效应.png

图3 在清晰进化轨迹范围内平行进化柚皮素关键性基因(自动化大设施平台)与探究基因间上位效应


03 揭秘基因上位效应:重塑代谢途径的进化与适应性

为进一步解密基因上位效应是否普遍存在、且是否会造成代谢途径进化不确定性等问题,研究团队对各基因的野生型和有益突变体进行了交叉配对并评估了各工程菌柚皮素合成能力(图3与4)。结果显示,在4CL和CHS野生型基因组合背景下,所有TAL突变体柚皮素产量显著降低;而在4CL和CHS突变体组合背景下,野生型TAL柚皮素产量略微增强(图4)。此外,还发现了不同基因上位效应现象:如TAL-26E7和TAL-28D11 与4CL-11C1和CHS-9H9突变体展现出较强的符合上位效应(sign epistasis);其余TAL突变体呈现出正上位效应(positive epistasis);4CL-11C1与TAL-26E7和CHS-9H9突变体呈现出负上位效应(negative epistasis);CHS-9H9与TAL-26E7和4CL-11C1突变体展现出双向符号上位效应(reciprocal sign epistasis)(图3与4)。这些普遍存在的基因上位效应无疑阻碍了途径进化进程,致使途径进化陷入局部最优解的困境。此外,高精度预测酶突变体的任务极具挑战,随机突变库介导的定向进化过程常为“运气”或“偶然”事件。因此,在清晰轨迹的可控范围内同步进化各限速酶,可提高代谢改造过程的可预测性,有效解决代谢进化不确定性的问题。

 

图4 探究基因间上位效应.png

图4 探究基因间上位效应

 

表1 柚皮素关键性基因及突变体酶动力学信息汇总.png

表1 柚皮素关键性基因及突变体酶动力学信息汇总

 

04 优化启动子组合数据,IT技术助力进一步缓解进化通路基因上位效应

鉴于基因上位效应影响,进一步迭代进化上述3个关键性基因可能会诱发代谢通路失衡,导致进化不确定性。为此,本团队开发了ProEnsemble机器学习框架(图5),优化进化通路启动子组合,缓解进化途径的基因上位效应影响。本研究尽可能选取不同分布的数据,避免训练进入局部最优解,根据Al3+信号,从约1000个克隆子中收集到相对平衡的数据集,柚皮素产量范围在50.8至1044 mg/L之间。Top1的NAR1.0菌株柚皮素产量比对照组高出4.44倍。通过对数据集进行十折交叉验证,评估13种常规预测器的均方根误差(Root Mean Square Error, RMSE),随后通过前向模型选择,将误差最小的预测器依次进行集成,选择RMSE最小的集成模型作为最终的预测模型。皮尔逊相关系数(Pearson Coefficient Correlation, PCC)也达到了0.74,显示出该模型在真实值和预测值之间有更好的相关性。

该ProEnsemble模型预测的Top5菌株柚皮素产量均高于700 mg/L,比随机采样(960样本有5个高产菌株)更具高效性和准确性。然而,该数据集仍存在不平衡分布问题,可能限制了模型的预测能力,导致Top5菌株产量均未超过NAR1.0菌株。为此,重新从1500个克隆子中进一步扩大训练集,分别用高于400、500、600、700和800 mg/L数据集优化模型。最终,在初始数据集中增加27个高于600 mg/L的数据集后,模型表现最佳,PCC从0.74提高到0.82,上述结果揭示了数据集平衡分布对增强模型性能的重要性。结果显示,第二轮预测的Top5菌株均能高效合成柚皮素。NAR2.0产量最高,为1.21 g/L,比NAR1.0高出16%,比未经启动子优化的初始构建体高出5.16倍。值得注意的是,随机启动子库中超过99.11%的菌株产量低于1g/L,揭示了ProEnsemble集成模型可显著提升挖掘高产菌株的可能性。

 

图5 机器学习框架ProEnsemble进一步缓解进化通路各基因间的上位效应(机器学习模块).png

图5 机器学习框架ProEnsemble进一步缓解进化通路各基因间的上位效应(机器学习模块)


此外,我们用NAR2.0在1L发酵罐中进行分批补料发酵,12h柚皮素产量为660 mg/L,48h时达到3.65 g/L,这是文献中报道的直接从酪氨酸生产柚皮素的最高产量,为文献报道以酪氨酸为底物对应产量的3.41倍,为香豆酸中间体投喂发酵产量的3.02倍(图5)。鉴于本研究仅改造了途径酶和启动子,未来的代谢工程策略可进一步提高柚皮素产量。

05生物智能制造突破:通用型底盘高效合成黄酮类化合物

最后,研究团队仅通过过表达关键性合成基因,实现了染料木素、樱花素和橙皮素等黄酮类化合物的高效合成,其中染料木素达到72.32 mg/L,樱花素为223.39 mg/L,橙皮素为82.50 mg/L,各黄酮产量均高于文献报告水平(借助了一系列代谢工程改造)(图6)。上述结果可重塑植物黄酮合成潜能的理解,为高附加值化合物的生产提供了新的思路和策略,展现了生物智能制造在现代工业中的巨大潜力和应用前景。


图6 柚皮素底盘高效合成下游黄酮类化合物.png

图6 柚皮素底盘高效合成下游黄酮类化合物


06总结与展望

针对基因上位效应在途径进化中的普遍性及其带来的局部最优解困境,本研究团队以柚皮素代谢途径为范例,基于自动化大设施平台技术,在清晰进化轨迹的可控范围内实现了代谢通路多个关键性基因的同步进化,并借助ProEnsemble机器学习框架,进一步缓解了进化途径的基因上位效应影响,显著提升了底盘开发速度和效率,实现了柚皮素产量从实验室到工业规模生产的跨越。该项工作不仅攻克了代谢途径进化不确定性的技术壁垒,减少了研发时间并降低了经济成本,在代谢工程、酶工程等领域及其工业应用中也极具意义:为生物智能制造提供了前沿的技术路线和全新的解决方案;为合成生物学在现代工业中的应用开辟了新的可能性。

 

中国科学院深圳先进院合成生物学研究所罗小舟研究员与Jay D. Keasling教授为本文的通讯作者,团队成员助理研究员邓华祥与硕士研究生余函为文章共同第一作者,研究助理何佳慧、梁维悦、邓艳午等在生物实验等方面做出了重要贡献。该研究获得国家重点研发计划、国家自然科学基金委、广东省基础与应用基础研究基金委、深圳市科技计划等多个项目的支持,以及深圳市微生物药物智能制造重点实验室、深圳合成生物学创新研究院和定量合成生物学重点实验室等平台的支持。同时,感谢科研助理魏珍琴在项目实施过程中协助组织会议讨论等支撑工作。

 

课题组招聘

罗小舟,深圳先进院合成生物学研究所研究员,博士生导师,合成生物化学研究中心执行主任、PI,深圳市合成生物研究重大科技基础设施副总工艺师,森瑞斯生物科技(深圳)有限公司创始人。2010年于新加坡南洋理工大学获得学士学位,2016年于美国圣地亚哥斯克里普斯研究所获得化学专业博士学位(导师Peter G. Schultz院士),2016-2019于加州大学伯克利分校进行博士后研究(合作导师Jay D. Keasling院士)。2019年加入中国科学院深圳先进技术研究院。先后入选国家重大人才工程(青年)专家、广东省杰青、深圳市优青、深圳市国家级高层次人才、2023南山十大杰出青年等。在Nature, Nature Chemical Biology, Cell Chemical Biology, Nature Synthesis, Nature Communications, PNAS, Angewandte Chemie,Advanced Science,Metabolic Engineering等知名学术期刊上发表论文40余篇。课题组聚焦于合成生物学领域中生命体内生物化学过程相关研究,主要结合遗传密码扩充技术,酶的定向进化,基因挖掘和代谢工程等多种化学生物学方法,基于大数据机器学习及高通量自动化,深入研究多种不同类别的天然产物及其衍生物的生物全合成的方法,并利用合成生物学方法,将研究成果转化至制药、个性化治疗、新材料等领域。

课题组现长期诚聘生物、化学、生物信息学、生物医学工程等交叉学科背景,或有酶定向进化、机器学习、高通量筛选、天然及非天然化合物的生物全合成等研究背景的博士后,欢迎感兴趣的同志投递简历至邮箱xz.luo@siat.ac.cn。