2025-06-26
晶科科技首笔新能源场站电力代理交易落地,服务10万千瓦级光伏电站
了解详情
2025-08-02 12:05:47
? 人类基因组规划完成20多年来,跨越九成的非编码序列仍是未破译的“天书”,是基因组的“暗物资”。近日,浙江年夜学医学院郭国骥、韩晓平传授团队于《细胞》发布最新结果,其自立研发的AI生物年夜模子“女娲CE”(简称NvwaCE),为破译非编码序列提供了全新的东西。据悉,“女娲CE”年夜模子能从一级DNA序列出发,精准猜测脊椎动物基因突变对于细胞的表型影响,精度达单细胞级,正确率超90%。此外,它还有乐成猜测并经试验验证了稀有病镰刀型血虚症的基因医治位点,成为世界首例AI猜测的人类疾病医治性位点。“经由过程深度进修,那些人类暂时没法理解的繁杂语法,正于被AI进修、解析。”郭国骥就课题最新进展,接管了文报告请示记者专访。单细胞图谱,让AI年夜模子有了“精品教材”人类险些所有详细的心理性能都依赖卵白质来完成。于人类基因组中,编码序列(对于卵白质举行编码,直接表达为卵白质)仅占1%-2%,剩下的98%都长短编码序列(不会直接表达为卵白质,包罗调控序列)。这98%的非编码序列,于很长一段时间内,没法被理解。最近几年来,跟着AI及生物学研究的深切,科学家们发明,这些序列对于基因的表达调控,有可能被解读。“生命科学研究持久以‘还有原论’为主,也就是科学家会将某个表型还有原到某个基因,研究它的调控及功效。但进入调控序列,这类要领就行欠亨了。”郭国骥注释,非编码序列有一套繁杂周详的“语法体系”,决议了哪一个基因于什么时候、何地、以何种强度表达。每个调控序列的碱基,均可能于差别时间、差别类型细胞中饰演差别脚色。是以,用传统敲除了验证的要领,就像瞽者摸象。2020年,郭国骥团队完成为了小鼠及人类细胞图谱的一系列事情,他们最先思索,从生物的一级DNA序列寻觅细胞图谱的编码模式。其时,传统学界其实不理解。“凭甚么一级DNA序列就会决议最终表型?”但郭国骥认为,生物的表不雅、表型等繁杂征象的“因”,深植在DNA序列自己。从一级DNA序列出发,研究生物表型,远比直接研究生物表型特性之间的接洽更能找到素质纪律。传统表型检测表面、身高、指纹之类的宏不雅表型。郭国骥则将之邃密到单细胞级另外份子表型。“单个细胞内里的份子是甚么?咱们测的是这类‘没有成见’的份子表型。”为此,团队于传统的ATAC测序技能上自立研发出超高敏捷度、超高通量的单细胞级测序技能UUATAC-seq,使测序敏捷度于理论上晋升了4倍,通量晋升了10到100倍,可以于单日内高效绘制一个物种所有类型细胞核中的染色质可和性图谱。以此为基础,团队科学家绘制出涵盖哺乳类、鸟类、两栖类、爬行类、水生类五年夜类脊椎动物的单细胞图谱数据集。经由过程研究范式立异得到高质量的数据,是这个团队的焦点科研上风地点。据先容,外洋很多顶尖的基因组AI模子,好比近日Deepmind团队预发表的AlphaGenome,都是基在ENCODE项目举行数据练习。因为该数据集年月长远、最长已经跨越20年,其涵盖的基本是“群体细胞”“器官细胞”或者者于体外造就的“细胞系”数据,存于分辩率低、差别类型细胞稠浊的问题。用如许的数据集练习AI,比如用一本内容恍惚、稠浊的教材讲授生。相较而言,女娲CE的练习集可谓“精品”,所有数据于统一技能尺度下孕育发生,精度到达单细胞级别,数据噪音更少,有高度的可比性与纯净性。“可以说,咱们为AI提供了迄今为止最合适进修基因调控语法的练习集。”郭国骥说。更高精度带来惊人发明:“生命语法”比DNA序列自己更守旧与依靠年夜量数据、超长扫描窗口(读长)的生物深度进修算法差别,女娲CE采用多使命框架、超短扫描窗口,直接进修从一级DNA序列三木SEO-到生物体所有类型细胞表型的映照瓜葛。“AI学到了一些咱们人类暂时没法理解的繁杂法则。”郭国骥说,经由过程这类法则,就能让基因组的“暗物资”启齿措辞,进而猜测基因突变带来的后果。借助女娲CE,以500碱基对于(简称bp)的“短窗口”举行分段扫描,团队发明,于亿万年的演化长河中,脊椎动物的基因“调控语法”比其核苷酸序列自己更为守旧。“这象征着,于进化历程中,纵然物种的某段调控序列及已往已经彻底差别,但它们终极行使的功效依然近似。”郭国骥说,这一发明对于达尔文进化论中的“随机突变”提出了主要增补:脊椎动物的基因组突变并不是彻底随机,适者保存并不是仅仅依赖情况筛选,还有有一套深刻的内涵调控语法约束着进化历程。“任何跳出这套语法的突变,可能胚胎都没法形成。它于接管天然选择前,就被生命底层的逻辑裁减了。”这一发明自己,同样成为了女娲CE算法的主要构成部门,让它拥有超高泛化能力。女娲CE可以或许从基因组序列出发,猜测未经练习物种的细胞染色质可和性蓝图,并一次性猜测了包括人、猴、牛、猪、马、羊、熊猫七个物种的单细胞调控原件蓝图。女娲CE的正式发表,也象征着中国科学家团队于AI基因组年夜模子研发的赛道上已经祖先一步。团队暗示,相干数据及模子自己,将会全数开源。世界首例AI猜测基因位点乐成,开拓基因医治新路径要知道,许多遗传性疾病、稀有病,都是由于细胞的表型异样。以往,当科学家们试图经由过程基因编纂手腕医治这些疾病,只能经由过程“神农尝百草”的方式,不停测验考试,测验考试几百、上千次都不算多的。可是,有了AI,就能够按照异样表型特性,让AI猜测哪些基因位点最有可能让表型恢复正常。针对于镰状细胞病,女娲CE就猜测出了医治要害位点:胎儿血红卵白基因HBG1-68:A G。这是一个全新的、从未被记载过的位点。进一步试验显示,该位点于基因编纂后可以或许实现胎儿血红卵白表达量的显著晋升,这也是科学家初次于人类细胞中验证了基因组AI猜测的功效性位点。除了了“女娲”,还有有“华佗”“神农”……郭国骥坦言,他偏幸用中国传统神话为本身的算法定名,这既是对于传统文化的致敬,也寄托了一种但愿。“AI也许终极会逾越人类,向着‘神性’成长,就像神话中的女娲抟土造人,帮咱们理解以致创造生命,解决人类的难题。”郭国骥团队的下一步规划,是构建虚拟细胞,将调控元件模子与收集模子、卵白质布局模子等模块整合,创造出“数字小鼠”以致“数字人类”。有了如许的“数字生命”,科学家就能够高效举行虚拟试验,测试基因突变的影响或者筛选疾病药物及医治位点,从而年夜幅缩短研发周期、降低成本,并极年夜削减试验动物的利用,让将来的临床实验更安全、更精准。业余时间,郭国骥还有是一名歌者。他创作的歌曲《生命》中,有如许一句歌词:“宇宙浩瀚无限尽,却不和她的贵重……该怎样解开基因的密锁,该怎样理清神经的收集,千山万水寻寻找觅,春去秋来上下求索。”为生命求索,中国科学家从未停下进步的脚步。
郭国骥(左一)于引导团队举行试验。(受访者供图)