谷歌DeepMind的AlphaGenome今天宣布推出,这不仅仅是科学领域AI竞争中的又一个新成员。通过API访问可用于非商业研究,并且有广泛的文档和社区支持托管在GitHub上,这标志着基因组学,曾经局限于专业实验室和付费数据集,正在迅速向开放科学迈进。
这是一件相当重要的事情。
想象一下,你的DNA就像一本关于你身体如何运作的巨大说明书。很长一段时间以来,科学家们只能真正理解那些直接告诉你身体如何构建东西的部分,比如蛋白质。但你大部分的DNA——超过90%——并不是这样的。它并不直接构建任何东西。人们曾经称之为“垃圾DNA”。
现在我们知道,“垃圾”实际上在做一些重要的事情:它帮助控制真正的指令何时何地被使用——有点像一个充满开关和旋钮的控制面板。问题是?它真的很难读取和理解。
这就是AlphaGenome的用武之地。
AlphaGenome是谷歌DeepMind构建的一个强大的AI模型,它可以比以往任何东西更好地读取这些令人困惑的DNA部分。它使用先进的机器学习(就像图像生成器或聊天机器人背后的那种)来查看巨大的DNA片段——长达一百万个字母——并找出哪些部分是重要的,它们如何影响你的基因,甚至突变如何可能导致疾病。
这有点像拥有一个超级智能的AI显微镜,不仅能读取说明书,还能弄清楚整个系统是如何开启和关闭的——以及当事情出错时会发生什么。
有趣的是,DeepMind通过API(计算机与其通信的一种方式)分享这个工具,因此全球的科学家和医学研究人员可以在他们的研究中免费使用它。这意味着它可能有助于加速在遗传疾病、个性化医学甚至抗衰老治疗等领域的发现。
简而言之:AlphaGenome帮助科学家读取我们之前不理解的DNA部分——这可能改变我们治疗疾病的方式。
AlphaGenome是一个深度学习模型,旨在分析DNA序列如何调节基因表达和其他关键功能。与解析短DNA片段的旧模型不同,AlphaGenome可以处理长达一百万个碱基对的序列——这是前所未有的规模,使其能够捕捉到以前方法遗漏的远程调控相互作用。
AlphaGenome的核心优势在于其多模态预测引擎。与以前只能预测一种基因组活动的模型不同,该模型输出基因表达(RNA-seq,CAGE)、剪接事件、染色质状态(包括DNase敏感性和组蛋白修饰)以及3D染色质接触图的高分辨率预测。
这使得它不仅可以准确定位细胞中哪些基因被开启或关闭,还可以理解基因组折叠、编辑和可及性的复杂舞蹈。
如果你曾在本地使用过Stable Diffusion或普通的开源LLM,架构虽然显著,但仍然相当熟悉:AlphaGenome使用了一个受U-Net启发的神经网络,具有大约4.5亿个可训练参数。
是的,如果与即使是较弱和较小的语言模型(它们的参数达到数十亿)相比,这个数字相当低。然而,考虑到DNA只涉及4种碱基和仅两对——基本上整个人类基因组不过是30亿对A-T和C-G字母的组合——这是一个非常特定的模型,旨在极其出色地完成一项单一任务。
该模型具有一个序列编码器,将输入从单碱基分辨率下采样到更粗糙的表示,然后变换器模型层处理长距离依赖关系,最后解码器将输出重建回单碱基水平。这使得在不同分辨率下进行预测成为可能,允许进行细粒度和广泛的调控分析。
该模型的训练依赖于大量公开可用的数据集,包括ENCODE、GTEx、4D Nucleome和FANTOM5——这些资源共同代表了人类和小鼠细胞类型的数千个实验特征。
而且这个过程也相当快速:使用谷歌的定制TPU,DeepMind在仅仅四个小时内完成了预训练和蒸馏过程,使用的计算预算仅为其前身Enformer的一半。
AlphaGenome在24个序列预测测试中超过了22个最先进的模型,在26个变异效应预测中超过了24个,这在增量改进为常态的基准测试中是一次罕见的全胜。事实上,它的表现如此出色,以至于可以比较突变和未突变的DNA,预测遗传变异的影响只需几秒钟——这是研究疾病起源的关键工具。
这很重要,因为非编码基因组包含许多调控开关,控制细胞功能和疾病风险。像AlphaGenome这样的模型正在揭示人类生物学中有多少是由这些以前不透明的区域所支配。
今天,AI对生物学的影响难以忽视。以Ankh为例,这是由慕尼黑工业大学、哥伦比亚大学和初创公司Protinea的团队开发的蛋白质语言模型。Ankh将蛋白质序列视为语言,生成新蛋白质并预测其行为——类似于AlphaGenome如何翻译DNA的调控“语法”。
另一项相关技术,Nvidia的GenSLMs,展示了AI在预测病毒突变和聚类遗传变异方面的能力,以支持大流行研究。同时,利用AI推动化学和基因基础的抗衰老干预的进展,突显了基因组学、机器学习和医学的交集。
AlphaGenome最重要的贡献之一是其可及性。该模型并未限制于商业应用,而是通过公共API提供给非商业研究。
虽然它尚未完全开源——这意味着研究人员无法在本地下载、运行或修改它——但API和随附资源允许全球科学家生成预测,调整不同物种或细胞类型的分析,并提供反馈以塑造未来的发布。DeepMind已表示计划在未来进行更广泛的开源发布。
AlphaGenome分析非编码变异的能力——大多数与疾病相关的突变都在这一领域——可能会解锁对遗传疾病和罕见疾病的新理解。其高速变异评分也支持个性化医学,治疗方案根据个体独特的DNA特征量身定制。
目前,非编码基因组不再是一个黑箱,AI在基因组学中的角色只会不断扩大。AlphaGenome可能不是将我们带入赫胥黎的《美丽新世界》的模型,但它清楚地表明了事物的发展方向:更多的数据,更好的预测,以及对生命运作方式的更深入理解。
免责声明:本文章仅代表作者个人观点,不代表本平台的立场和观点。本文章仅供信息分享,不构成对任何人的任何投资建议。用户与作者之间的任何争议,与本平台无关。如网页中刊载的文章或图片涉及侵权,请提供相关的权利证明和身份证明发送邮件到support@aicoin.com,本平台相关工作人员将会进行核查。