最后的棒棒,PB 级数据处理应战,Kubernetes怎么助力基因剖析?,反恐特战队

频道:推荐新闻 日期: 浏览:157

作者李鹏,原文首发于InfoQ,《容器混合云,Kubernetes 助力基因剖析》

James Watson 和 Francis Crick 于 1953 年发现了 DNA 的双螺旋结构,从此揭开了物种进化和遗传的奥妙面纱,敞开了人类对数字化遗传的认知,可是人类基因奥妙却是一点点被读懂的。

1956 年,一则癌症和染色体相关性的发现令整个癌症研讨界轰动:缓慢骨髓性白血病(CML)患者的第 22 号染色体,比一般然显着短许多。二十余年后,学者们发现,9 号染色体的 Abl 基因,与 22 号染色体的 BCR 基因连到了一块,交织易位发生了一条 BCR-Abl 交融基因。BCR-Abl 蛋白一向处于活泼状况且不受操控,引发不受控的细胞分裂,然后导致癌症。

火日立念什么

也便是说,只需细胞表达 BCR-Abl 蛋白,就有血癌危险。美国着最终的棒棒,PB 级数据处理应战,Kubernetes怎样助力基因剖析?,反恐特战队手深入研讨,并成功推出了医治缓慢骨髓性白血病的新药。这,便是格列卫,也是上一年《我不是药神》中被咱们熟知的‘高价药’。

在格列卫诞生前,最终的棒棒,PB 级数据处理应战,Kubernetes怎样助力基因剖析?,反恐特战队只要 30% 的缓慢骨髓性白血病患者能在确诊后活过 5 年。格列卫将这一数字从 30% 进步到了 89%,且在 5 年后,仍旧有 98% 的患者取得了血液学上的彻底缓解。为此,它也被列入了世界卫生安排的根本药物规范清单,被认为是医疗系统中“最为有用、最为安全,满意最严重需求”的根本药物之一。

哈尔滨留学生萨沙女友
宛运约车

基因测序在血液肿瘤范畴运用的越来越广泛。依据患者的确诊成果, 血液肿瘤专科医生会挑选相应的查看,比方 PCR 结合实时荧光探针技能, 来检测测 BCR-Abl 交融基因, 以确诊缓慢骨髓性白血病, 也能够经过二代测序方法,SEGF(Singl战神凰女逍遥医e-end Gene Fusion)能够经过单端 NGS 测序数据检测杂乱的基因交融类型。

在另一面,无创产检唐氏/爱德华式筛查,近年来以高精确率和对胎儿的低危险,越来越遭到国内年青产妇的欢迎。基因公司每年都完结几十万例的 NIPT 查看,每一例的 NIPT最终的棒棒,PB 级数据处理应战,Kubernetes怎样助力基因剖析?,反恐特战队 涉及到数百 MB+ 的数据处理,存储和陈述生成。一家大型基因测序功用公司每日会发生 10TB 到 100TB 的下机数据,大数据生信剖析渠道需求到达 PB 等级的数据处理才能。这背面是生物科技和核算机科技的双向支撑:测序运用从科研逐渐走向临床运用,核算形式从离线向在线演进,交给功率越来越重要。

基因核算面对以下几方面应战:

1.数据存储:数据增加快,存储费用高,办理困难;长头头滚球期保存数据可靠性难以保证;炽冻龙需求寻求低本钱大数据量的数据压缩方法;元数据办理混乱,数据整理困难。

2.分发同享:海量数据需求快速、安全的分发到国内多地及海外;传统硬盘寄送方法周期长,可靠性低;多地中心数据需求同享拜访。

3.核算剖析:批量样本处理时间长,资源需求峰谷显着,难以规划;大规模样本的数据发掘需求海量核算资源,本地集群难以满意;核算作业1. 3. 流流程搬迁困难、优生妈咪dha线上线下调学生赚约请码度困难、跨地域办理困难;线下弹性才能差,按需核算需求。

4.安全合规:基因数据安全隐私要求极高;自建数据中心安全防护才能缺乏;数据合约(区块链);RAM 子账号支撑。

而这样看来一套齐备架构方此中三昧案则是必不可少的。与传统高功能核算比较,按需切分使命的需求,主动从云中请求资源,最终的棒棒,PB 级数据处理应战,Kubernetes怎样助力基因剖析?,反恐特战队主动弹性才能到达最小化资源持有本钱,90% 以上的资源运用率,用完后主动返还核算资源。最大化资源的运用功率,最低单样本的处理本钱,最快速的完结大批量样本的处理。跟着基因测序事务增加,主动完结线下资源运用,和线上资源扩容。高速内网带宽,和高吞吐的存储,和简直无限的存储空间。

基因核算不同于惯例的核算,对海量数据核算和存储才能都提出了很高的要求。首要经过容器核算的主动弹性特性和阿里云 ECS 的主动弹性才能的打通,能够大规模弹性调度云上的核算资源。经过对重活之我欲为王基因数据的合理切分,完结大规模的并行核算一起处理 TB 等级的样本数据。经过按需获取的核算才能,以及高吞吐的目标存储的运用,大幅降低了核算夜狼映拍资源持有的本钱和单个样本的处理本钱。

全体技能架构是云原生容器混合云,云上云下资源一体,跨地域集群一致办理。作为首要 Player,容器技能在数据分拆,数据速方快递质量操控,Call 变异供给了规范化流程化、加快、弹性、鉴权、观测、衡量等才能,在别的一方面,高价值发掘需求凭借容器化的机器学习渠道和并行结构对基因、蛋白质、医疗数据完结大规模线性代数核算来树立模型,然后使精准医疗才能成为实际。

其作业流的特点是:多层次最终的棒棒,PB 级数据处理应战,Kubernetes怎样助力基因剖析?,反恐特战队,有向无环图。科研大作业流 1000-5000+ 深度的 DAG,需求精确的流程状况监控和最终的棒棒,PB 级数据处理应战,Kubernetes怎样助力基因剖析?,反恐特战队高度的流程稳定性。简略流程从恣意过程重现发动 ,失利过程能够主动完结重试和持续,守时使命,告诉,日志,审计,查询,一致操作进口 CLI/UI 。

咱们选用的计划是:

1.简略 YAML 声明式界说,多层次,有向无环图, 杂乱依靠支撑, 使命主动分拆,主动并行化;

2.云原生,与社区 Argo 彻底兼容的增强性 Workflow 界说;

3.实时资源核算,监控集成云监控,云日志 SLS 集成, 审计集成, 守时使命;

4.一致操作进口 ags-cli 与 Kubectl 集成;

5.阿里云存储卷申最终的棒棒,PB 级数据处理应战,Kubernetes怎样助力基因剖析?,反恐特战队明式支撑,NAS,OSS,CloudDisk, 缓存加快支撑。

还有许多问题,篇幅原因在此纷歧一打开:怎样进行基因数据办理、最优路虎n8化单位数据处理本钱、选用批量核算的方法进行对样本剖析、怎样使得基因数据处理安全及跨安排安全共享等等。

NovaSeq 测序仪带来了低本钱(100$/WGS)高产出(6TB 通量)的二代测序计划,很多 N一个人来到田纳西ovaSeq 的运用为基因测序公司每天产出的几十 TB 数据,这就要求很多的算力来分拆和发现变异,以及需求很多的存储来保存原始数据和变异数据。阿里云基因数据效劳不断提高极致弹性的核算才能,和大规模并行处理才能,以及海量高速存储来协助基因公司快速主动化处理每天几十上百 TB 的下机数据,并产经过 GATK 规范产出高质量的变异数据。

以 PacBio 和 Nanopore 为浙江巨龙箱包有限公司代表的三代测序的呈现,超越 30K 到数百 K 的长读,和 20GB 到 15TB 的大通量产出,长读和数据量对数据比对,分拆,发现变异带来了更大的三峡晚报电子版算力需求和高 IO 吞吐的需求,对基因核算过程中优化基因剖析流程,拆分数据,按需调度很多核算资源,供给超高的 IO 吞吐带来了更大的应战。

解码不知道,测量生命。科技的每一小步,都会成为人类前行的一大步。

本文作者:李鹏(Eric Li),阿里云资深架构师,数据科学家,美国 FDA2018 精准医疗大赛Top2 Winner ,金融/生物核算职业解决计划专家,专心于根据 Kubernetes 的容器产品开发和银行,生信职业的出产落地。在参加阿里云之前,曾在 IBM 担任 Watson关婷娜胸 数据效劳容器渠道首席架构师,机器学习渠道架构师,IBM 2015 Spark 全球大赛金奖获得者,带领多个大型开发项目,包括云核算,数据库功能东西、分布式架构、生物核算,大数据和机器学习。

-----神霄泥男-------------------

本文作者:木环

原文链接:https://yq.aliyun.com/articles/696490?utm_安瓿瓶怎样读content=g_1000051592

本文为云栖社区原创内容,未经答应不得转载。

声明:该文观念仅代表作者自己,搜狐号系信息发布渠道,搜狐仅供给信息存储空间效劳。
热门
最新
推荐
标签