1. 首页
  2. 数据挖掘

【聚焦】华大基因王俊:当基因科学遇上互联网、大数据

作者|胡媛 福布斯中文版高级采编

生命是数字化的,生命的信息可以被储存、克隆、改写,人类可以通过修改生命程序治愈肿 瘤甚至返老还童。人类是否可以拥有一个预测未来健康的水晶球?答案也是肯定的。

这并不是天方夜谭,以基因测序为代表的生命科学正在飞速发展,当以碳基为基础的基因科学与以硅基为基础的IT技术结合,破译生命的公式正在变成可能。

大数据、人工智能以及深度学习等技术趋势正在带领互联网向更加智能 的未知世界探索,而对人类基因数据的研究和分析,也在利用这些新兴的技术和手段,让人类对自身有更理性的认知,让自己变得更健康。这就是华大基因CEO 俊在322日深圳IT峰会上分享的内容。

以下是王俊的演讲实录。

当我们讲数字化、计算机,IT的时候,习惯于以硅为体系。但是在讲到生命的时候是以碳为体系。生命的基础是碳,生命是数字化的。为什么说生命是数字化的?它能够储存?能够编程吗?能够改变程序实现不同的生命形式吗?可以克隆吗?这当然是可行的。

为什么可以从一只羊身上提取一个细胞克隆成另一只羊?因为那只羊的细胞储存了羊的所有“生命程序”。DNA可以储存多少年呢?至少可以上百万年。现在没有 任何一种存储介质可以把信息储存上百万年时间。它能够计算吗?当然可以,计算和编程的基本单位就是基因。我们每个人身上都有一套蕴藏着所有生命信息的基本 程序,这套基本程序就是生命的语言。

它的语言怎么形成的呢?在最开始的时候,就像每个程序员写出一个功能模块,然后希望所有人都用这个功能模块,在生命体 里形成一些基因、一些蛋白质、一些小分子,基因、蛋白质、小分子不断扩张自己,在不断扩张自己同时,整个过程不断复制、不断扩张、不断延展,有时候一个基 因不够用,可以和其他基因一起合作,两个基因、三个基因一起合作,当一堆基因合作更好的时候,就形成个体。

人身上有2万—3万个基因,不同物种有不同基因,比如酵母菌有4000个基因,所有不同基因组合形成不同的生命程序,而不同的生命程序与周围环境适应就形 成了个体。每一套程序代表着不同的生存策略,这套不同的生存策略就是针对于不同环境体系而来。而检测这套程序好不好用的唯一标准就是它能不能活下去,能否 传播更多后代。

当个体选择了可以活下去并传播更多后代的这套程序就叫做可以适应于环境的生命语言。达尔文进化学说、适者生存理论都是在这个基础上建立。

每个人的生命程序是不同的。藏族人可以适应高原而生活在平原的我们不行,这是因为我们身体中的程序没有写进适应高原的基因。在汉族人体系里只有5%的人有 这个基因,而藏族人达到95%。导致这种差异的原因不仅仅是复杂极端的环境,还与饮食相关,比如南方傣族人因为祖先经常吃槟榔,所以体内基因很多跟槟榔适应。

个体水平为什么会变化?为什么藏族人跟汉族人不一样?在这些表象的背后有很多有意思的东西。比如它的变化来源是什么?当一个精子一个卵子结合的时候,基因 发生了重组。

每一代当中,孩子和父母之间有100个基因突变,这些改变形成了不同的生存策略。环境时时刻刻变化、基因也在时时刻刻变化,而基因组可以作为 预测程序。人类的基因是由于祖先上千年、上万年不断学习、进化,对后来有可能遇到的环境做出的预测。你体内的基因不会告诉你能否去高原,但一定会告诉你去 过高原会有什么反应。

如果每个人生下来就有一个盒子,这个盒子可以清楚告诉你往哪去会发生什么样的影响,这个盒子会如何指导我们生活呢?首先,如果这个盒子可以告诉我能活多少岁。比如遵循基因告诉你的事情,你可以活到150岁,但是为什么活不到150岁?因为你会得各种各样的病,这些病从年轻的时候一直到年老都有关系,而这些 病跟基因,或者跟环境、跟数字化、跟IT、BT有什么关系呢?

基因中的问题有点像写程序的时候出了一个“bug”,基因这套程序不能正常运行,人体就会出现很严重的问题。比如各种各样罕见疾病。中国有大于5.6%的 孩子有各种各样的出生缺陷。生命这套程序在不断试代码,试代码过程中不断试错,但每一个错误并不代表新的往前演化的可能。面对这种情况我们该怎么办?

能否可以通过基因检测程序,在孩子出身之前,做一些检测,早点发现早点控制,当然可以。如果这样的话,谈恋爱结婚之前不要配八字,可以先配一下基因,看生命基 因程序是不是匹配。

预测是一方面,但如果出现这些问题,可不可以治疗呢?我们又有一个非常疯狂的想法,能不能通过大数据挖掘发现一些罕见病的解决方案呢?答案也是可以的。

华大基因有一个计划,搜集100万人的基因数据,寻找那些单纯从基因来说应该患有某种基因疾病,但是非常健康的人,我们称呼他们“超级英雄”,这些人体内 有非常明确的致病基因,但是却非常健康,这是为什么?因为他们体内有另外一套基因在保护他。

就像程序中的一段出现了“bug”,但是另外一段修复了,整个 程序依然非常健康。如果能够找出那一段是什么,也许就可以找出罕见性疾病的药物。这就是基因测序的意义。

接下来是肿瘤。很多人面对肿瘤威胁,从基因科学角度,肿瘤是生存过程中人体受环境因素影响导致的基因程序变异。人所有的细胞都来源于第一个细胞——受精卵 细胞,从那个细胞开始不断复制、成长都会引发程序变化。

不同环境影响会导致程序非常大不同,比如抽烟增加肺部细胞变异率。用简单的IT方式来讲,就是你生 命程序中的那段代码被黑客给黑了。被黑的概率会随着环境因素不同而变化。如果经常抽烟,如果经常生活在不好的环境里,或者受到各种各样病毒感染,程序被黑 的概率非常之高。

有人会说我身体有上亿个细胞,一个细胞被黑也许没有关系,但是如果一个细胞被黑,它很有可能获得比其他细胞更强的适应性,它可以不断扩张。

从一个肿瘤细胞发展到最后可以用CT扫描检查出来,平均要15年。也就是说15年体内有肿瘤细胞你都不知道。我们能不能早点发现它,答案是可以的,因 为所有细胞最终都要游离到血液里,我们通过非常深度的基因检测可以看到体内有没有肿瘤细胞。

这也是预测,但如果得了肿瘤怎么办?每一个人的肿瘤的基因都不一样,你需要做的是对所有细胞做基因检测,而不是简单的手术、放疗、化疗。这样的治疗有可能在未来两三年内飞速发展,而所有努力都是为了增加肿瘤患者的生存概率。

还有慢性疾病、感染性疾病,其实万物都跟基因有关系。只有小于1%的微生物可以被培养,所以根本没有办法搞明白到底什么让你发烧、什么让你腹泻,但可以把DNA提取出来,一个小时内就知道到底怎么会感染。而早一点这样做,就可以早一点摆脱疾病风险。

华大基因要完成这个生命公式,在这个公式的一边是自己的基因、环境因素的基因,各种各样的东西,而另一边是表现的状况,比如身高、体重、各种各样的病理特征、健康与否。中间这个公式怎么写呢?这个时候就要涉及到百度首席科学家吴恩达的研究范畴了。

现在我们只知道这个程式的输入端和输出端,但中间怎么编程,毫无所知。该怎么办呢?这就需要大数据。健康大数据取决于把所有输入端、输出端全部计算清楚, 如果研究清楚身高基因的关系,需要100万人。

要研究清楚绝大部分复杂疾病和基因以及环境的关系,需要100万人。你需要把100万人的各种各样信息全部 搜集,才能得到“生命公式”。

用什么方法?这种方法贵不贵?这种方法非常昂贵。1999年中国华大基因参与了1%人类基因组计划。当时测序需要10亿美金。最近已经降成1万美金一人, 但要搜集100万人的数据仍然很贵,现在可以做到1000美金,明年500美金就可以测定一个人的完整基因。但什么时候可以免费呢?

基因测序免费这一天的 到来事实上取决于基因本身的数据价值远远大于产生他的数据所需要的成本。对于华大来讲这个趋势在2019年左右,5年左右时间我们可以真正达到这样的结果。

除了这种基因数据之外,我们知道现在比较时髦的词比如物联网可以收集各种各样输入输出数据,比如智能厕所,当在厕所方便时,所有代谢物、蛋白质数据等 等都收集起来;比如躺在床上,各种各样的体征数据都收集完成后,再通过互联网将不同的人的数据相连,就将形成一个基因组网络。

为什么基因组网络那么重要?

根据基因研究发现,所有男人12万年前来源于一个男人,所有女人12万年前也来源一个女人,有人说这就是亚当和夏娃。中国70%汉族人追溯到6000年前就三个人,如果把每个人的基因数据连起来,形成基因组网络,将是不可估量的。

我们讲互联网,超级计算机,这些正在成为不可估量的机会。每个人在上面产生数据和支持,基因组也是一样的。

人类基因组计划就是把基因和病之间的关系搞清 楚,并在上面寻找各种各样的机会,这些机会、信息和知识是以前一个个人的基因组不可想象的。而要实现这些同样需要人工智能,深度学习,因为如此庞大的数据 量已经不是一个单一的模型能够解决的。

奥巴马提出一个精准医疗计划,就是要做100万人基因组库,当所有人完成后,我们会有一个水晶球,预测你未来健康的走向,而这样的预测很有可能再做一些改变,我们听过3D打印、细胞存储、基因编辑,我们听过合成生物学,喝的啤酒的酵母将不是自然界酵母,而是计算机写出来的,酵母产生的啤酒味道也许比你现在 喝的任何啤酒味道都要好。

还有,生命信息的存储——干细胞,干细胞什么意思?就是年轻时候的生命信息。当你年老的时候能不能把年轻时候的信息再写进程序, 也许就年轻了。

所有像科学幻想的东西都在生命科学界以飞速方式往前走。如果真正基于一个所谓人工智能方式、大数据处理方式,能管理健康、掌握预测的程序和 健康的关系,这就是基因科技的魅力。

当我们定义一个生命的时候,其实我们并不清楚,如果未来当计算机赋予它更多生命逻辑,它会变成一个生命体吗?

如果计算机大脑已经可以跟人脑匹配,它有生命性吗?当我们拥有改变人类基因能力的时候,我们该怎样控制这种能力?所有这些值得大家思考。

互联网是硅基维度而生命科学是碳基维度,作为另外一个纬度的IT人,我希望给大家带来的不仅仅是对生命的认知,而且是对生命认知最佳的理性选择。

若您觉得该文章不错,请分享至朋友圈。

来源:福布斯中文网

PPV课其他精彩文章:


1、回复“干货”查看干货 数据分析师完整知识结构

2、回复“答案”查看大数据Hadoop面试笔试题及答案

3、回复“设计”查看这是我见过最逆天的设计,令人惊叹叫绝

4、回复“可视化”查看数据可视化专题-数据可视化案例与工具

5、回复“禅师”查看当禅师遇到一位理科生,后来禅师疯了!!知识无极限

6、回复“啤酒”查看数据挖掘关联注明案例-啤酒喝尿布

7、回复“栋察”查看大数据栋察——大数据时代的历史机遇连载

8、回复“数据咖”查看数据咖——PPV课数据爱好者俱乐部省分会会长招募

9、回复每日一课查看【每日一课】手机在线视频集锦

PPV课大数据ID: ppvke123 (长按可复制)

大数据人才的摇篮!专注大数据行业人才的培养。每日一课,大数据(EXCEL、SAS、SPSS、Hadoop、CDA)视频课程。大数据资讯,每日分享!数据咖—PPV课数据爱好者俱乐部!

原文始发于微信公众号(PPV课数据科学社区):【聚焦】华大基因王俊:当基因科学遇上互联网、大数据

原创文章,作者:ppvke,如若转载,请注明出处:http://www.ppvke.com/archives/24029

联系我们

4000-51-9191

在线咨询:点击这里给我发消息

工作时间:周一至周五,9:30-18:30,节假日休息