當前位置: 行業動態> 行業動態
基因檢測碰壁大數據,42家基因企業來支招!
發布時間:2017/03/07 信息來源:查看

基因檢測碰壁大數據,42家基因企業來支招!

    在動脈網發布的2016中國“未來醫療100強”榜單中,基因檢測領域異軍(jun) 突起,上榜企業(ye) 18家,是所涉及領域中上榜企業(ye) 最多的領域,其中華大基因更是以200億(yi) 人民幣的市場估值位居榜首。隨著成本的持續降低,基因概念的日益普及,基因檢測公司正以創新基因技術在醫療健康產(chan) 業(ye) 中的爆發。另一方麵,精準醫療被寫(xie) 進“十三五”,NIPT試點取消,政策環境的利好也為(wei) 基因檢測企業(ye) 成長提供了優(you) 渥的土壤。

    一麵是基因檢測的日益普及,一麵是越來越大規模的數據產(chan) 出。如此大規模的數據,如何這存儲(chu) 、分析以及解讀成為(wei) 行業(ye) 必須要突破的瓶頸和壁壘。人類全基因組數據大約有30億(yi) 字符,為(wei) 了保證解讀準確性,慣例是要將每個(ge) 字符閱讀30遍以上,相當於(yu) 1000億(yi) 字符。如此算下來,且不說分析和解讀,光是數據的閱讀都是極大的工程。

    國內(nei) 知名基因檢測公司全基因組檢測周期為(wei) 3個(ge) 月,其中從(cong) 采樣到測序完成耗時一個(ge) 月,而剩下的兩(liang) 個(ge) 月,都用在了數據的分析和解讀上。2017年,全球測序巨頭Illumina推出NovaSeq測序係列,再次刷新了測序成本新低。這就意味著,一大波數據正在接近。如何尋找更高效的數據處理方案,如何提升數據解讀速度,無疑將是行業(ye) 下一個(ge) 議題。

    動脈網(微信號:vcbeat)梳理了42家基因數據分析和解讀細分領域相關(guan) 企業(ye) ,希望能從(cong) 產(chan) 業(ye) 角度切入,對行業(ye) 現狀做出解析。

    以初創企業(ye) 為(wei) 主,暫無獨角獸(shou) 出現

    42家企業(ye) 中,超過半數企業(ye) 的成立時間在2010年以後。早期成立的企業(ye) ,如華大、貝瑞和康以及華因康,其本身業(ye) 務的綜合性就比較強,故嚴(yan) 格意義(yi) 上講,這個(ge) 行業(ye) 內(nei) 還沒有獨角獸(shou) 出現。像賽福基因、華點雲(yun) 以及聚道科技以數據服務為(wei) 主營業(ye) 務的企業(ye) ,甚至是像人和未來這樣以生物技術和信息技術學科交叉為(wei) 核心優(you) 勢的初創企業(ye) ,成立時間都在2013年前後。2013年開始,基因數據服務相關(guan) 企業(ye) 開始活躍起來。當然,也不排除這一時期整個(ge) 基因檢測領域創業(ye) 潮帶來的整體(ti) 基數的影響。但近年來,像是百邁克,安諾優(you) 達以測序服務為(wei) 核心業(ye) 務的企業(ye) 都開始向數據領域擴展,似乎也預示了數據分析環節發展的大趨勢。

    目前,這些企業(ye) 融資輪次主要集中在天使輪和A輪,規模都還比較小。42家企業(ye) 中有12家屬於(yu) 業(ye) 務拓展,其中有7家融資階段在A輪以後。市場內(nei) 的B輪玩家多是通過業(ye) 務拓展進入市場,這些企業(ye) 更多代表的是一種市場趨勢,並不能代表市場內(nei) 企業(ye) 的成熟度。

    產(chan) 品服務:“雲(yun) 服務”是趨勢

    從(cong) 產(chan) 品分布來看,傳(chuan) 統的生物信息手段依然占據主流,但基於(yu) 雲(yun) 的PAAS、SAAS等雲(yun) 平台正在崛起。無疑,雲(yun) 上的數據計算、傳(chuan) 輸和分析將為(wei) 用戶省去大量的硬件包袱,同時還可將這些環節集中在一個(ge) 場所,為(wei) 用戶帶來更輕鬆,更高效的體(ti) 驗,這樣的雲(yun) 體(ti) 驗也正在成為(wei) 數據處理的趨勢。

    傳(chuan) 統分析應用最廣

    分析軟件和係統是分析環節應用層麵最廣的產(chan) 品,是比較傳(chuan) 統的生物信息分析手段。分析軟件的廣度小,操作難度低。相比之下,數據分析係統比較多元化,不同複雜程度的數據分析係統應用廣度也不一樣。比較全麵的分析係統從(cong) 構架和分析算法流程考慮的比較多,而簡單的係統和軟件之間的差別並不太大。這一類產(chan) 品的企業(ye) 分布密度最大,一共有27家,代表性的企業(ye) 有貝瑞和康、烈冰科技等等。

    新老玩家齊入場,“雲(yun) 服務”是未來趨勢

    傳(chuan) 統IT手段以外,基於(yu) 雲(yun) 端的計算和分析平台也在向基因數據靠攏。更輕量級的存儲(chu) 方案,以及更高效性的運算性能,雲(yun) 平台在數據處理中發揮著積極作用。

    1PaaS:為(wei) 基因領域搭建雲(yun) 環境

    與(yu) 阿裏雲(yun) 、百度雲(yun) 、華為(wei) 雲(yun) 等IaaS(基礎設施即服務)平台相比,PaaS平台更具針對性,可針對某個(ge) 領域的特點提供更加專(zhuan) 業(ye) 的服務。平台會(hui) 根據自身服務領域搭建一個(ge) 雲(yun) 環境,方便細分領域的公司盡快使用。對於(yu) 細分領域公司來講,基因領域PaaS平台的出現,省去了自行搭建平台的環節,節省了大量的時間和成本。

    針對基因領域的PaaS平台在國外起步比較早,代表性企業(ye) SevenBridge,DNAnexus,T

    uteGenomic等等。而近些年,國內(nei) 的生物信息雲(yun) 服務商開始走向市場。其中一部分是進行業(ye) 務拓展的早期企業(ye) ,比如華大和百邁客生物。另一類則是像聚道科技,華點雲(yun) 這樣以雲(yun) 服務為(wei) 核心的初創公司。基因組數據的產(chan) 生規模與(yu) 測序成本息息相關(guan) ,這些企業(ye) 成立時間與(yu) 測序成本下降時間節點基本吻合。

    2013年,原華大生物信息骨幹陳晨從(cong) 中國疾病預防控製中心傳(chuan) 染病所生物信息室主任的位置上辭職,創辦了專(zhuan) 門麵向臨(lin) 床生物信息服務的華點雲(yun) 。華點雲(yun) 部署在華為(wei) 雲(yun) 平台上,積累了500多項生物信息應用,針對臨(lin) 床實驗室缺乏生物信息解決(jue) 方案的痛點,提供生物信息數據分析和報告。

    不同與(yu) 華點雲(yun) ,聚道科技則從(cong) 數據的安全、高效和易用性入手,提高數據傳(chuan) 輸效率和軟件運行效率,為(wei) 想用雲(yun) 計算但不知道如何使用的生物公司提供雲(yun) 計算資源調度服務。2014年,一批阿裏出身的技術團隊成立了基因大數據計算服務平台聚道科技。平台可提供基因數據的傳(chuan) 輸、存儲(chu) 、分析、計算和應用的一體(ti) 化解決(jue) 方案,將生物信息雲(yun) 服務化。同時提供開放的接口,讓用戶能夠方便的來管理和操作數據,最後根據用戶需求生產(chan) 報告。

    另外,通過運用數據壓縮技術來減少傳(chuan) 輸和存儲(chu) 的時間及成本,使用分布式調度和執行引擎來加速數據分析速度和通量,聚道提供的雲(yun) 服務不僅(jin) 可以幫助用戶減免硬件的維護和更新費用,還可以降低數據分析的成本門檻。同時,基於(yu) 這樣的雲(yun) 平台,使得許多複雜的,本地不可承受的多樣本分析任務不再受製於(yu) 有限的本地數據處理能力。

    一方麵是這些以雲(yun) 服務為(wei) 核心的初創企業(ye) 崛起,另一方麵,產(chan) 業(ye) 鏈中遊或者綜合業(ye) 務的企業(ye) 也在積極迎接這股雲(yun) 潮流。

    2015年4月,憑借豐(feng) 富的下一代測序數據分析經驗,華大基因開發了基於(yu) “雲(yun) ”的解決(jue) 方案BGIOnline,來應對海量下一代測序數據的分析、存儲(chu) 和共享的傳(chuan) 統難題。BGIOnline擁有強大可靠的基礎設施和一流的安全性,可為(wei) 各種類型、大小的機構提供數據存儲(chu) 、自動化分析、數據傳(chuan) 輸、生物信息方法開發和共享服務。該平台使用了最先進的資源管理係統,以確保資源在運行計算任務時的精準分配和實時的任務監控,並對可能遇到的錯誤進行及時反饋。

    在這樣一個(ge) 平台上,用戶可以基於(yu) 華大基因的開源軟件,創建自己的分析工具。更重要的是,用戶的分析工具還可以與(yu) BGIOnline平台的公共分析工具、生物信息分析工具和其他資源相融合,從(cong) 而建立一整套更符合用戶自身研究需求的分析流程。

 2016年2月,BGIOnlinebeta版本在阿裏雲(yun) 上線,這也是首個(ge) 完全部署在阿裏雲(yun) 上的大規模生物信息分析平台。依托阿裏雲(yun) 的彈性存儲(chu) 和計算優(you) 勢,BGIOnline不但可以滿足基礎科研、農(nong) 作物育種及臨(lin) 床應用等不同應用場景和模式對數據處理、存儲(chu) 和傳(chuan) 輸的需求,還通過使用一係列先進的數據技術,滿足HIPAA法案等行業(ye) 安全條例的要求。

    同時,使用內(nei) 資服務器存儲(chu) 和分析敏感的基因數據也更加符合我國《人類遺傳(chuan) 資源管理辦法》的規範。簡潔易用的界麵和高度安全的特性,使醫生和研究者們(men) 可以把管理數據、硬件維護等繁雜的工作交給BGIOnline和阿裏雲(yun) ,從(cong) 而更專(zhuan) 注於(yu) 他們(men) 要解決(jue) 的科學和臨(lin) 床問題。

    這意味著,對於(yu) 科研院所、醫療機構及中小型基因行業(ye) 創業(ye) 公司來說,隻要擁有基因數據,不必自建和維護昂貴而複雜的計算、存儲(chu) 平台,通過BGIOnline便可以解碼神秘基因背後的奧秘。這家全球最大的基因組學研發機構打開了基因行業(ye) 這扇神秘大門,讓基因行業(ye) 變得“觸手可及”。

    當然,華大並非是唯一一家進行雲(yun) 業(ye) 務拓展的企業(ye) 。2015年7月,百邁客也推出了為(wei) 科研人員量身定製的生物大數據信息分析平台百邁客雲(yun) ,為(wei) 用戶提供完整的生物信息分析以及整合利用公共數據的解決(jue) 方案。

    除了中遊企業(ye) ,一些傳(chuan) 統生物信息公司,比如烈冰科技、美吉生物旗下桑格信息也在積極的往雲(yun) 上轉移。

    另外,像是加速芯片和數據壓縮工具等輔助性軟件也在數據處理環節發揮著輔助作用。這類產(chan) 品的作用並不是解決(jue) 什麽(me) 問題,而是如何將這個(ge) 問題更好的解決(jue) 。比如更高效的計算、更快速高質量的壓縮等等。目前,涉及輔助性軟件的企業(ye) 比較少,基於(yu) 這類產(chan) 品的自身屬性,形成專(zhuan) 職企業(ye) 的可能性不大。

    2SaaS:數據分析的雲(yun) 上APP

    另一類則是SaaS(軟件即服務)平台,如果說以上的PaaS平台是為(wei) 基因組學搭建了一個(ge) 雲(yun) 端環境的話,那麽(me) SaaS則是在這個(ge) 雲(yun) 環境中提供可應用的工具。這就類似於(yu) 手機上的APP,服務商將應用軟件統一部署在自己的服務器上,客戶可根據自己的實際需求,通過互聯網向服務商訂購所需的應用軟件服務,按照定購服務多少和時間向服務商支付費用,並通過互聯網獲得服務。

    2015年,基雲(yun) 惠康的雲(yun) 分析服務正式上線,專(zhuan) 注於(yu) 個(ge) 人全基因組數據分析。基雲(yun) 惠康所搭建的就屬於(yu) SaaS服務,以阿裏雲(yun) 為(wei) 基礎,針對全基因組數據,提供更快,更低成本的優(you) 化服務。

    同樣是在2015年,專(zhuan) 注消費級基因的水母基因也在阿裏雲(yun) 提供的雲(yun) 基礎上推出健康管理SaaS平台。基於(yu) 這樣一個(ge) 精準健康管理的SaaS係統,水母基因打造了以基因數據為(wei) 核心的疾病精準預防係統,為(wei) 每一位客戶建立私人健康檔案,收集客戶自身健康相關(guan) 的所有數據,如病史、生活飲食習(xi) 慣、基因數據、血壓、血糖等。實現以基因數據為(wei) 指導的疾病預防,為(wei) 企業(ye) 客戶提升服務品質。

    奇雲(yun) 諾德則是把目光放在了基因測序企業(ye) 的後台計算服務上,為(wei) 基因檢測企業(ye) 提供數據存儲(chu) 、雲(yun) 計算、分析、結果讀取和報告生成的一條龍服務。幫助檢測環節企業(ye) 迅速拿出優(you) 質的產(chan) 品報告。此外,奇雲(yun) 諾德還開展了訂製和研發外包服務,也可以聯合基因檢測企業(ye) 開發所需產(chan) 品。

    2016年,基於(yu) 阿裏雲(yun) 在批量運算上的優(you) 勢,以及安諾優(you) 達自成立以來積累的大量生物樣本和基因數據,兩(liang) 家公司聯合推出了生物大數據分析雲(yun) 平台“安諾雲(yun) ”。希望實現對高通量基因測序數據的快速分析、安全存儲(chu) ,提供生物大數據存儲(chu) 與(yu) 管理服務以及生物、臨(lin) 床研究數據分析一體(ti) 化服務,推動我國精準醫學的進程。

    PAAS平台帶來了輕量級的基因數據的傳(chuan) 輸和存儲(chu) ,簡化了基因數據分析流程;而SaaS平台又降低了基因數據分析門檻,為(wei) 有生物信息分析需求,但又對技術了解不深的群體(ti) 提供了便利。在以前,數據傳(chuan) 輸主要通過網絡和硬盤傳(chuan) 輸來實現,無論是從(cong) 周期和成本來看,都不是最好的解決(jue) 方案。而PaaS和SaaS雲(yun) 平台的出現,再加持雲(yun) 計算這樣的高並行工具,這就相當於(yu) 將數據的存儲(chu) 、傳(chuan) 輸、分析以及計算都集中到了雲(yun) 端,掙脫了本地處理的枷鎖,使得整個(ge) 數據處理過程都流暢輕快了許多。

    有趣的是,無論是PaaS平台還是SaaS平台,絕大多數企業(ye) 都選擇了與(yu) 阿裏雲(yun) 合作,作為(wei) 自身平台搭建的雲(yun) 基礎。比如華大、聚道,以及基雲(yun) 惠康、安諾雲(yun) 等等。目前,市場上的雲(yun) 玩家一共18位,其中PaaS平台10家,SaaS平台8家。

    解讀環節是高原地帶

    傳(chuan) 統生物信息占據半壁江山,雲(yun) 平台也正在蔓延,相比之下,解讀環節則略顯冷清。解讀環節可以說是瓶頸中的瓶頸,由於(yu) 大部分疾病都是多基因遺傳(chuan) 病,由多個(ge) 基因共同控製,不同的基因突變,不同的突變位點,不同的突變類型,這些因素都會(hui) 影響到疾病的最終表型。

    另外,基因組包含的信息很多,而真正為(wei) 人們(men) 真正所了解的大約隻占總體(ti) 的2%,很多基因的功能尚不明確。再加之基因與(yu) 疾病的對應關(guan) 係還沒有建立起來,解讀過程中有太多的不確定性,更多需要人工做判斷。即使有鶤遠基因這樣的夢之隊,也難以解決(jue) 行業(ye) 層麵上的問題。無論是科研還是臨(lin) 床上,數據的解讀環節都存在極大的局限性和挑戰性。

    賽福基因、鶤遠基因、基雲(yun) 惠康幾家企業(ye) 提出將服務產(chan) 品化,提供從(cong) 測序到解讀的一站式服務,希望利用自己在解讀環節的優(you) 勢,將基因數據解讀低門檻化。采取同樣策略的還有奇雲(yun) 諾德和安諾優(you) 達的安諾雲(yun) 項目,但兩(liang) 家公司更多傾(qing) 向於(yu) 測序環節後的所有服務,通過將測序與(yu) 數據分析解讀環節明確分工,降低基因檢測行業(ye) 門檻,同時更深度的挖掘基因數據背後的價(jia) 值。

    目前,這個(ge) 環節涉獵企業(ye) 非常少,可以說是高原地帶。如果把解讀服務和半自動化解讀工具,甚至文本挖掘都算進來,一共不足10家。其中提供半自動換解讀工具的,僅(jin) 有兩(liang) 家。

    解讀環節的人力解放,數據庫是基礎

    接著上文講,由於(yu) 疾病複雜性和人類對基因與(yu) 疾病關(guan) 係的認識還在一個(ge) 較淺的層麵,數據解讀環節受製於(yu) 人力因素。其實半自動化數據解讀並不難實現,因為(wei) 專(zhuan) 家共識指南確實有一部分是可以讓機器看懂並自動判分的。這背後存在的矛盾點就是是否存在一個(ge) 行業(ye) 標準且真正有用的數據庫。目前的公共疾病數據庫錄入信息標準各異、所包含的數據大多都是基於(yu) 歐美人種的研究,並不能完全適用於(yu) 特定人種,而且缺乏基因組學數據與(yu) 表型數據的深度整合。

    目前,所有基因檢測環節企業(ye) 都在做一件事情——數據收集。公司通過收集、整合公共或者私有信息,經過人工檢閱後匯總為(wei) 數據庫或知識庫,很大程度上是希望通過形成足夠大規模的普通人數據庫,矯正目前數據解讀可能存在的一係列偏差。這是很有價(jia) 值的基礎工作,但凡在基因組學領域發展迅速的國家,很早之前就開始了這樣的基礎建設工作,比如英國和美國。

  2015年8月貝瑞和康正式啟動“神州基因組數據雲(yun) ”項目,該項目由貝瑞和康和阿裏雲(yun) 共同參與(yu) 建設,旨在打造以海量中國人群基因組數據為(wei) 核心的數據雲(yun) ,實現對個(ge) 人基因組數據的精準解讀。2016年9月,貝瑞和康對外公布了“神州基因數據雲(yun) ”項目階段性重要成果,完成世界首個(ge) 中國人群基因組數據庫建設,填補了國際基因數據庫中缺少中國人群特有基因組數據信息的空白。

    2016年9月,華大深圳國家基因庫正式開業(ye) ,這是我國唯一一個(ge) 獲批籌建的國家基因庫。基因庫的數據庫、樣本庫、活體(ti) 庫,以及規劃數據能力均超越國際三大基因數據中心,綜合能力位居世界第一,成為(wei) 我國首個(ge) 國家級基因數據中心。

    此外,還有多家中遊檢測企業(ye) 正在籌備基因庫的相關(guan) 籌建工作。2015年7月,海普洛斯聯合深圳市人民醫院發起並推出了一項“萬(wan) 人癌症基因測序計劃”。據悉,已有30多家全國頂級的醫院或科室加盟“萬(wan) 人癌症基因測序計劃”,並且已經完成了將近5000例腫瘤患者或高危人群的基因檢測。

    2016年7月,由暨南大學主導,未來組參與(yu) 完成的第一個(ge) 亞(ya) 洲人參考基因組“華夏一號”在線發表於(yu) NatureCommunications雜誌。該研究以暨南大學為(wei) 主導,由南加州大學、華盛頓大學、俄亥俄州立大學、美國國立衛生研究院生物技術信息中心、武漢生物技術研究院、未來組、哥倫(lun) 比亞(ya) 大學、貝勒醫學院、冷泉港實驗室等多家科研單位共同合作完成。“華夏一號”的發布,表明國內(nei) 科研團隊在第三代測序領域已經進入世界前沿,並填補了中國人群的疾病研究缺少精細參考基因組的不足。

    隨著基因測序成為(wei) 國家健康醫療大數據戰略的主要內(nei) 容之一,“華夏一號”將成為(wei) 推進臨(lin) 床和科研大數據應用的重要基礎性工作,大力推動中國的遺傳(chuan) 疾病研究與(yu) 診斷的發展。

    其實目前幾乎所有的中遊測序企業(ye) 都在進行基因組學數據的收集工作,但對於(yu) 公司來說,要形成規模足夠大的基因數據庫,則還需要時間的醞釀。另外,數據規模達到一定量級後,企業(ye) 是否會(hui) 共享,直接影響到數據庫是否廣泛使用,這也許還需要政府層麵的布局。

    結語:數據庫是基礎,雲(yun) 端分析成為(wei) 趨勢

    宏觀層麵來講,大多數企業(ye) 都還是A輪或者A輪以前的初創公司,可以說市場還屬於(yu) 醞釀階段。而像其明生物、百邁客、安諾優(you) 達這些比較成熟的企業(ye) 先後進入市場,似乎也代表著行業(ye) 趨勢(尤其是雲(yun) 平台)。

    從(cong) 產(chan) 品分布來看,基於(yu) 分析軟件和分析係統的傳(chuan) 統分析手段的企業(ye) 比較多,但麵對如今激增的數據規模,這些手段很難實現絕對意義(yi) 上的突破性。而PaaS、SaaS等雲(yun) 技術手段,通過將數據分析流程轉移到雲(yun) 上,很大程度減輕數據處理環節的負重(無論是硬件上的實質負重,還是處理速度上的心理負重)。

    但這些產(chan) 品大部分都是聚焦在數據分析環節,由於(yu) 人類大多數疾病是多個(ge) 基因的共同作用結果,涉及到多個(ge) 基因的變量表達。這些數據的解讀必須要考慮到多個(ge) 基因多個(ge) 變量因素,因此這個(ge) 環節背後必須要有一個(ge) 強大可用的數據庫支持。在此基礎上,再利用技術手段,尋求可自動化,可替代人工的渠道,以節省時間和成本,也許不失為(wei) 一種可行方案。

    在國家發展改革委正式印發《“十三五”生物產(chan) 業(ye) 發展規劃》中,基因檢測、細胞治療、免疫治療、基因編輯、產(chan) 前篩查等多個(ge) 熱門概念被“點名”。《規劃》在發展目標中提到,要實現基因檢測能力(含孕前、產(chan) 前、新生兒(er) )覆蓋出生人口50%以上。借著產(chan) 前檢測的東(dong) 風,基因檢測概念將被更廣泛為(wei) 的人群認識和接受,再加之成本控製上的持續突破,未來或許還有望實現人人普及。而如論是無創產(chan) 前還是腫瘤檢測,還是全基因組檢測,數據分析和解讀都將伴隨整個(ge) 過程,測序的普及勢必將帶動數據處理環節的發展。麵對步步逼近的數據洪流,一場數據大戰即將打響。


友情鏈接
電信與信息服務業務經營許可證編號:京ICP證140722號 藥品醫療器械網絡信息服務備案(京)網藥械信息備字(2023)第00464號網絡備案:京ICP備12039121號-1
地址:北京市海澱區學清路9號匯智大廈B座7層 www.komibo.com ©2017-2025 新利版權所有