上海生物信息技術研究中心主任李亦學的“科研數(shù)據(jù)共享之夢”已做了13年。但在近日舉行的首屆金橋產(chǎn)業(yè)技術創(chuàng)新會議上,當記者向他問及相關進展時,聽到的卻是一聲嘆息。
13年前,“大數(shù)據(jù)”尚未被任何字典收錄,而今卻被公認是全球生命科學研究的核心工具。李亦學告訴記者,科研數(shù)據(jù)難以共享已成為國內生命科學研究的一大障礙;而在大數(shù)據(jù)時代,其負面效應還可能被繼續(xù)放大。
李亦學透露,國內一批院士和重量級專家正在起草一份報告,建議國家借鑒美國、歐洲、日本等的做法,建立國家級生命科學數(shù)據(jù)庫,從而打破共享瓶頸。作為該調研報告的參與人,李亦學表示,在技術上,共享“不存在任何障礙”,國家應盡早落子布局。
只給看論文,無法看數(shù)據(jù)
美國是生命科學大數(shù)據(jù)產(chǎn)出和應用的領先者,不僅數(shù)據(jù)量和分析技術領先,而且在數(shù)據(jù)共享方面也是如此。
李亦學告訴記者,美國**生物技術信息中心(NCBI)存儲了分子生物學、生物化學、遺傳學領域的海量數(shù)據(jù),一大批計算機專家和生物學家維護著這個龐大的數(shù)據(jù)庫和自動分析系統(tǒng)。這個平臺對支撐起美國在生命科學領域的地位至關重要。NCBI的數(shù)據(jù)是科學家無償提供的。根據(jù)規(guī)定,美國科學家要想拿到**經(jīng)費,必須在申請課題時就承諾在課題完成后,將詳細的研究數(shù)據(jù)提供給NCBI;如果違背承諾,這名研究者將被列入黑名單,可能再也無法得到資助。這是NCBI獲得大量數(shù)據(jù)的根本保證。
李亦學說,國內的**科研項目一直沒有強制性的數(shù)據(jù)公開和共享要求。生命科學的數(shù)據(jù)零散地掌握在各個科研單位和研究小組內部,對國家的科研投入來說,這是一種巨大的浪費。
據(jù)了解,在我國,這樣的現(xiàn)象時有發(fā)生:國家向某個重大研究課題投入巨資,支持其從基因組層面研究若干重要的遺傳疾病。最終,雖然該研究發(fā)表了一系列高水平論文,但卻從未將詳細數(shù)據(jù)公開。
李亦學認為,這樣的研究本可以整體提升中國相關領域學術水平,但“只給看論文、無法看數(shù)據(jù)”的做法,極大限制了國家級課題的帶動效應。
一輩子的難題,幾個月解決
在生命科學領域引入大數(shù)據(jù)工具,將給研究帶來極大便利。科學家用傳統(tǒng)方法可能要花一輩子才能解決的難題,大數(shù)據(jù)可能只要幾個月就能找到答案。
一個典型案例是“腓骨肌萎縮癥(CMT)”的研究。這是一種常見的遺傳性神經(jīng)系統(tǒng)疾病,患者最初會感到四肢無力,隨后逐步惡化,最終可能終身離不開輪椅。
CMT早就被認為與基因突變有關,但全球科學家尋找致病基因花了20多年,始終不得要領。不過就在兩三年前,美國一個小組對一位CMT病人連同他的10多位親屬進行全基因組測序,隨后對所獲得的數(shù)百GB的數(shù)據(jù)進行了“簡單的比對分析”,很快就精確定位了那條致病基因和發(fā)生突變的位點。
李亦學表示,能夠獲得和整合數(shù)據(jù),然后再進行快速和精準的分析,已成為生命科學研究的關鍵。目前,中國已成為世界領先的不斷產(chǎn)生生物學與生物醫(yī)學大數(shù)據(jù)的國家。然而,中國生命科學的數(shù)據(jù)共享卻與發(fā)達國家差距巨大。他判斷說,國內課題組之間的數(shù)據(jù)共享一直是一個“小概率事件”。
李亦學13年前回國,曾經(jīng)的理想是建立具有國家權威的公益性的生命科學數(shù)據(jù)中心,推動國內的生命科學研究數(shù)據(jù)共享。但迄今進展不大,這讓他無比遺憾。
科研數(shù)據(jù)要當成戰(zhàn)略資源
最近,國內一批院士和重量級專家正聯(lián)名起草一份調研報告,希望能在國內也建立一個類似NCBI的國家級生命科學數(shù)據(jù)庫。這份報告將在今年完成并提交。
最讓專家們揪心的,不僅是數(shù)據(jù)不共享將給國家創(chuàng)新體系帶來損失,更在于“如果有一天,NCBI不再與中國科學家共享數(shù)據(jù),我們怎么辦?”
NCBI向全球免費提供數(shù)據(jù)。李亦學說,目前,所有的訪問量中,來自中國科學家的占了相當大的份額。一旦NCBI向中國關上大門,一些院士的判斷是:“中國生命科學研究可能倒退20年。”
在大數(shù)據(jù)時代,數(shù)據(jù)就如石油一般,是國家的戰(zhàn)略資源。李亦學認為,正因為如此,必須由國家出面,建立科研數(shù)據(jù)共享的機制和環(huán)境。而目前,哪怕**對所資助的課題提出數(shù)據(jù)共享的強制性要求,科學家也不知道該去哪兒共享。
在生命科學領域,國際學術界有一個不成文的規(guī)定:要想在頂級刊物發(fā)表論文,科學家必須共享其實驗數(shù)據(jù),而且大都必須將數(shù)據(jù)遞交到NCBI的數(shù)據(jù)庫體系。李亦學說,因此,在NCBI的數(shù)據(jù)庫,由中國科學家提供的數(shù)據(jù)占了不小比例。這種“國內數(shù)據(jù)、國外整合”的做法不合理,但也表明在國內推動數(shù)據(jù)共享存在可操作性。