[醫療科技] 數據可用不可見保私隱 聯邦學習推動基因分析

Lifebit-Biotech
Lifebit Biotech是利用聯邦學習技術讓多個團隊對生物醫學數據可安全存取,而不能看見內容,解決基因組分析敏感數據的難題。

醫療科技

隱私計算有3種主流技術:包括區塊鏈、聯邦學習(Federated Learning)和安全多方計算(Secure Multi-Party Computation)。其中「聯邦學習」可實現數據隱私計算,保障數據隱私、確保數據安全和符合法規要求下,為機器學習建立模型。

以人工智能來說,必須靠數據的數量來分析內容,不少數據都有隱私保護,尤其醫療數據更受嚴密法律監管。但一般而言,數據量與模型的質素成正比,數據以孤島形式分散在不同地點,導致每個模型擁有的數據集太小,直接影響AI模型的預測性能。

聯邦學習可將散落不同地點數據毋須結合於同一地點形成大數據效果,例如訓練AI模型時可用到數據集,卻不能看到數據集包含的隱私,達到「數據可用不可見」效果,簡來來說聯邦學習就是「數據可用不可見,數據不動模型動」。

香港科技園亦與推出了聯邦學習以分析散落於不同地點的金融數據訓練出更高性能的模型。而聯邦學習亦可應用於生物醫學數據,Lifebit Biotech就是利用聯邦學習技術讓多個團隊對生物醫學數據可安全存取,而不能看見內容解決基因組分析敏感數據的難題。Lifebit剛獲了丹麥國家基因組中心(National Genome Center,NGC)為期4年的合約,在丹麥國家超級運算中心安裝 Lifebit聯邦學習可信研究環境」(TRE)雲原生系統 Lifebit CloudOS。

Lifebit CloudOS正是採用聯邦學習技術,以解決了基因組學分析一個主要障礙,為了生物數據通常孤立和分散儲存加以保護不可離開數據中心,更無法訪問分析,而通過聯邦學習在原地in situ分析數據只帶走分析的結果就可增加分析數據量之餘保護個人醫療數據的隱私。

丹麥 NGC 為丹麥醫療官方機構,旨在推動丹麥全國的個人化的精凖醫療個人化醫療可按基因組分析,日後制訂精凖醫療必須知道基因組與疾病之間關係。NGC以數據可開發精凖診斷、標靶治療,並推動丹麥醫療研究工作。上述計畫第一階段內,丹麥國家基因組中心計畫在 2024年前,招募 60,000名確診了癌症、自身免疫疾病和罕見疾病的病人,進行全基因組測序(Whole genome sequencing,WGS)。

Lifebit CloudOS在丹麥超算中心提供的基建,令上述數據可毋須離開高度設防的數據中心,同時可供外間分析, Lifebit CloudOS可讓外間研究人員安全存取、查詢和分析高度敏感的臨床基因組數據,甚至全球分享數據協作研究,而不外洩私隱。

Lifebit CloudOS聯邦學習就是其中最關鍵技術,NGC可與的國際夥伴協作,包括各地的基因組研究中心如 Genomics England、France Genomique、Genomic Medicine Sweden,以至其他生物基因庫協作研究。

研究機構通過虛擬連接在超算中心內敏感數據集,無需移動數據情況,在原位以聯邦學習與其他地區數據集合併,以提高研究的水平結果。事實上,基因組的數據量直接決定研究質量以及科學發現多寡,某些情況下每增加 10倍病人的數據量,可增加達100倍科學發現並可更清晰知悉不同數據集之間的真正關聯。

Lifebit與多國醫療機構合作以Lifebit CloudOS建立聯邦學習分析生物醫療數據,Lifebit剛獲本港首個大型基因組測序計畫─「香港基因組中心」的4年合約,Lifebit為香港基因組中心部署高度擴展的雲架構和高性能運算,快速將原始測序數據轉化為臨床診斷及研究結果。香港基因組中心由特區政府資助,並透過與衞生署、醫管局及大學合作,招募合資格病人及家屬參與「全基因組測序」,日後用於精凖診斷及更有效治療。

Leave a Reply

Your email address will not be published.