各位網友晚上好,我今天(tiān)跟大家(jiā)談一下(xià)“大數據助力疫情防控”。習總書記指出,要(yào / yāo)運用(yòng)大數據等手段加強疫情的溯源和監測,這是對(duì)大數據作用(yòng)的肯定,也是對(duì)互聯網界的一個要(yào / yāo)求。
手機已經成爲另一張“身份證”
現在手機已經成爲我們個人的另一張身份證。我們在2018年(nián)移動通信普及率是112%,而(ér)全球是106%,獨立移動通信用(yòng)戶的普及率,也就(jiù)是說扣除了一人多号,我們是82%,接近發(fā/fà)達國家(jiā)的水平,移動互聯網的普及率高于(yú)全球的平均水平。可(kě)以說,我們國家(jiā)有獨立活動能(néng)力的人群幾乎都有手機,而(ér)且中國實行(háng / xíng)手機用(yòng)戶的實名制,從手機用(yòng)戶就(jiù)可(kě)以識别持有人的身份。
手機可(kě)以關聯持有人的位置
一般手機在待機的時候,用(yòng)戶會(huì)從一個小區移動到另一個小區,這個時候手機要(yào / yāo)不斷接收基站發(fā/fà)出的測量信号。讀取基站下(xià)發(fā/fà)的重選小區參數,選擇最優小區,在非待機的時候實際上就(jiù)是切換了。因爲用(yòng)戶可(kě)能(néng)是在移動的,而(ér)蜂窩半徑又比較密,因此,更新的時間要(yào / yāo)比較快。目前的更新是秒級,可(kě)以說具有實時性。
手機是根據什麽定位呢?主要(yào / yāo)是利用(yòng)基站,有幾種方法,可(kě)以改進基站定位。如(rú)果說用(yòng)比較好的方法,定位精度可(kě)以數十(shí)米,一般目前可(kě)能(néng)是一兩百米,5G基站更密,定位精度就(jiù)更高。
全球導航衛星+數字地圖可(kě)提升定位精度
當然,除了基站定位以外,我們用(yòng)全球導航衛星和數字地圖都可(kě)以定位。現在的智能(néng)手機比例已經很高了,占手機用(yòng)戶的比例能(néng)夠達到百分之八九十(shí),而(ér)智能(néng)手機都裝了全球導航衛星接收的能(néng)力。定位的精度一般數十(shí)米,更好的可(kě)以做到米級,但是無法定位室内用(yòng)戶。另外,數字地圖公司有它的一些方法來掃描這個街道,因此它的定位甚至可(kě)以到每一棟樓。
一般來講,手機用(yòng)戶如(rú)果下(xià)載了這種數字地圖的APP,而(ér)且開機并啓用(yòng)了定位功能(néng),它就(jiù)會(huì)随着(zhe/zhuó/zhāo/zháo)變化新的位置,發(fā/fà)送信息給GPS。所(suǒ)以,能(néng)知道你(nǐ)所(suǒ)在的位置。當然,它的定位精度比基站的方法要(yào / yāo)好得(dé / de / děi)多。但是,隻限于(yú)裝有數字地圖APP的用(yòng)戶。我們有個比較知名的數字地圖公司,目前它現有用(yòng)戶數是7個億(下(xià)載),占全國移動用(yòng)戶還不到一半,隻有43%,所(suǒ)以說覆蓋面是有限的。但是,盡管電信的運營商覆蓋定位用(yòng)戶更多、更全面,但是精度并不一定比數字地圖公司更好。
這裏(lǐ)邊,給出的是一個數字地圖公司的大數據地圖,它可(kě)以溯源,武漢春節前将近500萬人流到什麽地方去(qù),這裏(lǐ)可(kě)以給出一個很好的走勢。
有了這些數據,怎麽來分析疫情的傳播?國際上通常用(yòng)一種叫SEIR的模型。它把人群分成什麽呢?I就(jiù)是已經感染病的人群,E是密切接觸者,S目前是健康的,R是最後(hòu)運算結果是康複人群的,它有一套規律。中國的學者提出了一種改進C-SEIR,增加了P和Q,P是疑似人群,Q是确診人群。現在我們國家(jiā)也是分四類,從中可(kě)以計算出疫情傳播的模型。
我們可(kě)以看到,這是從1月份到2月9日,全國的疫情傳播模型。可(kě)以看到傳播的狀況,目前,中國的修正模型,考慮了政府采取措施和大衆的對(duì)于(yú)防疫的意識,但所(suǒ)有上面的模型,還是基于(yú)城市裏(lǐ)頭感染者和沒感染者,包括所(suǒ)有的加起來是一個常數,也就(jiù)是說不考慮城市裏(lǐ)面有流入的和流出的。實際上利用(yòng)電信大數據,可(kě)以把流入流出的一部分人考慮進去(qù),可(kě)以使得(dé / de / děi)這個模型更精确。
大數據可(kě)視化——“疫情方寸間”
當然,有了模型,很多大數據還需要(yào / yāo)有一種可(kě)視化的表現。這裏(lǐ)給出一種可(kě)視化的方式,每個方框表示每個省。比如(rú)說右下(xià)角的方框——湖北,它的背景顔色就(jiù)比其(qí)他的深,也就(jiù)是感染人群更多。其(qí)中綠色是治愈率,黑色是死亡率,可(kě)以看到治愈的比例也比其(qí)他省要(yào / yāo)少,死亡的比例反而(ér)還比較高。可(kě)以看到,這是一種直觀的看法。
我們有了這種行(háng / xíng)爲的大數據,可(kě)以精确到每一個小區。左圖是百度,以上海爲例,右圖是騰訊,以深圳爲例,它都可(kě)以以一種APP的方式來發(fā/fà)布,老百姓可(kě)以用(yòng),下(xià)載可(kě)以查詢,甚至可(kě)以查到哪個小區的具體位置,距離你(nǐ)所(suǒ)在地方有多遠,裏(lǐ)面有多少個是确診病例。實際上,其(qí)中一家(jiā)公司說,已經覆蓋了200多個城市了。
現在開始複工了,這是2月10日,節後(hòu)第一個複工日,人流的增加也爲疫情的防控帶來了一些新的壓力。這裏(lǐ)面給出了疫情期間城市的熱力圖,我們可(kě)以細化到每個縣,可(kě)以讓我們知道什麽地方人最多,盡量避免人口的密集。
這裏(lǐ)面是一個确診患者的行(háng / xíng)程追蹤。從底下(xià)看是1月21日他離開武漢,乘坐了高鐵,到達一個地方,21日又換了一個高鐵,到另外一個地方,一直到24日,他發(fā/fà)現有症狀了,當然他行(háng / xíng)程還得(dé / de / děi)繼續,27日又到了一個地方,30日又到了下(xià)一個地方,31日确診了。根據這種确診患者的行(háng / xíng)程追溯,我們可(kě)以很好地知道他到過(guò)哪裏(lǐ)。現在有些地方是依靠流行(háng / xíng)病學的調查,去(qù)問這個患者,你(nǐ)什麽時間到什麽地方,一個是他記不準,另一個說不準,利用(yòng)手機的大數據,可(kě)以很好的知道。同時,通過(guò)計費數據,也可(kě)以知道他平時比較密切的聯系人,也可(kě)以知道有沒有可(kě)能(néng)是密切接觸者。
基于(yú)衛建委+交通+工信數據查找密切接觸者
我們把衛健委的數據、交通系統的數據、工信部門的數據組合起來,可(kě)以找出密切接觸者。比如(rú)說,衛健委可(kě)以知道确診患者的姓名、身份證号,然後(hòu)通過(guò)交通部,可(kě)以給出這個患者半個多月來乘坐過(guò)的航班車次,衛健委讓工信部提出,這些人的手機号是什麽?根據手機号,地方政府可(kě)以找到密切接觸者,當然這是從官方的查找。實際上平台也可(kě)以開放,同行(háng / xíng)者可(kě)以在同行(háng / xíng)查詢平台查出我所(suǒ)坐的航班和車次及車廂,車上有沒有确診患者,可(kě)以很好地發(fā/fà)現密切接觸者。
電信疫情大數據平台用(yòng)于(yú)個人自(zì)證無疫區行(háng / xíng)程
目前,是返程複工還有節後(hòu)回家(jiā)的時間,有些人隐瞞了自(zì)己來自(zì)疫區、到過(guò)疫區的經曆,回到家(jiā)、回到村子裏(lǐ)頭還到處走,雖然看上去(qù)沒有症狀,但是可(kě)能(néng)已經感染了,并且是有很強的傳染性,導緻了疫情擴散,導緻幾十(shí)人甚至上百人被隔離,或者已經被感染。通過(guò)手機定位,是可(kě)以知道這個用(yòng)戶是不是來自(zì)疫區,還是到過(guò)疫區,但是這種數據不能(néng)直接提供給街道、小區和鄉鎮,因爲隐私的保護原因,如(rú)果我們開放給他們,很可(kě)能(néng)不一定是查患者,說不定用(yòng)作其(qí)他,所(suǒ)以不能(néng)這樣做。
現在怎麽辦呢?我們知道,根據《個人信息保護法》,本人是可(kě)以查詢自(zì)己信息的。所(suǒ)以,工信部現在統籌三個運營商,提供了用(yòng)戶行(háng / xíng)程的服務。用(yòng)戶提出來,你(nǐ)可(kě)以查詢你(nǐ)本人,在14天(tiān)前到過(guò)什麽地方,當時工信部提出是按停留4個小時以上,這個時候,你(nǐ)有清單,就(jiù)可(kě)以上當地的用(yòng)工單位、街道、小區來證明你(nǐ)自(zì)己沒有到過(guò)疫區,這就(jiù)是自(zì)證。目前,這件事(shì)情已經開放查詢上千萬人次了。
現在面臨返程複工,有些地方的疫情防控措施甚至擴大化,對(duì)一些疫情确診人數比較多的省,要(yào / yāo)求全部都不許人家(jiā)回來。嚴控不能(néng)失控,硬核但不能(néng)亂來,所(suǒ)以實際上,返程的一些檢查是必要(yào / yāo)的,當然就(jiù)會(huì)對(duì)旅途帶來一些影響,這裏(lǐ)比如(rú)說以高德地圖爲例,他給出一個人從濟南要(yào / yāo)到上海,沿途經過(guò)城市的疫情情況列出來了,上海市對(duì)進上海的人有什麽管理及要(yào / yāo)求也列出來了,包括高速路入口、出口的車流量,以及大概這個過(guò)程中間有很多檢查站,路程需要(yào / yāo)多長時間也列出,“返程直通車”平台也方便大家(jiā),如(rú)果返程的人知道,我路上大概要(yào / yāo)多長時間,要(yào / yāo)做好什麽準備。
電力大數據在疫情防控中的作用(yòng)
除了電信和互聯網公司的大數據以外,事(shì)實上還有其(qí)他大數據。我這裏(lǐ)講的是電力大數據,一個家(jiā)裏(lǐ)邊是否有人在家(jiā),是否有人回來,根據用(yòng)電的情況是能(néng)區别出來。所(suǒ)以,國網電力杭州公司,做了1000多萬條數據收集,開發(fā/fà)出大數據分析的算法,能(néng)夠很好地知道,這裏(lǐ)邊有沒有居家(jiā)隔離的人,有沒有獨居的人,社區可(kě)以根據這個來判斷是不是做針對(duì)性地服務。利用(yòng)電力的用(yòng)電狀況,我們也可(kě)以知道複工狀況,根據用(yòng)電量,廣東在2月14日已經是正常時候用(yòng)電量的60%,也就(jiù)是複工率差不多60%。浙江2月14日的複工率不到1/3,尤其(qí)是溫州,屬于(yú)疫情比較嚴重的地方,複工率隻有12%。這些是可(kě)以比較宏觀地掌握了複工的趨勢。
醫療大數據助力智能(néng)診斷
大數據不僅用(yòng)于(yú)追蹤人群等,還可(kě)以幫助智能(néng)診斷。從現在統計看,新冠肺炎患者的核酸檢測,目前隻有30%是陽性,盡管它是患病的人,确診了,但是隻有30%。原因是什麽?取樣是從口腔部來取樣的,實際上這裏(lǐ)邊感染不算嚴重,肺部才嚴重。因此,判斷還要(yào / yāo)根據CT,一個肺掃描出幾百張這樣CT照片,一張張看是比較難的,利用(yòng)大數據,我們可(kě)以用(yòng)人工智能(néng)的技術,可(kě)以把它還原回一個3D三維的肺,比較容易看有沒有纖維化,有沒有肺變爲毛玻璃狀。同時,現在還可(kě)以根據醫療的經驗,開發(fā/fà)出感染肺炎患者的CT影像大數據分析評價系統,不一定要(yào / yāo)醫生(shēng)看了,這些CT照片可(kě)以放系統上,進行(háng / xíng)分析,能(néng)幫助醫生(shēng)進行(háng / xíng)病竈分析。過(guò)去(qù)醫生(shēng)可(kě)能(néng)要(yào / yāo)看5個多小時,現在幾分鍾就(jiù)可(kě)以,因爲它把幾百張變成一張了。
大數據在新冠病毒肺炎新藥與疫苗研制中的作用(yòng)
大數據本身在新冠肺炎新藥研制和疫苗研制裏(lǐ),也會(huì)發(fā/fà)揮作用(yòng)。新藥研制總體上過(guò)程是比較長的,新藥的篩選、活性的評價、藥理的分析、安全評價等等,到臨床還要(yào / yāo)做很多工作。目前是沒有特效藥的,所(suǒ)以,另外一種途徑是老藥新用(yòng),把一些過(guò)去(qù)抗艾滋病、流感的藥物重新檢驗一下(xià),看它有沒有可(kě)能(néng)對(duì)新冠肺炎有效。我們知道,已經上市的和臨床實驗的藥有近萬種,一種一種來篩選時間是很長的,而(ér)且現在去(qù)積累數據,已經不容易了,如(rú)果原來有積累更多的數據更好。這裏(lǐ)舉一個例子,清華的藥學院,它的人工智能(néng)藥物研發(fā/fà)大數據平台,收集了以前冠狀病毒研究裏(lǐ)邊涉及的900多個小分子的實驗信息,利用(yòng)這個就(jiù)有可(kě)能(néng)加快藥物的篩選。
大數據優化醫療緊缺物資的生(shēng)産組織與調度
大數據也在優化醫療緊缺物資的生(shēng)産組織和調度上有很好的用(yòng)處。海爾開發(fā/fà)了疫情醫療物資信息共享資源彙聚平台,一方面連接醫院,780多家(jiā)醫院;另一方面聯系需求的社區,以及能(néng)生(shēng)産這些醫療物資的企業500多家(jiā),它發(fā/fà)布了這個需求5000多萬件,另外,它的采購不限于(yú)中國,還到全球,所(suǒ)以實現了抗疫資源的精準對(duì)接。湖北有一個醫療物資需求平台,是由志願者開發(fā/fà)的,它爬取網上的數據,按城市醫院類别分類,登出需求、運輸和聯系方式。四川也開發(fā/fà)了防控應急物資的管理系統,把物資的入庫、調度、審批、庫存、日常消耗需求彙總在一起,提高了應急物資配置的調度效率,當然這些都是從網上獲取數據。
現在難題是什麽?我們的衛健委,并沒有得(dé / de / děi)到所(suǒ)有醫院的床位數據,因爲過(guò)去(qù)是不聯網的,這樣導緻我們不能(néng)實時地知道什麽床位是有富餘的,什麽可(kě)以調度出來。所(suǒ)以這也說明,我們過(guò)去(qù)這方面的工作都不足。
相關數據的融合将能(néng)得(dé / de / děi)到更有價值的結果
另外,數據需要(yào / yāo)融合,現在不少小區實行(háng / xíng)了封閉管理,現在已經有上線的專項排查APP,不用(yòng)手登記,用(yòng)手機一掃身份證,報上體溫,數據自(zì)動聯網。還可(kě)以記錄下(xià)來現在到藥店購買發(fā/fà)燒藥、咳嗽藥的人的實名數據,因爲有些人已經有病了,沒到醫院自(zì)己買藥,實際上是有很大風險的。我們還可(kě)以将公交卡、網約車的數據結合起來,這次疫情也是考驗我們,聯防聯控協調調度的機制,包括跨部門大數據的協調能(néng)力。
大數據協力企業複工
現在是複工了,很多企業需要(yào / yāo)工人,但是人員流動密集又有風險,因此企業面臨兩難。杭州采用(yòng)一種綠紅黃三色的健康碼的管理方式,區别用(yòng)戶是不是接觸過(guò)确診患者、疑似患者,是不是來自(zì)重點疫區,以及隔離長短,可(kě)以分别對(duì)待。但是,你(nǐ)會(huì)擔心填報是不是真實?這裏(lǐ)邊健康碼是要(yào / yāo)聯系到雲端的,跟網上掌握的數據匹配,大數據能(néng)查出不實的信息。
大數據與隐私保護
大數據是雙刃劍,怎麽做到隐私保護。實際上,電信的大數據隻考慮了信令和計費,不含通信的内容,但是盡管這樣,患者的行(háng / xíng)爲數據也是敏感的。電信大數據目前隻限于(yú)疫情的管控,疫情結束以後(hòu),不會(huì)再保留有關的原始數據。現在特别要(yào / yāo)注意的是,除了國務院衛生(shēng)健康部門依法授權的機構以外,其(qí)他任何單位和個人,不得(dé / de / děi)以疫情防控,治病防治爲由,未經被收集者同意收集用(yòng)戶的個人信息。這裏(lǐ)就(jiù)難了,又要(yào / yāo)保護個人信息,又要(yào / yāo)利用(yòng)大數據聯防聯控,怎麽辦呢?有一種方法,就(jiù)是原始數據可(kě)用(yòng)不可(kě)見。什麽叫可(kě)用(yòng)不可(kě)見?有關部委,衛健委、交通部、公安部、工信部等可(kě)以上報數據的樣本,幫助疫情大數據分析調試平台來調試我們的算法和程序,一旦調試好程序,再下(xià)發(fā/fà)到相關部委,在相關部委的各自(zì)範圍裏(lǐ)頭運行(háng / xíng)并産生(shēng)結果。最後(hòu)彙報給上面的結果已經不是原始數據了。這樣不改變數據的歸屬所(suǒ)有權和存儲位置,隻帶走了不含敏感數據的分析結果。
疫情大數據系統的信息安全防護
疫情大數據也是需要(yào / yāo)特别進行(háng / xíng)安全防護的,從右上角的圖可(kě)以看出綠色是健康數據,健康數據是黑客所(suǒ)重點關注的,甚至2014年(nián),我們國家(jiā)的網站受攻擊最多的是醫療衛生(shēng)的網站。美國也統計過(guò),遭遇黑客醫療數據的洩露損失很高,而(ér)且疫情大數據不但是商業利益問題,還關聯國家(jiā)政治社會(huì)問題,我們以爲疫情大數據系統是内網就(jiù)沒問題,但實際上内網也會(huì)遭遇攻擊。我們在疫情大數據的系統上,要(yào / yāo)明确接入權限與過(guò)程審計,用(yòng)各種各樣的安全措施來确保安全。
爲何新冠疫情大數據姗姗來遲
爲什麽這次新冠疫情大數據來得(dé / de / děi)晚呢?這上面是谷歌有一年(nián)某個地方發(fā/fà)生(shēng)流感,谷歌的報告流感比美國疾控中心還提前一個星期,相似度97%。它能(néng)提前預警,而(ér)中國的這次疫情大數據,基本上沒有起到預警作用(yòng),爲什麽?網上人說,你(nǐ)們說得(dé / de / děi)那(nà)麽好,爲什麽你(nǐ)們沒有早說出來?原因是網上信息很多,傳染病根本沒有被列到互聯網界關注的優先點,另外在發(fā/fà)現不明肺炎之初,醫療機構的信息中心也沒有能(néng)夠根據十(shí)多例的病情分析出人傳人,掌握不了病毒控制的主動權,應該說,可(kě)惜我們信息技術人員敏感性不夠。
大數據依賴真實數據的開放
另外一個更重要(yào / yāo)原因,是數據的披露開放不及時。在發(fā/fà)現最初動物作爲傳染源的時候,案例是比較少的,很難觸發(fā/fà)疫情大數據的分析。發(fā/fà)展到人傳人的時候,電信以及互聯網公司的人行(háng / xíng)爲軌迹的大數據才有作用(yòng),我們知道,武漢的重症病例從發(fā/fà)病到住院平均等待了将近10天(tiān),有些還沒等到住院就(jiù)不行(háng / xíng)了。整個獲得(dé / de / děi)信息延誤了10天(tiān),再加上14天(tiān)左右的潛伏期,病毒已經蔓延了一個多月,而(ér)且一些錯誤的信息,“不會(huì)人傳人”“可(kě)防可(kě)控”在官方媒體發(fā/fà)布。而(ér)真實的信息被當做謠言,疫情的數據沒有對(duì)外公布,當公衆知道病毒可(kě)以人傳人的時候,已經錯過(guò)了防控的黃金時間,造成了武漢疫情爆發(fā/fà)長時間失控,這種公布數據,不僅僅是爲了大數據分析。華盛頓大學有一個研究,“當媒體的報道量增加10倍,疾病的感染數會(huì)減少33.5%”,所(suǒ)以應該是更有用(yòng)的。
大數據的應用(yòng)需要(yào / yāo)有法律保證
另外,大數據的應用(yòng)需要(yào / yāo)法律保證。《傳染病防治法》規定,有關部門要(yào / yāo)報告疫情和監測,但是沒有明确哪一級地方政府有權收集當地運營商跟疫情有關的數據,也沒有明确政府應該開放什麽數據,應該公布什麽信息。所(suǒ)以,我們建議,要(yào / yāo)出台《傳染病防治法》的實施細則,要(yào / yāo)明确省市政府對(duì)疫情防控數據的收集權限和政府各個部門,以及相關企業提供疫情防控有關數據的責任。
電信大數據對(duì)疫情防控有用(yòng)但還不夠
電信大數據對(duì)疫情防控有用(yòng),但不夠。因爲用(yòng)戶的信令數據面很廣,而(ér)且實時性很好。實際上,每個用(yòng)戶平均每天(tiān)有200條左右的信令數據,應該是很好的,很詳盡。基站的定位精度隻有百米的量級,實際上100米的半徑裏(lǐ),根據這個來确定密切接觸者是不準确的,因爲有很多人隔100米和隔10米的情況是不同的。衛星導航+數字地圖的定位精度是比電信基站的定位精度要(yào / yāo)優,但是它的用(yòng)戶數覆蓋不夠,所(suǒ)以兩者的結合可(kě)能(néng)比較好。電信大數據對(duì)疫情防控是有很好作用(yòng)的,但是還是有限的,所(suǒ)以僅有電信大數據不夠,需要(yào / yāo)跟有關部委融合。
大數據是方法與輔助工具
大數據本身是一種方法,整個醫療不僅僅是在院中,還涉及到院前、院後(hòu)和醫院管理,涉及到很多環節。大數據也不是智慧醫療的唯一方法,也是要(yào / yāo)跟其(qí)他信息技術結合,同時也要(yào / yāo)跟醫學專業知識結合,需要(yào / yāo)信息技術和醫學界的緊密合作。
結束語
最後(hòu),跟17年(nián)前的非典疫情相比,本次疫情是更嚴峻的大考。但現在用(yòng)上了先進的醫療技術和大數據等新一代信息技術,科學防治、精準施策。在黨中央的堅強領導下(xià),在疫情防控的人民戰争中,大數據的應用(yòng)環境将進一步優化,在聯防聯控精準施策中将發(fā/fà)揮更大的作用(yòng)。我們一定能(néng)夠打赢疫情防控的人民戰争、總體戰、阻擊戰。
祝疫情防控早日取得(dé / de / děi)決戰的勝利,謝謝大家(jiā)。