首頁 > IT業界 > 正文

2019WAIC|微眾銀行CAIO楊強:聯邦學習領跑人工智能最后一公里

2019-08-30 13:58:30  來源:中國網

摘要:8月29日,2019世界人工智能大會(WAIC)于上海世博中心拉開帷幕,海內外大咖齊聚,學術界工業界交匯,共話人工智能未來。微眾銀行首席人工智能官楊強教授在大會主論壇——“科學前沿”演講時表示,聯邦學習已經成為AI在學術界和工業界的新趨勢,未來行業面臨的社會大眾的要求和監管會越來越嚴格,聯邦學習能夠在滿足用戶隱私保護和數據安全需求的同時,實現多方共贏。
關鍵詞: 世界人工智能大會
     8月29日,2019世界人工智能大會(WAIC)于上海世博中心拉開帷幕,海內外大咖齊聚,學術界工業界交匯,共話人工智能未來。微眾銀行首席人工智能官楊強教授在大會主論壇——“科學前沿”演講時表示,聯邦學習已經成為AI在學術界和工業界的新趨勢,未來行業面臨的社會大眾的要求和監管會越來越嚴格,聯邦學習能夠在滿足用戶隱私保護和數據安全需求的同時,實現多方共贏。

 

 

微眾銀行作為聯邦學習的國內首倡者和領導者,在楊強教授的帶領下首次提出了“聯邦遷移學習”,并通過領銜聯邦學習國際標準(IEEE標準)制定、開源自研聯邦學習框架Federated AI Technology Enabler(簡稱FATE)等來推動聯邦學習技術在行業中的落地。

以下為微眾銀行首席人工智能官楊強教授演講全文:

大家好,今天非常高興跟大家討論這樣一個題目——人工智能最后一公里。為什么會起這樣一個題目呢?現在我在微眾銀行負責人工智能的工作,接觸到很多人工智能的應用場景。像微眾銀行這樣一個互聯網銀行,它服務的用戶數已經超過了1.7億,提供服務主要借助的手段就是人工智能和機器人。在服務過程中有很多環節,比方說業務咨詢、審核批準貸款文件、對申請人進行人臉識別、語音識別等身份核驗、客服問答等。在金融領域,不僅要建立用戶畫像和模型找到用戶,更要建立一整條長鏈路來服務廣大的用戶。

我們已經很熟悉這些人工智能領域的應用,但我想說的是,這些應用都離不開一個元素——數據,尤其是大數據。但是我們看看我們的周邊,卻發現數據非常有限。在法律領域,積累一條有效的數據是需要很長時間的;在金融領域,尤其是大額貸款、理財領域,有效的數據也是非常少的;在醫療領域面臨的是數據割裂的現象,每個醫院都有很多的醫療影像數據,卻出于監管、安全、利益等原因不能夠互相傳遞,無法形成合力。

在這種情況下,數據聚合的需求十分強烈,卻很難得到滿足。其中有一個很重要的原因是社會對于用戶隱私的要求越來越高。現在世界各地的監管機構紛紛出臺強有力的法規,比方說歐盟在去年正式提出《通用數據保護條例》(GDPR),對個人隱私、個人數據的擁有權,包括模型的使用和可解釋性都提出了非常嚴格的要求。中國的法律也在快步推進,連續出臺了一系列關于用戶隱私、用戶數據安全和擁有權的法規,也將會嚴格限制企業之間的數據交換。

我們一方面面臨數據割裂,沒有大數據來訓練人工智能;另一方面,法律法規和社會對安全的嚴格要求又限制了數據的融合。大數據變成了人工智能的挑戰。

我們如何應對這個挑戰?放棄人工智能嗎?僅允許擁有大數據的公司來做人工智能嗎?這都不對,我們的回答是,要積極地尋找一些新的技術方向來解決數據挑戰。

我們提出的方法和方向叫做“聯邦學習”,英文叫“Federated Learning”。數據的各個擁有方,在各自數據不出本地的情況下建立模型,并且讓這個模型能夠共享,那么在建立模型的過程中便不會侵犯用戶的隱私,整個建模的過程就叫聯邦學習的框架和算法。

Google在2016年就開始進行一個項目,在安卓系統的手機用戶中建立聯邦學習,解決用戶個人終端設備的數據隱私問題。首先初始化模型下載到各終端,各終端根據自己本身的數據更新模型參數,不同的終端就會產生不同的更新結果,這些更新被送到云端進行聚合,匯總后的模型參數將作為下一次更新的初始參數,這樣一直迭代直到收斂。用這樣的一個方法既能保證用戶隱私,同時又能共享一個通用模型,利用群體智能在云端不斷更新。

這樣的模型不僅需要一個機器學習算法,更需要一個分布式的機器學習算法。在分布式的機器學習算法之上,還要有各種加密的算法。在這個基礎上,我們仔細地分析了一下,發現一共有三種模式來進行聯邦學習。

第一種模式叫橫向聯邦學習,是指當兩個數據集的用戶不同,重疊較少,但用戶特征重疊較多時,我們把數據集按照橫向 (即用戶維度) 切分,并取出雙方用戶特征相同而用戶不完全相同的那部分數據進行訓練。

 

 

第二種叫做縱向聯邦學習,是說兩個數據集的用戶特征重疊較少,但它們卻有較多的重疊用戶,那么我們就把數據集按照縱向 (即特征維度) 切分,并取出雙方用戶相同而用戶特征不完全相同的那部分數據進行訓練。

 

 

最后,如果兩個數據集既不重疊用戶特征,又不重疊用戶,那么在這個場景下,我們也提出一個新的算法,叫做聯邦遷移學習。它可以利用遷移學習的算法,把這兩方數據模型的本質挖掘出來,把抽象的模型加以聚合,在聚合的過程中保護用戶隱私,也取得非常大的成功。

 

 

雖然聯邦學習的框架最近才提出來,但是它在產業界的應用已經有成熟的進展。比方說我們最近在一個金融信貸的場景下就取得了非常成功的應用:一方是互聯網企業,有很多用戶的行為數據;另一方是金融企業——銀行,需要建立一個更準確的用戶信貸模型。這時利用縱向聯邦學習,把兩邊的模型加以共享,進行更新,這樣模型就能夠更有利,隨著數據量的增加,效果也大為增加。以下是效果圖。

 

 

同時,我們也嘗試了很多不同的應用場景,比方說在城市管理領域,利用散落在各地的割裂的計算機視覺數據來建立一個安全、共享的模型;在語音識別領域,不同的機構有不同的語音數據,不同的服務中心,它們也可以建立一個聯邦學習來解決用戶隱私的問題。

 

 

剛剛講的這些應用都離不開一個概念,叫做生態。聯邦學習生態的建立需要我們不斷地去倡導。我們在學術界和工業界也做了一系列的推動工作,包括在剛剛結束的第28屆國際人工智能聯合會議(IJCAI 2019)上舉辦了首屆國際聯邦學習研討會;在Linux Foundation開放了全球首個聯邦學習的開源項目,叫FATE(Federated AI Technology Enabler),和更多的開發者一起為聯邦學習開源做出積極貢獻。同時,我們也正在建立一個聯邦學習國際標準(IEEE標準),讓不同的機構之間可以有共同的語言,在建立聯邦學習共同模型的時候大家的溝通會更敏捷;在國內,我們也取得了很大的成就,牽頭建立國內首個關于聯邦學習的團體規范標準——《信息技術服務 聯邦學習 參考架構》團體標準。

最后,機器學習離不開大數據,大數據離不開安全和保護隱私的考慮。聯邦學習是一個既能建立大數據模型,又能保護數據安全和用戶隱私的有利的工具,希望更多的人能加入我們一起建立聯邦學習生態。謝謝大家!

詳細了解聯邦學習:

官網:fedai.org

開源項目FATE:https://github.com/webankfintech/fate


第二十九屆CIO班招生
法國布雷斯特商學院MBA班招生
法國布雷斯特商學院碩士班招生
法國布雷斯特商學院DBA班招生
責編:liukai
重庆时时新版走势图