黑龙江省全面排查吉林市和沈阳市来黑龙江人员


中新网哈尔滨5月15日电(记者 史轶夫)黑龙江省指挥部防控组15日晚发布消息,针对吉林市舒兰、丰满区,沈阳市苏家屯区发生聚集性疫情反弹,黑龙江省利用大数据对社区、村屯等进行全面排查。截至15日12时,黑龙江省13个地市和农垦、森工共排查2000多人。

吉林市舒兰、丰满区,沈阳市苏家屯区发生聚集性疫情反弹后,黑龙江省疫情防控领导小组和指挥部高度重视迅速布置防控工作。

我们的金融安全计算平台有以下特点:

我们这个平台建设,刚才提到用三大类技术方案,统一前端入口和统一后台架构。

目前的现状是,一方面要保护客户的隐私,另外一方面,数据孤岛在不同的程度上存在着,去年央行发布的金融科技三年发展规划里,也强调了要“消除信息的壁垒;数据融合。” 

后台的架构,从下往上看,分为执行层、应用层、操作层、场景层。

疫情之下,为减少社区群众的焦虑和恐慌情绪,杭州市数十家心理咨询机构紧急上线心理危机干预服务,为有需要的居民提供心理疏导和情绪支持。

联邦学习是整个框架里的主要技术。

同时通过大数据排查黑龙江省近14天到过高风险和中风险地区回来的人员进行排查,一律进行核酸检测,经流调确定有风险的还要采取集中隔离或居家隔离措施。

这个案例是一家车险公司的业务,在客户里筛选健康险的意向用户,进行精准点对点促销。建模流程与上个案例类似,由保险公司提供的高响应人群样本和互联网公司的数据进行融合训练,最后结果运用于全量的车险客户群。

所以,“数据孤岛”和“隐私保护”两者的困境,在业内一直是个难题。 

这个平台的操作很简单,就是三个步骤。

银行在和第三方机构合作时,非常强调这些数据进来以后,对指标的一些增量贡献,在意的是在现有基础上的提升。如果在现有基础上,引入的数据源没有很大幅度的提升、效果不明显,对金融机构的吸引力就会降低。

整个联邦学习里,金融企业运用最多的是纵向联邦学习,金融机构更想看到的是和他非同业之间的数据融合。

在和金融企业沟通的时候,我们发现他们关注的点有这些:

纵向联邦学习基于数据的垂直细分,主要用于金融业和非金融行业,特别是像一家银行和一家互联网公司的数据融合。两家公司的客户群很多时候是重叠的,特征互补。

对于从高风险到黑龙江省来的人员一律采取集中隔离,健康码设为红码;对于从中风险的地区来的人员一律采取居家隔离,健康码设为黄码。对隔离人员全部进行核酸检测。

黑龙江省各市地按照要求迅速行动,通过国家联防联控机制尽快获取吉林、沈阳市的流调信息,利用大数据对社区、村屯,企事业单位进行全面排查,并按相关规定做好疫情防控。

从执行层看,中间是基于多方计算的联邦学习引擎,引擎最下面是基于加密的密码学算法和一些常用的不经意传输、同态加密、密钥分享等。

这里有一个案例,就是我们基于深度MNIST公开数据集,6万行784位的运算,我们用时25秒,时间还是比较快的。

在一个分布式的网络中,多个的参与实体各自持有秘密的输入,完成对某函数的计算;但是要求每一个参与实体,除了计算的最终结果以外,其他的中间过程,包括自己其他客户的原始数据,任何的输入数据都是不可以看到、都是不可以获得的,这保证了参与各方的数据的安全性。

第三步就是模型预测,需要在页面新建预测任务名称,包括描述,还有我们选择哪个预测的模型。生成的模型在这里做选择,再选择要预测的数据集,点蓝色按钮完成整个模型预测过程。一定时间后,就会看到右下角预测成功的显示,整个模型的离线预测就完成了,也可以用新建预测服务以API的方式供外调用。

第一种是逻辑回归,逻辑回归是常用的二分类的分类器,在这种分类器上面我们加了一个基于PrivC的加密算法的逻辑回归,这种算法是基于MPC的安全学习。

横向联邦学习的计算步骤主要有四:双方发送加密的梯度,安全的聚合,发送聚合的加密梯度参数,再解密梯度更新模型。

以下为谢国斌演讲全文内容,AI金融评论做了不改变原意的编辑:

基于刚才说到的痛点,百度推出了度信金融安全计算平台,做数据融合,前提是强调用户要充分授权,数据来源要合法、合规。也提出了联合建模产品,拒绝数据孤岛的存在,产品对上面几种路径都是支持的。

百度在多方安全计算方面,有自己的MPC平台架构。我们的平台架构分为这么六层,从基础到应用,有运行环境基于DOCKER的,还有基于云和SERVER的。

其中一种就是联邦学习;还有与之接近的,就是在做参数交换、梯度交换的时候,会用到的多方安全计算。另一种以硬件加密为主,可信计算(TEE),在内存里做安全加密。以及基于云安全,做安全隔离域的方法。

在下面的截图,我们看到一些Table2,在一些加减还有一些常规的比较上面,基于我们自研的PrivC的算法和公开的其他的一些加密算法,像ABY、EMP、SPDZ等等,我们的运算速度都比他们快,标出的黑色数值是越小越好。

1.数据的融合,会通过隐私保护的求交技术PSI,达到双方的数据的可用不可见。

第二步模型训练,会自动包含刚才说的样本对齐,包括可选的特征工程,还有算法参数、算法选择等。

平台主要服务于金融行业to B客户,会考虑行业里特别关注的一些场景,比如营销、风控、投研、反欺诈。我们基于金融的建模,有一些专用的功能点增强。从安全特性上,无论硬件软件,有多种的方式进行技术加固。

截至15日12时,黑龙江省13个地市和农垦、森工共排查2000多人,现在排查工作还在继续。(完)

往上是基于密码学算法的多方安全计算,双方或多方的加密数据的协调和交换,隐私的PSI对齐、ID化、联邦分析和联邦学习。

因为银行没有过往的一些互联网行为信息,也需要为此通过互联网渠道来合作、来进行联合建模。联邦学习最后的效果就是,让申请率提升了,通过率又稳定在一定的范围内,不良率低于银行业同业平均水平。

首先是银行把他的数据和互联网合作方,把数据在自己的机房里边准备好,然后各自联邦学习时,上传梯度参数。

第一步上传样本比较简单,把数据上传以后,摁一个按键,就会看到这一横行里数据的上传成功,然后AB双方在这个地方点鼠标发布,数据才传到本地的服务器上面。

在社会组织以专业服务抗击新冠肺炎疫情时,社会也以相应方式温暖抗疫一线的社会工作人员。日前,保险公司为6万名抗疫一线的社工免费赠送疫情专项保险。根据保险协议,在抗疫期间,对因感染新冠肺炎身故(扩展责任)的社工,给予20万元/人的保障金;对乘坐交通工具意外身故的社工给予100万元/人保障金。

我们平台的设计理念,是全程免编码,通过鼠标的拖拽来完成的。

度信金融安全计算平台的技术方案

先是合作的AB双方,完成本地数据的上传。原则上都是上传到自己的IDC机房里,数据不出域。

另外,多方安全计算所涉及的加密技术,其主要原理如图左所示,四个参与方在针对任何一方都没有可信的情况下,安全地进行多方协同计算。

操作层有可视化的操作平台和4A安全赋能金融行业,打造营销风控端对端的场景化建模功能。

混淆电路,来自于物理学电路原理:一堆人各自拥有隐私数据,想把数据合起来进行计算,但又不想把数据交换给别人,典型的案例就是百万富翁问题。 不经意传输,服务的某一个接收方,以不经意的方式得到服务的发送方输入的一些信息、信号,这样就可以保护接受者的隐私不被发送者所知道。 秘密的比较协议,计算的双方各输入一个数值,但是他们又希望在不向对方泄露自己的数据的前提下,比较出这两个数的大小。 同态加密,用这种方法先计算,后解密,也等价于先解密后计算。同态加密里也有加法同态、乘法同态,包括全同态、偏同态、半同态等,它在联邦学习中应用也较多。 秘密分享,将秘密分割存储,多个参与者要相互协作才能恢复秘密的消息,如果有一方没有参与,是没有办法把这个秘密完全恢复出来的。 零知识证明,证明者能够在不向验证者提供任何有用的信息情况下,使验证者相信某个论断是正确的。 差分隐私,这在业界应用也比较多。

在安全计算过程中,所用到的一些密码学或加密技术,概括起来有这么七种。

此次课程,他将分享基于联邦学习技术的百度金融安全计算平台(度信)建设与实际应用,讲述如何借力安全技术架构、脱敏方法和合规制度设计,在“用户充分授权、数据来源合法合规”前提下,打破数据孤岛,实现多方数据加密融合建模,助力金融企业业务的开展。

同时金融机构也强调数据源的差异化,如果数据来源都很类似,那对指标的贡献、对模型效果,提升度不是很大。 

我们在19年的安全顶会上面发表了关于这个算法的文章,特点是训练速度和在公开的服务器上的明文相比,速度大概会是在明文算法的40倍以内,也就是明文算法假如要用时1分钟,那么我们要用时40分钟。

联邦学习本质上是软件加密技术,数据不出域、不出本企业,主要是通过梯度参数出域。从本质上来说是去中心化的方案。横向联邦由谷歌在2016年的时候研发出来,即数据的水平切分,主要用于金融同业间的数据融合。

行业里做这块技术的公司,一般有如下路径在积极探索:

联邦学习落地金融的关键技术点

效果上,这个模型的AUC值达到了0.76,减少了对客户的打扰,也降低了营销的成本。 

今天的要点,主要是分享在联邦学习和多方安全计算技术路径上,我们所做的尝试和产品的研发。

银行信贷产品的互联网营销

2.求交的这批客户,我们会进行简单的特征工程,一些算法模型训练,包括像机器学习的逻辑回归、GBDT等,也按照这个数据拆分,做完模型训练、输出模型报告以后,进行模式部署、模型推理和预测发布。

下面我会重点介绍三类算法,都是百度自研的。

从计算建模层面看,我们是自主操作,甲方乙方各自操作,全程免编码,流程很简单,性能比同类的算法也要快。

第二种算法,就是基于梯度提升的算法,有GBDT、XGBoost,再快一点的有LightGBM,我们这种算法叫SecureGBM,它是在LightGBM级别的基础上改造而成的。

我们在跟很多的金融客户进行沟通的时候,他们普遍面临的痛点,就是数据孤岛和隐私保护的问题。

今年4月,国务院也在《关于构建更加完善的要素市场化配置体制机制的意见》里,强调了数据的共享、数据资源的整合和安全保护。

度信平台在银行业、保险业的应用

定制化方案要满足客户不同的安全等级要求;有客户对建模要求较高,那对算子、算法、模型多样性、交互和应用性方面要求就高一些,我们也会提供类似的解决方案。还有对不同的资源配置,构建私有云、公有云和专有云支撑,支持不同的部署方案。

在模型训练过程中,等它出来一个结果,就会有一些像我这里截屏的模型,配置基本信息,比如双方对齐了多少样本,有哪一些特征?这里只能看到特征名称。我们算法所涉及的每一个主要参数是什么样的。这里以逻辑式回归为例,生成模型评估报告,像ROC、KS值等等,就完成整个模型训练。

百度智能云的数据孤岛破解之道

第二步细分为几个小步骤:

这家银行开展信贷业务时,需要通过互联网去线上获客,但它并没有这种线上资源或流量去投放,也没有相关风险管理经验,于是它就跟某家互联网公司进行渠道上的联合建模,实现精准获客和控制风险。

即使求交了这500万的客户,我们也只有某一个主要的使用方,比如甲方银行在使用的时候,才知道这500万相互求交的客户号码是什么。

再往上是应用层一些基于模型的算法的应用,这个是标准的机器学习建模流程。

私有云、公有云和私有化方面,我们有多种方式部署,产品目前也能提供工业级的使用体验,包括严格的工程封装、项目的验证实测,还有百度沉淀的金融行业案例、提供金融行业的场景的解决方案。

首先有分发公钥,加密交换中间的结果,再进行加密梯度和损失的计算,然后更新模型。

金融云专区上,我们通过了国家的四级等级保护;数据流通方面,我们今年通过了信通院的相关技术测评。

在基础的运行环境往上,有刚才说到的六七种加密算法。再往上是整个系统包括TLS、4A这一块的安全。再往上是系统平台层,有用户角色管理,包括数据和分布式调度、监控等。再往上看是数据的接入,再到数据的应用。

这个案例,我们推送的贷款客户金额是超过千万;通过率控制在稳定范围;该案例的不良贷款率是0.38 ,比去年银行业1.81的不良率低了不少。 

在新冠肺炎疫情中,杭州市众多社会组织积极响应,第一时间通过募捐善款、开展心理疏导、参与志愿服务等方式,发挥专业作用。如抗疫期间,杭州市瓯海商会通过微信、电话等方式,收集分析当前会员企业经营困难,并将相关信息报告政府有关部门;杭州市民间中医药发展促进会向全体会员开展献方献技活动,助力医护人员战胜“疫魔”。

强调一下,融合不会泄露双方的数据隐私,比如说甲方有一亿的客户,B方有5000万的客户,双方去求交集,求出来只有500万客户,那么我们只知道这500万的交集,剩下的客户群双方都是不知道的。

第三步,精准广告投放,包括精准获客,这部分我们项目的客户日均调用量是50万笔。整体贷后表现非常好,降低了风险,也节约了这家银行的成本。 

在互联网渠道这一端,主要是上传数据,建模发生在银行这端自行操作,就完成了整个建模过程,达到了数据模型建设,完成后确定合适人群。

我们的平台架构,需要满足三个不同的客户需求:

我们的准确率和明文算法比,会达到99%左右,比明文算法低一点点,一般的梯度,有时候建模如果控制得不太好,都会有一些模型的损耗,而我们的损耗是比较少的。