基于 OpenMLDB 的联邦学习方案被国际数据挖掘学术会议 CIKM 录取

news/2024/7/7 20:12:30

本周,数据挖掘领域的国际顶级学术会议 CIKM 2022 (https://www.cikm2022.org/) 正在美国亚特兰大举行。由第四范式和新加坡国立大学合作的论文 “A System for Time Series Feature Extraction in Federated Learning” 被 CIKM 录取。

该论文主要描述了基于 OpenMLDB 的时序数据特征抽取的语义,扩展到联邦学习的创新性研究工作。该方案进一步和流行的开源联邦学习框架 FATE 进行了无缝整合,进行了开源并且可以直接运行。

经过实验验证,使用该方案的 FATE 应用模型质量(AUC)提升 3% , 召回率提升 10%;在广告投放业务中,带来 10% 的投放增效。

  • 论文原文:

    https://dl.acm.org/doi/pdf/10.1145/3511808.3557176

    (点击“阅读原文”,即可跳转查看)

  • 演讲视频:

    https://dl.acm.org/doi/10.1145/3511808.3557176

  • 代码 repo:

    https://github.com/4paradigm/tsfe

    (包含了源代码以及和 FATE 整合的可运行框架)

随着严格的数据隐私安全要求的出台,各个企业之间数据不能随意地交流交换,一个个数据孤岛日渐形成。联邦学习,一种在保护数据隐私的前提下进行联合机器学习的方法,应运而生。联邦学习在如反欺诈、风控、推荐等场景下有广泛的应用前景。此类场景中,基于时序数据的特征工程是最终能达成业务效果的关键一环。但是,在目前流行的联邦学习框架下,时序数据的特征工程并没有被很好的支持。因此,第四范式基于 OpenMLDB 时序特征工程的语义,在联邦学习的场景下进行扩展,赋能严格数据隐私要求下联邦时序特征的构建能力。

第四范式的方案基于两大工业级产品:OpenMLDBFATE,打造整合了联邦时序特征生成的联邦学习全流程。其中,自动时序特征生成和筛选的算法基于 OpenMLDB,功能实现上无缝连接 FATE 联邦学习全流程的各个模块。如下图一显示了基于 OpenMLDB 的时序特征方案和 FATE 整合的流程,在样本对齐以后,额外增加了联邦时序特征抽取的步骤,在原始特征上添加了时序特征,再把所有特征一起放入模型训练。

Image

图一:联邦时序特征抽取模块(TSFE)和 FATE 框架的全流程整合

时序数据的特征工程一般包括时间戳衍生和时序值衍生两类:

  • 时间戳衍生类特征工程:只需要使用到时间戳单列特征来生成,较为简单。例如,是否为早晨,距离周末的天数等。
  • 时序值衍生类特征工程:例如滑动窗口统计,在隐私数据保护的要求下,在联邦学习框架下的实现具有技术挑战性。

以银行交易欺诈判断为例,银行在判断交易是否为欺诈时,可以使用用户过去一周的电信公司通话记录信息来作为一项参考。这种场景下,用来生成时序特征的起始时间戳记录存储在银行数据库中,而用来生成特征的数据,如通话时长、通话次数等,存储在电信公司的数据库中。

在第四范式的方案中,提供了一种基于同态加密和随机函数加密机制实现隐私保护的通信协议,在加密分享关键信息的同时,保证原始数据不出库,确保安全高效,使得参与建模的双方在不披露原始数据的前提下,分享加密的时间窗口信息,合作方可以利用该窗口信息在本地生成发起方所请求的时序特征,用于之后的联邦时序建模。该方案同时提供特征选择功能,基于特征的 IV 值筛选新特征,进一步提升联邦建模效能。下图二显示了该协议的详细工作步骤,更多细节可以参考论文原文。

Image

图二:联邦时序特征生成具体步骤举例

未来,第四范式以及OpenMLDB 社区也将继续推进在基于隐私计算方面的研究和开发工作,也欢迎感兴趣的社区小伙伴加入我们。

<

PAST · 往期推荐

>

Image

OpenMLDB 实习生招募持续进行中


http://lihuaxi.xjx100.cn/news/94317.html

相关文章

【附源码】计算机毕业设计SSM实验室安全准入考试系统

项目运行 环境配置&#xff1a; Jdk1.8 Tomcat7.0 Mysql HBuilderX&#xff08;Webstorm也行&#xff09; Eclispe&#xff08;IntelliJ IDEA,Eclispe,MyEclispe,Sts都支持&#xff09;。 项目技术&#xff1a; SSM mybatis Maven Vue 等等组成&#xff0c;B/S模式 M…

Java RMI详解

转自: Java RMI详解 下文笔者讲述RMI详解说明,如下所示 Java RMI简介说明 Java远程方法调用即Java RMI(Java Remote Method Invocation)是Java编程语言里一种用于实现远程过程调用的应用程序编程接口当客户机上运行的程序可以调用远程服务器上的对象远程方法调用特性使Java编…

数说故事2022年中国预制菜行业趋势及营销创新洞察报告

近年来&#xff0c;预制菜已经走入中国消费者的餐桌。一方面&#xff0c;不少经典大菜都能在家里轻松制作&#xff0c;以“30分钟一桌菜”“让厨房小白秒变厨神”为招牌的预制菜产业发展迅猛。另一方面&#xff0c;以90后中青年群体为代表的社会中坚力量崛起&#xff0c;需要兼…

Docker环境下使用docker-compose一键式搭建RocketMQ(4.5.0版本)集群及其管理工具(外网版)

前言 本节内容延续前期博客内容&#xff0c;使用docker-compose一键式搭建docker环境下的RocketMQ集群及其管理工具&#xff0c;实现rocketmq在docker环境容器外部访问。特别说明&#xff0c;内网版的RocketMQ集群只能实现docker环境内部访问&#xff0c;并不适用于测试使用&a…

【面经】长安新能源大数据开发一二面面经

欢迎点击此处关注公众号&#xff0c;每天分享大数据开发面经。 一面 一面 HR 面&#xff0c;20 min。 自我介绍 实习项目 学校项目 对新能源车的看法 对大数据在新能源车领域的看法 个人优点 个人缺点 为什么投递我们公司 反问 二面 二面技术面&#xff0c;20 min…

232 node 项目部署流程

1.打开宝塔商店&#xff0c;应用搜索pm2&#xff0c;下方安装&#xff0c;完成后点击设置 2. 3.选择node版本切换版本14.20.1或者更高 4. 5.创建文件目录&#xff0c;命名随意&#xff0c;上传pdftool工具包&#xff0c;cd 到改目录下&#xff0c;终端输入npm install 服务器…

glTexStorage2D 详解

glTexStorage* 为指定的纹理创建固定存储。也就是分配的存储空间不可改变&#xff0c;这样就可以让纹理对象停止跟踪纹理的某些方面。 而纹理中的内容可以使用glTexSubImage* 来改变。glTexStorage2D申请的纹理空间&#xff0c;可在后续glTexSubImage2D分割多个使用 glGenTex…

学习阶段性总结

从8月21日开学到现在整好两个月时间&#xff0c;在此&#xff0c;对这两个月学习的内容以及近期要完成的计划做一个总结。 已完成&#xff1a; 1、Linux基本命令的学习与使用&#xff0c;通过使用云服务器对Linux命令有了更熟练地掌握。 2、学会使用docker&#xff0c;对doc…