电话咨询

电话咨询:010-62607600

微信咨询

微信扫码

联邦学习 | Non-IID数据 论文:测量联邦视觉分类中不相同数据分布的影响

行业资讯 发布时间:2022-03-09 18:22:58 作者:深延科技

主要内容:

1、基于迪利克雷分布,提出了一种FL中Non-IID数据的生成方法;
2、对不同程度的Non-IID数据下,进行了较多的对比试验,研究客户端数据量、本地迭代轮数、学习率等参数对性能的影响;
3、提出了一种基于动量的解决方案,可以有效缓解Non-IID带来的性能下降。

image.png

论文地址:https://arxiv.org/pdf/1909.06335.pdf

01 Introduction 介绍

介绍了一下FL和Non-IID数据的背景知识,不清楚的小伙伴可以看之前的文章。

02 Related Work 相关工作

在FL中图像分类数据集的相关生成工作,一部分是在MNIST、CIFAR-10等数据集上进行划分,存在分布极端、划分数据池不够大等问题,不符合实际情况;另一部分工作就是使用图片的Dirichlet分布来合成Non-IID数据集。作者主要是使用连续的 图片 生成一系列分布,来研究超参数的设置和优化方案。

下图中2018那篇论文之前的文章分享给过,有兴趣的小伙伴可以看看:

image.png

03 Synthetic Non-Identical Client Data 生成客户端Non-IID数据

这部分介绍了一种基于迪利克雷分布的Non-IID数据的生成方法,把10个类别当作一个categorical distribution类别分布p,然后利用参数为 图片 的迪利克雷分布生成每个客户端的分布q, 图片 越大,客户端的分布与基分布约i相似,当趋于无穷大的时候,变为同分布;图片 越小,非独立同分布程度越高,当等于0时,每个客户端只有一个类别的数据。

image.png

数据集:CIFAR-10,10类,训练集50000,测试集10000,分成100份,每份500张图片

image.png

04 Experiments and Results

Classification Performance with Non-Identical Distributions

C:参与客户端的数据/总客户端的数据100
E:客户端本地训练轮数

image.png
image.png
image.png

C、E、 图片 、学习率 图片 几个超参数共同影响了FL模型最终的性能,最后一个实验探索了在不同图片下学习率的敏感性,发现如果图片大,学习率可能在两个数量级的范围内调节都可以获得不错的结果,而图片小,就得小心调参了。

Accumulating Model Updates with Momentum

针对这个问题论文提出了一种缓解办法:加动量,简单有效,公式如下:

image.png
fedavg算法得到的总梯度

image.png
梯度更新

验证结果如下:

image.png

可以说是在图片小的区域表现非常nice了,直接提升40%多。

论文又定义了一个相对学习率,探索了不同C和E下相对学习率的敏感性,在C比较小的时候,相对学习率比较敏感,应该设置较大的动量和低学习率。其中E太大,会导致方差高,应该结合较低学习率。

image.png
image.png

作者:超脱

|关于深延科技|

深延科技成立于2018年1月,中关村高新技术企业,是拥有全球领先人工智能技术的企业AI服务专家。以计算机视觉、自然语言处理和数据挖掘核心技术为基础,公司推出四款平台产品——深延智能数据标注平台、深延AI开发平台、深延自动化机器学习平台、深延AI开放平台,为企业提供数据处理、模型构建和训练、隐私计算、行业算法和解决方案等一站式AI平台服务。

立即使用深延AI平台