电话咨询

电话咨询:010-62607600

微信咨询

微信扫码

KDD 2021冠军方案 | 揭秘 TsaDetect 时序异常检测机制

公司资讯 发布时间:2021-10-20 12:10:15 作者:深延科技

8月14日至18日,国际数据挖掘与知识发现大会 KDD 2021在线上正式举行。深兰科技再次表现亮眼,在Multi-dataset Time Series Anomaly Detection竞赛中获得冠军。

值得一提的是,同台竞技的队伍分别来自华为诺亚方舟实验室、阿里达摩院、海康威视、日立、三菱电机、日本产业技术综合研究所和柏林洪堡大学等知名公司和高校,比赛过程非常激烈,吸引了超过500支队伍积极参与,并接收了将近2000次有效结果提交,可谓精英云集。

ACM SIGKDD(国际数据挖掘与知识发现大会,简称 KDD)是世界数据挖掘领域的最高级别的学术会议,由 ACM 的数据挖掘及知识发现专委会(SIGKDD)主办,被中国计算机协会推荐为 A 类会议。

自1995年以来,KDD已连续成功举办了26届。本次SIGKDD 2021大会共收到1541篇有效投稿,其中238篇论文被接收,接收率为15.44%,相比 KDD 2020 的接收率16.9%有所下降(216/1279篇)。

image.png

一、赛事介绍

Multi-dataset Time Series Anomaly Detection 竞赛提供了250条时间序列,并且每条时间序列都包括一个异常点。主办方希望选手们利用无监督或自监督的方法找到这些异常点的位置。

时序异常检测旨在检测数据中的意外或罕见事件项。它常用于许多工业应用,如运维、行业监控、产品价格在线监控等。

二、团队成绩

image.png

DeepBlue AI 团队名列首位

三、数据分析

这些时间序列中异常点的种类繁多,可能是点异常,也可能是群体异常,如下图。单一方法很难找到所有文件的异常点,因此需要一个适用的框架或者好的集成方法。

image.png

图表1 不同异常类型

四、竞赛方案

针对这一竞赛,DeepBlue AI 团队自主开发了一套高泛化性和灵活性的异常检测框架TsaDetect。具体来说,每个时序会经过周期分析,多模型预测,评估和集成三个模块。

image.png

图表 2 TsaDetect 时序异常检测框架

首先,分析输入时间序列以提取基本信息和周期,这对于需要窗口大小的算法很重要。然后,时间序列信号通过不同的模型进行处理。所有模型都会生成时间序列残差,这些残差被传递到评估和集成模块中。这些残差被标准化为可比较并加权求和以产生最终的残差。这一步中的权重由置信度决定,它表示模型在检测该信号中的异常时的置信度。最后,异常位置由这个最终的残差决定。

在检测模型的选择和开发上,主要专注于快速和稳定。我们最终采用了基于傅里叶变换的方法,matrix profile方法,以及改进的基于回归的方法。每种方法都有自己的适用的异常类型,通过上述的框架整合起来,就得到了一个鲁棒性,泛化性更强的检测器。

写在最后

2019年,DeepBlue AI 团队就在KDD Cup 2019 AutoML Track 挑战赛中取得第一名的佳绩,此次夺冠又一次向业界证明深兰秉承“技术先行,深耕基础研究”的理念意义,同时也在数据挖掘领域占据领先地位。而其自主研发的时序异常检测框架,也为AI运维,AI时序监控等领域的实践和落地开阔了思路。值得一提的是,DeepBlue AI 团队的时序关系数据的自动化机器学习的论文也在本次KDD2021会议上被录用。

立即使用深延AI平台