kdd-cup2021赛题

  |  

摘要: 2021 年 KDD 比赛的三道题,涉及时间序列、交通网络、图模型

【对数据分析、人工智能、金融科技、风控服务感兴趣的同学,欢迎关注我哈,阅读更多原创文章】
我的网站:潮汐朝夕的生活实验室
我的公众号:潮汐朝夕
我的知乎:潮汐朝夕
我的github:FennelDumplings
我的leetcode:FennelDumplings


赛题1 基于多数据集的时间序列异常检测

背景描述-时间序列异常检测

近年来,SIGKDD以及其他数据挖掘,机器学习和数据库会议上出现了有关时间序列异常检测的论文。这些论文中的大多数都在一个或多个基准数据集中进行测试,包括由NASA,Yahoo,Numenta和清华-OMNI 等创建的数据集。

尽管社区应该非常赞赏这些团队共享数据的努力,但最近的几篇论文[a]认为这些数据集不适用于衡量异常检测的进展。

简而言之,反对使用这些数据集的两个最引人注目的论据是:

  • 冗余性:几乎所有上述基准数据集都可以完美解决,而无需查看任何训练数据,并且使用已有十年历史的算法。
  • 标签错误:永远不能完全消除错误检测基准错误贴标签的可能性。但是,上面提到的某些数据集在基本事实中似乎有大量假阳性和假阴性。已经发表了一些论文,认为方法A比方法B更好,因为它在基准X上的准确性要高5%。但是,仔细检查基准X可以发现,有25%以上的标签是错误的,这个数字使标签A的准确性相形见绌。声称所比较算法之间的差异。

除了上面列出的问题以及文件重叠的可能性外,我们认为社区还存在一系列不合适的基准。考虑到这一点,作为比赛的一部分,我们为时间序列异常检测创建了新的基准。

为此竞赛创建的基准数据集旨在缓解此问题。重要的是要注意我们的主张是“缓解”,而不是“解决”。我们认为,非常有很多研究者本着CASP 的精神来解决这个问题将是很棒的。

同时,作为这一挑战的一部分的200个数据集反映了20多年研究时间序列异常检测文献并收集数据集的工作。除了这场竞赛的本身,我们希望它们可以在未来几年中为社区提供资源,并激发对异常检测评估的更深刻的思考。

赛题时间轴

  • 阶段1:2021年3月15日-2021年4月7日
  • 阶段2:2021年4月7日-2021年6月1日

赛题任务与数据

赛题任务:预测时间序列中异常发生的位置

数据

文件格式

这些文件使用命名约定,该约定在测试和训练之间提供了分隔。

_ <名称> _ <拆分号> .txt

例如004_UCR_Anomaly_2500.txt。

此处split-number = 2500表示从2500开始存在异常。

提交评估

我们在异常范围的两侧添加了+/- 100个位置,以奖励正确的答案。

提交文件的column标头应“完全”匹配预期的格式。例如,编号,位置

行数应与总计数完全匹配(第一阶段:25行,第二阶段:200行)

location的值是一个整数。

第一阶段

数据部分将提供25个时间序列文件以及示例提交文件。

这将是一个培训阶段,在进入第二阶段时将清除排行榜。

第二阶段

比赛第二阶段将提供200个时间序列文件,包括第一阶段的前25个文件。


赛题2 城市大脑挑战-交通网络调度

赛题背景

没有人喜欢被卡在城市交通中。尽管我们在城市中观察到许多车辆,但交通拥堵的原因仍不清楚。是因为车辆数量超出了城市的承载能力,还是因为我们未能以最大承载能力利用道路网络?

以世界上最大的两个城市为例。东京和纽约市的交通拥堵指数排名相似。但是,值得注意的是,东京的注册车辆比纽约市多50%,而东京的信号交叉口仅比纽约市多15%,道路长度比纽约多30%。(东京:注册车辆313万,交通信号15,000 ,道路24,650公里。纽约市注册车辆219万,交通信号13,000 ,道路18,684 km。)

为什么东京可以提供比纽约更多的车辆服务?纽约市是否以最大载客量运营交通?作为数据科学家,我们邀请您协调交通,并根据城市规模的路网及其交通需求找到最大交通容量。

比赛描述

在这一挑战中,我们将为您提供一个城市规模的道路网络,其交通需求来自真实的交通数据。您将负责协调信号交叉口的交通,同时将延迟指数保持在预定义的阈值以下。我们将增加流量需求,并查看您的协调模型是否仍然可以凑效。

为了促进您的方法开发,我们将首次发布City Brain Open Research Platform。该平台包含一个城市规模的交通模拟环境和一个具有多核计算机的云计算集群。

时间线

  • 报名 4/1/2021

参赛选手熟悉区域交通的数据以及熟悉模拟环境。

  • 参赛 5/1/2021
    参与者将进行城市规模的交通协调。可以处理更大流量需求的团队将进入最后一轮。

  • 最终提交 6/1/2021
    提供大规模的云计算平台。团队将开发方法来处理城市范围内各种未知的交通流量。

  • 比赛结束 7/1/2021


赛题3 大型图机器学习比赛: OGB-LSC

背景

由于在实际应用中普遍使用图结构化数据,因此图上的机器学习(ML)近年来引起了极大的关注。现代应用领域包括网络规模的社交网络,推荐系统,超链接的网络文档,知识图谱(KGs),以及通过不断增长的科学计算生成的分子模拟数据。这些域涉及具有数十亿个边的大规模图形或具有数百万个图形的数据集。大规模部署准确的图ML将产生巨大的实际影响,从而实现更好的推荐结果,改进的Web文档搜索,更全面的KG以及基于ML的准确药物和材料发现。

然而,社区在大规模图形ML中发展最新技术的努力非常有限。实际上,处理大规模图具有挑战性,特别是对于最先进的表达性图神经网络(GNN),因为它们会根据来自许多其他节点的信息对每个节点进行预测。要有效地大规模训练这些模型,就需要复杂的算法,而这些算法远远超出了基于iid数据的标准SGD。最近,研究人员通过显着简化GNN来提高模型可伸缩性,这不可避免地限制了它们的表达能力。

但是,在深度学习中,一遍又一遍地表明,人们需要大型的表达模型并在大数据上对其进行训练,以实现最佳性能。在图ML中,趋势是相反的-模型变得简化且表达能力较弱,因此无法缩放到大图。因此,存在着巨大的机会来移动社区以使用现实的和大规模的图形数据集,并将领域的状态向前移动到需要的地方。

OGB-LSC概述

在这里,我们提出了一个大型图ML竞赛,即OGB大型挑战赛(OGB-LSC),以鼓励开发适用于海量现代数据集的最新图ML模型。

具体来说,我们提供了三个数据集:MAG240M-LSCWikiKG90M-LSCPCQM4M-LSC,它们的规模空前大,并且分别覆盖了节点,链接和图形级别的预测。 每个数据集提供一个独立的任务,优胜者将分别为每个数据集选择。 我们将宣布每个数据集的前3名获胜团队(总共9个获胜团队),他们将有机会在KDD Cup研讨会上展示他们的解决方案。

下面提供了三个OGB-LSC数据集的说明性概述:

  • MAG240M-LSC 是一个异构的学术图,其任务是预测位于异构图中的论文的主题区域(节点分类)。
  • WikiKG90M-LSC 是一个知识图,其任务是估算缺少的三元组(链接预测)。
  • PCQM4M-LSC 是量子化学数据集,其任务是预测给定分子的重要分子特性,即HOMO-LUMO间隙(图形回归)。

对于每个数据集,我们都会仔细设计其预测任务和数据拆分,以便在任务上实现较高的预测性能将直接影响相应的应用程序。每个数据集页面中都提供了更多详细信息。

所有这些数据集都可以使用我们的 ogbPython 包下载并准备。模型评估和测试提交文件的准备工作也由我们的软件包处理。 用法在每个数据集页面中都有描述。可以 pip install -U ogb 安装。

在我们的论文(OGB-LSC: A Large-Scale Challenge for Machine Learning on Graphs)中,我们进一步对每个数据集进行了广泛的基线分析,大规模实现了简单的基线模型以及高级的表达模型。我们发现,尽管需要更多的努力来进行扩展,但先进的表达模型确实会从大数据中受益,并且明显优于易于扩展的简单基线模型。我们所有的基准代码均已公开提供,以方便公众研究。

总体而言,我们的KDD杯将鼓励社区开发和扩展表达性图ML模型,这可以在各个领域取得重大突破。我们希望在2021年KDD杯上的OGB-LSC能够成为图ML领域的“ ImageNet大规模视觉识别挑战”,鼓励社区致力于现实和大规模的图数据集,并显着提高现状-艺术。


Share