互联网舆情企业风险事件的识别

  |  

摘要: 互联网舆情风险识别竞赛

【对数据分析、人工智能、金融科技、风控服务感兴趣的同学,欢迎关注我哈,阅读更多原创文章】
我的网站:潮汐朝夕的生活实验室
我的公众号:潮汐朝夕
我的知乎:潮汐朝夕
我的github:FennelDumplings
我的leetcode:FennelDumplings


比赛连接

比赛背景

近些年来,资本市场违约事件频发,财务造假、董事长被抓、股权质押爆仓、城投非标违约等负面事件屡屡出现。而在大数据和人工智能技术加持下,各种新兴的金融风险控制手段也正在高速发展,其中通过采集互联网上的企业舆情信息来挖掘潜在风险事件是一种较为有效的方式。但这些风险信息散落在互联网上的海量资讯中,若能从中及时识别出涉及企业的风险事件,并挖掘出潜在的风险特征,将使得银行、证券等金融机构在风险监控领域中更及时、全面和直观地掌握客户风险情况,大幅提升识别和揭示风险的能力。而风险事件以文本的形式存在,需要采用人工智能方法进行自然语言理解,实现风险事件的高精度智能识别。

赛题任务

从给定的互联网信息中提取、识别出企业主体名称,以及标记风险标签。选手预测标签对应格式为(新闻ID,主体全称,对应风险标签)。

注:

1)每篇互联网信息可能会涉及零到多个主体(公司),每篇互联网信息中对每个主体只预测一个风险标签;

2)赛事会提供一份主体(公司)的全称清单(其范围大于待预测名单),新闻中提及的主体可能为其简称或别名或主体相关的自然人(如其董事长、总经理等),选手提交答案时需要统一识别并将他们映射至主体全称输出在最终的结果文件中。主体全称的映射关系需选手自行处理。

3)请注意在训练集中存在一类「无」标签,其指的是对应的新闻内容中不包含需识别的金融风险事件。对于测试集中此类情况,选手模型在输出时只需准确打上「无」的标签,对应主体标记为「/」即可。即输出的为:”新闻 ID,/ ,无”。

4)测试集(需选手利用模型进行预测)的数据中会包含一些噪音数据,比如在主体(公司)的全称清单之外的舆情等,选手同样需要对其预测,不计入自动评分。

赛题数据

训练集

赛题面向报名的选手提供互联网新闻标题数据作为训练集,数据在「参赛提交」标签下「下载」栏目中获取:

  1. 数据规模和内容覆盖

以 CSV 格式提供已标签数据约1万余条,内容包含新闻标题、正文、及对应标签等

  1. 元数据:
1
2
3
4
5
6
7
8
9
10
11
12
13
14
列名	数据类型	能否为空	 	备注
NEWS_BASICINFO_SID NUMBER(22) NOT NULL 新闻ID
NEWS_TITLE VARCHAR2(3000) 新闻标题
ABSTRACT VARCHAR2(4000) 摘要
CONTENT CLOB 正文
AUTHOR VARCHAR2(1000) 作者
SRC_URL VARCHAR2(1000) 下载源地址
SOURCE_TYPE VARCHAR2(100) 文章类型 01-新闻;02-论坛;03-博客;04-微博;05-平媒;06-微信;07-视频;08-长微博;09-APP;10-评论;99-其他
PUBLISH_SITE VARCHAR2(100) 来源
FIRST_WEB VARCHAR2(100) 首发网站名称
CHANNEL VARCHAR2(100) 网站频道
NOTICE_DT DATE 发布时间
COMPANY_NM VARCHAR2(300) 企业名称
LABEL VARCHAR2(60) 业务标签 主板/创业板/中小板/债券退市 债务逾期 实控人变更 破产重整 股票质押率过高 被政府职能部门处罚 被监管机构罚款或查处 被采取监管措施 重大诉讼仲裁 信息披露违规 等具体参见训练数据

赛题解读


Share