SMP2020微博情绪分类技术评测(SMP2020-EWECT)
欢迎
欢迎来到SMP2020微博情绪分类技术评测(The Evaluation of Weibo Emotion Classification Technology,SMP2020-EWECT)。
“第九届全国社会媒体处理大会(The Ninth China National Conference on Social Media Processing)”2020年9月4-6日在浙江杭州召开。全国社会媒体处理大会专注于以社会媒体处理为主题的科学研究与工程开发,为传播社会媒体处理最新的学术研究与技术成果提供广泛的交流平台,旨在构建社会媒体处理领域的产学研生态圈,成为中国乃至世界社会媒体处理的风向标,会议将以社交网络的形式改变传统的学术会议交流体验。全国社会媒体处理大会每年举办一次,现已成为社会媒体处理的重要学术活动。第九届全国社会媒体处理大会(SMP2020)由中国中文信息学会社会媒体处理专委会主办,浙江大学承办。
在本届SMP会议上,我们将举办微博情绪分类技术评测。情感分析技术一直是自然语言处理领域研究的重点内容之一。2020年,新冠肺炎疫情成为了全国人民关注的焦点,众多用户针对此次疫情在新浪微博等社交媒体平台上发表自己的看法,蕴含了非常丰富的情感信息。基于自然语言处理技术自动识别社交媒体文本中的情绪信息,可以帮助政府了解网民对各个事件的态度,及时发现人民的情绪波动,从而更有针对性地制定政策方针,具有重要的社会价值。尽管之前的社交媒体情感分析技术已经取得了不错的进展,但是如何将之前的研究成果快速高效地应用到疫情相关的数据当中,仍然是一个值得研究的问题。本次评测任务中,参赛成员不仅需要分析普通微博中的情绪,还要专门针对疫情相关微博进行情绪分析。
本届微博情绪分类技术评测由中国中文信息学会社会媒体处理专委会主办,哈尔滨工业大学承办并提供标注数据集,微热点大数据研究院提供原始数据及奖金,旨在促进社交媒体情感分析相关研究的发展,为本领域的学术研究人员和产业界从业人员提供一个良好的沟通平台。
热烈欢迎对微博情绪分类感兴趣的团队和个人积极报名参赛!
评测内容
评测任务概述
本届微博情绪分类评测任务一共包含两个测试集:第一个为通用微博数据集,其中的微博是随机收集的包含各种话题的数据;第二个为疫情微博数据集,其中的微博数据均与本次疫情相关。
任务描述如下:
微博情绪分类任务旨在识别微博中蕴含的情绪,输入是一条微博,输出是该微博所蕴含的情绪类别。在本次评测中,我们将微博按照其蕴含的情绪分为以下六个类别之一:积极、愤怒、悲伤、恐惧、惊奇和无情绪。
两个数据集的各类情绪微博举例如下表所示:
情绪 | 通用微博数据集 | 疫情微博数据集 |
---|---|---|
积极 | 哥,你猜猜看和喜欢的人一起做公益是什么感觉呢。我们的项目已经进入一个新阶段了,现在特别有成就感。加油加油。 | 愿大家平安、健康[心]#致敬疫情前线医护人员# 愿大家都健康平安 |
愤怒 | 每个月都有特别气愤的时候。,多少个瞬间想甩手不干了,杂七杂八,当我是什么。 | 整天歌颂医护人员伟大的自我牺牲精神,人家原本不用牺牲好吧!吃野味和隐瞒疫情的估计是同一波人,真的要死自己去死,别拉上无辜的人。 |
悲伤 | 回忆起老爸的点点滴滴,心痛…为什么.接受不了 | 救救武汉吧,受不了了泪奔,一群孩子穿上大人衣服学着救人 请官方不要瞒报谎报耽误病情,求求武汉zf了[泪][泪][泪][泪] |
恐惧 | 明明是一篇言情小说,看完之后为什么会恐怖的睡不着呢,越想越害怕[吃驚] | 对着这个症状,没病的都害怕[允悲][允悲] |
惊奇 | 我竟然不知道kkw是丑女无敌里的那个 | 我特别震惊就是真的很多人上了厕所是不会洗手的。。。。 |
无情绪 | 我们做不到选择缘分,却可以珍惜缘分。 | 辟谣,盐水漱口没用。 |
数据集说明
本次技术评测使用的标注数据集由哈尔滨工业大学社会计算与信息检索研究中心提供,原始数据源于新浪微博,由微热点大数据研究院提供,数据集分为两部分。
第一部分为通用微博数据集,该数据集内的微博内容是随机获取到微博内容,不针对特定的话题,覆盖的范围较广。
第二部分为疫情微博数据集,该数据集内的微博内容是在疫情期间使用相关关键字筛选获得的疫情微博,其内容与新冠疫情相关。
因此,本次评测训练集包含上述两类数据:通用微博训练数据和疫情微博训练数据,相对应的,测试集也分为通用微博测试集和疫情微博测试集。参赛成员可以同时使用两种训练数据集来训练模型。
每条微博被标注为以下六个类别之一:neutral(无情绪)、happy(积极)、angry(愤怒)、sad(悲伤)、fear(恐惧)、surprise(惊奇)。
通用微博训练数据集包括27,768条微博,验证集包含2,000条微博,测试数据集包含5,000条微博。
疫情微博训练数据集包括8,606条微博,验证集包含2,000条微博,测试数据集包含3,000条微博。
注意:实际发布的测试集中会包含混淆数据,混淆数据不作为测点,在最终结果评测时会预先去除。
训练数据集以xlsx格式发布,包含三列:数据编号,文本,情绪标签。示例如下:
数据编号 | 文本 | 情绪标签 |
---|---|---|
1 | 每个月都有特别气愤的时候。,多少个瞬间想甩手不干了,杂七杂八,当我是什么。 | angry |
测试数据集以xlsx格式发布,包含两列:数据编号,文本。示例如下:
数据编号 | 文本 |
---|---|
1 | #全国已确诊新型肺炎病例319例#中国加油!一定会过去的,相信医生,相信国家,相信医护人员!!! ?? |
数据集下载
本次评测所有的数据集已经发布:
- 下载链接:https://pan.baidu.com/s/1JeKK1dNlKFzbk_TXuOdCVw
- 分享密码:isp0
- 解压密码:smp2020ewect
评价指标
本次评测以宏平均F1值作为评测指标,最终,我们会对通用微博测试集的测试结果和疫情微博的测试结果进行平均,作为最终的测试结果,即:
\[P_e=\frac{TP_e}{TP_e+FP_e}, R_e=\frac{TP_e}{TP_e+FN_e}\\F_e=\frac{2\times P_e\times R_e}{P_e+R_e}\\Macro\_F=\frac{1}{n}\sum_{e\in Emotions}F_{e}\\Macro\_F_{final} = \frac{(Macro\_F_{通用}+Macro\_F_{疫情})}{2}\\\]其中$e\in Emotions, Emotions= { happy, angry, sad, fear, surprise, neutral }$
注册报名
有意向参加的单位机构请直接填写在线报名表,或者扫描下方二维码进入在线报名表填写。
报名存在任何问题,请联系评测会务组:smp2020ewect@163.com。
重要日期
以下所有未指定的时间点默认为北京时间(GMT+8)23:59:59(如有指定时间则按照指定时间)。
除报名时间以外,其他时间点可能会有变动,请注册参加者密切关注本网站以及邮件通知。
事件 | 时间 |
---|---|
报名 | 2020年5月16日- |
发布训练集和验证集 | |
发布评测集,参赛队伍开始提交程序及运行结果 | 2020年8月9日 00:00:00 |
参赛队伍提交最终运行结果截止时间 | 2020年8月10日 23:59:59 |
公布最终评测结果 | 2020年8月15日 |
撰写技术报告 | 2020年8月16日-2020年8月31日 |
SMP2020大会期间召开ECDT研讨会及颁奖典礼 | 2020年9月4日-2020年9月6日 |
重要通知(持续更新)
- 1、我们已于2020年06月18日 23:59(星期四)向所有报名的参赛队伍发送了报名成功通知,请参赛队伍检查自己报名时填写的联系邮箱(群发邮件可能会被垃圾邮件,如若未收到请检查垃圾邮件)。对于多次填写报名表的队伍,我们取最后一次提交的报名结果作为实际报名结果(同一个提交者、负责人、联系方式视为同一队伍)。另外,部分邮箱由于其安全设置对群发邮件进行了拦截,我们已单独发邮件进行通知。请收到邮件的队伍及时修改自己的邮箱拦截设置,使其可以接受组委会发送的群发邮件,以免错过后续的重要通知。如若已经填写报名表未收到报名成功通知邮件,请发邮件联系。
- 2、鉴于6月16日本实验室公众号哈工大SCIR发布了关于评测的新闻稿之后,很多对情绪分析有浓厚兴趣的研究人员刚刚得知评测信息,表达了参与评测的强烈意愿。因此经组委会商议后决定将报名日期延长至2020年6月18日 11:59 PM,请有意愿参赛者尽快完成报名,本次报名截止之后不再接受补报。
- 3、我们已于2020年06月19日 11:00(星期五)向所有报名队伍发送了训练集数据和验证集数据(xlsx文件请用WPS打开),同时开放评测结果提交排行网站评测排行榜网站,请参赛者前往排行榜网站进行注册。如若已报名未收到数据邮件,请发邮件联系组委会。
- 4、最终评测结果提交:验证集结果提交将于2020年8月8日 23:59:59停止提交。最终的评测集将于2020年8月9日 00:00:00发布,同时开放评测网站的评测集结果提交页面,参赛队伍有48小时的时间进行评测结果提交,提交之后不会公布提交结果的指标,如若参赛者提交了多次结果,取最后一次成功提交的结果作为最终的参评结果,2020年8月10日 23:59:59截止提交评测集结果。截止提交之后我们将核验参赛者提交的模型代码与结果文件是否吻合,并于2020年8月15日左右统一公布所有队伍的最终评测结果。
- 5、最终评测集已经发送到参赛者的邮箱内,若未收到数据,可以发邮件要求组委会重发数据。
- 6、最终排行榜已经公布,请前往http://39.97.118.137/test_rank查看最终评测结果。
- 7、技术报告撰写通知:
- 按照评测规定,获奖的队伍必须撰写技术报告,其他参赛队伍可以根据实际情况自愿选择是否撰写技术报告。
- 请各位撰写技术报告的参赛队伍于2020年8月31日 23:59:59之前将技术报告发送到smp2020ewect@163.com,技术报告命名为“队伍名-SMP2020EWECT技术报告.docx”(建议同时提交pdf版本,避免出现格式问题),邮件主题为“队伍名称-评测技术报告”,报告以邮件附件方式上传,并在正文中说明队名、队长、队员和机构信息。
- 请下载技术报告模板(链接: 技术报告模板 密码: llmb)。技术报告使用中文撰写,页数要求6-8页,报告的结构可以根据实际情况对模板进行添加和改动,但是至少应该包含模板中列出的摘要、关键词、引言、模型及方法介绍、实验结果及分析与总结这几部分。
- 8、技术报告&PPT&数据集发布:本次评测的技术报告、获奖队伍参赛PPT和全部数据集已经发布,详见数据集下载和技术报告&汇报PPT模块。
竞赛规则与提交物
-
每支参赛队伍最多不超过10名队员。
-
每支参赛队伍需指定一名队长,名称不超过15个字符。
-
每名选手只能参加一支队伍,一旦发现某位选手参加多支队伍,将取消所有相关队伍的参赛资格。
-
各参赛单位不可以使用除承办方提供的训练数据之外的带有情绪标签的标注数据(未标注数据和其他任务的标注数据可用,情感词典、停用词表等词典类资源可用),如若不确定外部数据是否可用,请发邮件与组委会联系。使用其他数据的参赛者在最终提交代码时,需要将外部数据一并提交,要求实验训练过程和结果可以复现。
-
评测时,承办方给定带有混淆数据的测试集,各参评单位运行参赛系统并提交全部测试数据结果,承办方再从提交结果中去除混淆数据后得出最终的评测结果。
-
发布训练集与验证集后,参赛队伍可在评测排行榜网站注册并提交验证集结果,结果将在排行榜上展示。
-
提交物:每支队伍需在提交最终结果截止时间之前,提交评测集的最终结果。包括两部分提交(以下两部分提交均需要完成,否则无成绩):
- (1)在评测网站的 评测-评测集结果提交 页面提交结果文件,注意:提交后并不能查看评测结果,如果提交多次,我们取最后一次成功提交的结果作为最终结果,在评测结果截止提交之后,我们会统一公布所有队伍的最终成绩。
- (2)最终需要提交可运行的代码和结果文件到邮箱smp2020ewect@ir.hit.edu.cn,同时抄送至smp2020ewect@163.com。
- 需要提交代码、结果文件和readme文件,使用其他外部数据资源的参赛者在最终提交代码时,需要将外部数据一并提交,要求实验训练过程和结果可以复现。
- 评测结果包含两个文件:virus_result.txt和usual_result.txt,与评测网站最后一次提交的结果保持一致,存放到最外层文件夹下。
- 代码需要编写readme文档,明确说明代码使用的数据、输入输出格式以及使用何种命令进行训练与测试,存放到最外层文件夹下。
- 如果提交的模型较小(1G以下),可以一并放到压缩包内;如若模型较大,可以放到网盘在readme中说明下载链接。如若模型过大(10G以上),可以不提交训练好的模型,但是务必保证按照readme中说明的训练测试方式可以训练得到模型。模型的测试结果需要与提交的结果文件一致。
- 最终以邮件附件的形式发送到上述指定邮箱,邮件主题为”队伍名称-SMP2020微博情绪分类评测提交”。最终以压缩包上传到邮件附件的形式提交,命名为”队伍名称-评测结果.zip”。最终压缩包解压后的目录结构如下所示:
- 队伍名称-评测结果 - readme.md - virus_result.txt - usual_result.txt - your_project - src - data - …………
奖励
-
一等奖(1名):每名10,000元
-
二等奖(2名):每名5,000元
-
三等奖(3名):每名3,000元
获奖队伍
- 一等奖
- Tencent
- 二等奖
- 清博大数据
- 拿第一导师请吃肯德基
- 三等奖
- BERT 4EVER
- sys1874
- 炬火
技术报告&汇报PPT
- Tencent-SMP2020-EWECT评测技术报告.pdf
- 清博大数据-SMP2020-EWECT评测技术报告.pdf
- 拿第一导师请吃肯德基-SMP2020-EWECT评测技术报告.pdf
- BERT 4EVER-SMP2020-EWECT评测技术报告.pdf
- SYS1874-SMP2020-EWECT评测技术报告.pdf
- 炬火-SMP2020-EWECT评测技术报告.pdf
- NanshanNLP-SMP2020-EWECT技术报告.pdf
技术报告也可前往百度网盘下载。链接: https://pan.baidu.com/s/1iSxAkETd2Ia2f3uvsTQLrA 密码: s83q
获奖队伍评测汇报PPT下载链接: https://pan.baidu.com/s/1kxHqM4SXtxDTKkLKpX1ibQ 密码: ast3
论文发表
本技术评测将与国际期刊Data Intelligence(http://www.data-intelligence.org/)合作,获奖的优秀模型将有机会以单独或综述的方式在该刊上发表技术论文,发表的论文将会获得期刊颁发的奖励。
评测委员会
主席:赵妍妍(哈尔滨工业大学)
副主席:刘益东(微热点大数据研究院)
评测委员会成员:袁明琛(哈尔滨工业大学)、吴方舟(微热点大数据研究院)、王帅(哈尔滨工业大学)
联系方式
如果有任何与本次评测相关的问题,请随时联系会务组。
评测会务组邮箱:smp2020ewect@163.com
致谢
主办方:中国中文信息学会社会媒体处理专业委员会(CIPS-SMP)
承办方:哈尔滨工业大学社会计算与信息检索研究中心(哈工大SCIR)
赞助方:微热点大数据研究院