职位ID:153720

舆情识别需求

  • 合作方式:
  • 时间制 全国远程
  • 预估日薪:
  • 2000
  • 预估总价:
  • 40000元
  • 预估工时:
  • 20天
  • 所在区域:
  • 全国远程

需求描述

核心需求
对指定的新闻文章的内容进行智能判断,提取出文章描述关键字和态度。新闻文章来源爬虫爬取的各新闻网站、微信公众号的。关键字是某单位主体的名称、简称,高校居多。如北京大学、北大,清华大学、清华。
文章的态度即是文本的情感态度,分为以下三种情况:
正面:文章对单位主体的认可赞美的。
中立:文章对单位主体进行客观真实的介绍,不包含个人立场。
负面:文章对单位主体不认可,进行批评指责甚至是恶意抹黑。
判断标准要能接近人工识别的标准,至少是让人看上去是相关的。
主要问题
在关键字提取时,像这些都是正文含有北京大学,情绪偏负面的。但是主体内容和北京大学无关的内容,是不需要的。要想办法过滤掉。这样用户一眼看过去相关度就高了。也就容易接受使用了。解决舆情系统误报问题,最终让舆情系统的检测更准确。

举例来说:
正文里面含有北京大学,但是整体文章和“北京大学”无关。造成误报。根本需求就是提高相关性,降低误报。

示例样本
根据识别是否正确,分为正样本(可以正确判断的样本)和负样本(会识别错误的样本)。
正样本
以下样本能够正确识别含有北京大学、或者北大的匹配的样本。
https://dy.163.com/article/HP3596OB0553THOL.html
https://3g.163.com/dy/article/HH4N4H660536LOE0.html
https://dy.163.com/article/HNE5U0TC0552UVEN.html
https://www.cn-healthcare.com/article/20200619/content-538308.html
负样本
负样本主要有三类
第一类的可能是分词造成的。比如下面的含有“北大”,但是不是我们需要的北京大学的“北大”。
https://news.sina.com.cn/s/2022-12-19/doc-imxxeieh3862464.shtml
http://www.zhuzhouwang.com/2020/1229/394854.shtml
https://www.sznews.com/news/content/2022-12/19/content_25525650.htm

第二类,含有“北京大学”,但是这个新闻和北京大学没关系

投递职位 已有25人投递,发布人 点此登录 后查看。

信用行为

  • 发布项目
    8
  • 订单总数
    0
  • 退款单数
    0

完善简历

工程师完善技术能力和项目经验,更易接到订单

发布任务

企业点击发布任务,工程师会在任务下报名,招聘专员也会在1小时内与您联系,1小时内精准确定人才

微信客服

需求方请加聘用方端客服沟通需求,工程师请加工程师端客服浏览推送职位

聘用方端客服
工程师端客服
联系聘用方端客服