数据说两会|1978年到2017年政府工作报告关键词盘点

2017-03-05 21:36 18318

3月5日,第十二届全国人民代表大会第五次会议在北京人民大会堂开幕。国务院总理李克强作政府工作报告。澎湃新闻(thepaper.cn)整理了中国政府网上1978年至2017年共计40份《政府工作报告》中的常青词汇。结果显示,“发展”、“建设”、“经济”、“改革”等词语在过去40年中一直高频出现。

澎湃新闻  吕妍 见习记者  张轩婷


3月5日,第十二届全国人民代表大会第五次会议在北京人民大会堂开幕。国务院总理李克强作政府工作报告。澎湃新闻(thepaper.cn)整理了中国政府网上1978年至2017年共计40份《政府工作报告》中的常青词汇。结果显示,“发展”、“建设”、“经济”、“改革”等词语在过去40年中一直高频出现。



还有部分词语愈发频繁地出现在《政府工作报告》中。“创新”,1997年后开始被频频提起,因其增长趋势,澎湃新闻将此类词语称为“喇叭形词语”,类似的词语还有“就业”、“创业”、“民生”等。



澎湃新闻还对比了部分关键词在这40年间的趋势变化,“农业”与“工业”相比,在近四十年里被提及状况相对稳定,这与长期以来三农问题备受重视的现象相关。2000年以来,“制造业”与“服务业”几乎同时开始被提及,但是“服务业”的被提及率几乎都高于“制造业”。


有些词虽然在《政府工作报告》里出现得少,但是他们首次出现的时间点都反映了当年中国人关注的热点问题。





分析方法:

1.本文所有原始文本材料来自中国政府网1978年至2017年政府工作报告。

2.本文使用jieba分词(https://github.com/fxsjy/jieba/),其自称”做最好的 Python 中文分词组件“。采用精确分词模式,避免重复分词和歧义。分词结果均去掉数字、单字、标点符号。

3.为增加分词正确率,在jieba分词的基础上加入自定义词典,自定义词典主要包含了往年人民网和新华网统计的两会热词。

4.在分词基础上,采用TF-IDF加权技术。词语的重要性随着它在文本中出现的次数成正比增加,但同时会随着它在语料库中出现的频率成反比下降。本文使用的语料库即1978年至2017年政府工作报告文本。

5.涉及合并的词语:反腐包括了反腐倡廉、反腐败、腐败、反腐;城镇包括了城市、城镇;雾霾包括了PM2.5、雾霾。


5
标签: 工作报告 年到 盘点 
发表评论
同步到贸金圈表情
最新评论

线上课程推荐

火热 45节精品课,全景解读供应链金融科技风控与数据风控的深度剖析

  • 精品
  • 上架时间:2020.08.29 17:33
  • 共 45 课时

火热 融资租赁42节精品课,获客、风控、资金从入门到精通

  • 精品
  • 上架时间:2020.10.11 10:35
  • 共 42 课时
相关新闻

魏建国解读政府工作报告:全面取消制造业领域外资准入限制,释放了什么信号

2024-03-06 16:01
653606

政府工作报告明确今年经济社会发展工作重点

2023-03-11 19:29
73783

苏州市中级人民法院发布《苏州市中级人民法院金融审判工作报告(2021)》

2022-06-10 15:09
15721

2022年《政府工作报告》发布

2022-03-11 13:31
41744

政府工作报告关键词:强化金融控股公司和金融科技监管

2021-03-15 17:59
11614

2020年政府工作报告,未设GDP增长目标,如何解读?

2020-05-25 15:47
600
7日热点新闻
热点栏目
贸金说图
专家投稿
贸金招聘
贸金微博
贸金书店

福费廷二级市场

贸金投融 (投融资信息平台)

活动

研习社

消息

我的

贸金书城

贸金公众号

贸金APP