• 清华大学国情研究院
    【编者按】2019年6月18日晚,清华大学国情研究院『国情讲坛』第31讲在公共管理学院报告厅开讲。同济大学同济特聘教授,同济大学政治与国际关系学院院长、中国战略研究院院长门洪华就“贸易摩擦背景下的中美...
    发布时间: 2019 - 07 - 18
  • 《人民论坛》杂志及人民论坛网微信
    来源 | 《人民论坛》杂志及人民论坛网微信作者 | 清华大学公共管理学院教授、博导,清华大学国情研究院院长 胡鞍钢习近平总书记立足于社会主义初级阶段的总依据,明确提出实现中华民族伟...
    发布时间: 2017 - 09 - 04
  • 央视财经频道《对话》栏目
    在一项由“一带一路”沿线20国青年参与的评选中,高铁、支付宝、共享单车和网购被称作中国“新四大发明”,成为外国友人“最想带回自己国家的生活方式”。近日,央视著名《对话》栏目以中国“新四大发明”为话题,...
    发布时间: 2017 - 09 - 12
  • 简介本书收录了清华大学国情研究院2015年度重点研究报告。书内文章的作者均为清华大学国情研究院或者国内相关领域知名专家学者和研究机构;使用的数据和资料均来自公开出版物或者作者的调研成果,不涉及任何国家...
    领域:
  • ▷ 这是一部颠覆当今关于民主、共和普遍概念的扎实的学术研究著作。此书以翔实的史料和严谨的分析证明,在过去2600多年历史的绝大多数时间里,实现民主、共和理念的主要方式是抽选而不是选举。全书各章分...
    领域:
  • 【内容提要】 冷战结束以来,全球格局并未因分化重组而明朗,引起了广泛的争论。本文引入马克思“两极相联”概念,并加以拓展, 用以概括全球秩序趋向。随着中国综合国力不断提升,中国逐步成长 为全球...
    领域:
MMC-ST系列,让飞行变得更简单。
MMC-ST系列,让飞行变得更简单。
  • 中国经济发展与发展政策
    胡鞍钢,1953年生,中共十八大代表,现任清华大学国情研究院院长,清华大学公共管理学院教授、博士生导师,在国内外享有盛誉的国情研究(当代中国研究)领域的开拓者和领军人物。先后兼任国家“十一五”、“十二...
    领域:中国经济发展与发展政策
  • 国务院学位委员会化工学科评议组召集人(第三届、第四届)。北京市政府专业顾问(第四届至第六届)、中国颗粒学会、中国化工学会常务理事,中国生态经济学会副理事长,中国环境学会顾问。北京化工大学、哈尔滨工业大...
    领域:
  • 中国政治与社会,政府腐败与治理,社会主义国家政治经济转型
    清华大学国情研究院客座研究员,美国哥伦比亚大学巴纳德学院政治学教授兼任哥伦比亚大学东亚研究中心教授Xiaobo Lü, Professor of Political Science, joi...
    领域:中国政治与社会,政府腐败与治理,社会主义国家政治经济转型
  • 发布时间: 2014 - 07 - 01
    常见的解决方法是把触控屏幕搭配整合触觉反馈模块,再利用系统底层的互动设计,去改善HMI表现,或透过模拟去达到接近原有实体按键的操作体验,目前虽然整合触觉反馈的行动装置有限,碍于硬件成本可能会因此增加,但随着平板计算机、智能型手机等触控面板持续增大,虚拟键盘应用比例逐渐增加,也会令触按反馈的解决方案使用需求逐步提升。
MMC-ST系列,让飞行变得更简单。
MMC-ST系列,让飞行变得更简单。
MMC-ST系列,让飞行变得更简单。

学科跨界的无限可能:从文本挖掘到公共管理知识发现

日期: 2018-04-02
浏览次数: 67

LDA(Latent Dirichlet Allocation)是一种非监督机器学习技术,可以用来识别大规模文档集或语料库中潜藏的主题信息。把基于LDA的文本挖掘方法应用到公共管学科研究中,跨学科的思维碰撞将产生哪些可能,又存在哪些困难?3月23日中午,清华大学国情研究院特邀清华大学公共管理学院副教授张楠就此问题进行探讨。在当天的学术沙龙活动中,张楠副教授作了题为「从文本挖掘到公共管理知识发现:方法论思考与案例分析的发言。清华大学国情研究院王亚华教授、周绍杰副教授、鄢一龙副教授、刘生龙副教授、唐啸助理教授等出席活动并就主题展开交流。


学科跨界的无限可能:从文本挖掘到公共管理知识发现


清华大学公共管理学院副教授张楠作主题发言


「大数据的多样性特征

大数据除了具有超规模、大容量的特征外,还有多样性特征。张楠认为,在管理学科领域,恰恰最难处理的就是体量大的问题。比如存储对我们来说都有可能成为一个问题,还有运算能力的限制。因而,在管理学领域,包括公共管理,研究者在做大数据研究时,着眼点或突破性更多地在于处理这种数据“多样性”。即把一些我们原来不当数据或者说结构化数据以外的数据进行处理,涉及到文本、图像、视频等数据,特别是文本的处理。


「算法与知识的中间层」

从数据挖掘的视角,或者说数据驱动研究的视角来看,主要展现某种方法可以带给我们什么,是方法可用性的展现。而从管理和决策的视角来看,光有可能性是不够的,还在于是否能切中管理者的关注。张楠指出,这两者之间是有差异的,其间存有一个庞大的真空地带。基于文本挖掘算法的结果与有价值的管理知识之间存在着“中间层”。

学科跨界的无限可能:从文本挖掘到公共管理知识发现

张楠进一步分析指出,我们用统计数据做回归方法论文的时候已经有相应的套路,我们并不会去介绍回归的原理。实际上,基于管理学的应用应该有一套比较完善的方法论,比如说是不是所有的文本集都适合用这样的方法去分析?到底有没有边界?我们在做回归时是有标准的,什么样的数据可以做的,什么样的数据不可以做,什么样数据用二项回归,什么样的数据用对数回归,有很多判别的标准,这是未来需要发展的所谓方法论的"中间层"。


「LDA文本挖掘的方法」

LDA文本挖掘从分类上来说是一种主题建模的方法,本质上是把一个看上去不可描述的,可能承载了很多情感和个人特征的文本数学化。这个数字化过程可以理解为首先建立多个纬度的向量,再把它合理的范围进行降维,变成一个相对来说可以理解的数学模型,再在丰富度和可理解性、可表示性中求得一个平衡。LDA文本挖掘是一种公认的比较好用的方法。


「文本挖掘能做什么」

张楠指出,文本挖掘能做两方面的事情,第一是描述现象,第二是刻画规律。

第一,描述现象。通过语义判断能够看到一些主题相应的变化,而这个主题到底跟我们从公共管理定义的主题是否具有相关性,实际上大部分用LDA方法的人在这一点上比较依靠人为判断。看似客观数据分析的过程也存在主观臆断部分,这里面有很多值得探索的地方。目前的解决办法有:一种是基于Ontology的通用关系词表——构建语义关系的通用性规则,可以理解为把所有的语义关系进行字典化的过程,建在相对复杂的整体关系的基础上,类似于图书馆书目分类的标准;另外一种方法是把人为干涉的判断机制加进来,将代表性的文章或话题进行标签筛选。人工辅助机器学习帮其确定主题的机制,比靠研究者单独判断要准确。

第二,刻画行为、寻找规律。以网络行为为例,一个人发表文章的频率或内容实际上就是他的行为,通过种行为刻画可以知道什么样的因素可能会影响他。比如,我们想知道一个人参与一个话题的广泛程度,结合概率矩阵做一个相应的函数,在不同的概率里看他的标准差,标准差越小说明分布的越均匀,说明他是一个涉猎很广泛的人,反之则说明他有一个相应突出的关注的领域。这种应用也面临着挑战,比如能否提炼行为建模的通识知识,以辅助建模过程。


「一个案例:政府网站大数据研究」

张楠随后分享了一个基于LDA文本挖掘的应用案例。在全国几十个节点部署近百台服务器,每日监测采集分析3.5万家政府网站,对数据做集约化的处理,这是相当大的数据库,基于这个数据库做一些相应的研究。比如,各地政府网站是不是只是简单的转载,会不会与地方特色的东西相融合?各地每周微信微博讨论热点和政府网站话题有什么相关性?政府网站是否滞后,滞后到什么样的一个量级?到底政府网站是自说自话,还是跟公众关切有回应关系的?我们根据之前一年的数据绘制了一个网站某一主题的“均值线”,以超越正常范围波动的时间点计算扩散速度,从面积和密度的角度来观察扩散的质量。以“精准扶贫”这一主题为例,我们发现,在国务院出台一个相应政策以后,地方相应的政府网站呈现不同的波动情况,有的有一次波峰,有的有两次波峰。如果说这个主题分散在很多的点上我们认为其与地方政策融合得更好。


「对数据处理方法的探索」

LDA数据挖掘方法是无监督的,这里面可能存在一些问题。张楠的处理思路是“半监督学习”。比如,考虑网站不同页面之间的差异性问题,网站首页的内容与第三级第四级页面,公众获得的可能性是不同的,因而应当考虑不同页面的权重问题,这有利于更准确的把握。还有所谓的有效扩散测量,如果我们认为简单转载是无效扩散的话,可能需要剔除这种高相似度文本的计算量问题。

张楠指出,在“中间层”做一些方法论的探索是很重要的。虽然说分析方法突破了原来的数据界限,但真正将其应用于管理科学还有很长的路要走。从事公共管理研究的同仁们其实可以发挥多种多样的作用,也是值得我们去探索和实践的。


学科跨界的无限可能:从文本挖掘到公共管理知识发现


现场讨论

清华大学国情研究院部分师生参加了当天沙龙活动,并结合自身的研究实践对主题进行深入探讨。

周绍杰副教授从公共管理研究角度发表了一些看法。传统以来,我们在做定量研究时,用经济学的方法比较多,做公共分析时也更多的是以问题为导向,我们应该勇敢尝试新的方法。文本挖掘方法一方面可以印证我们的一些判断,另一方面可能挖掘展示出我们尚未注意到的深层次的逻辑,这个价值更大。此外,大数据应用应当与既有理论相结合,需要某一领域的专业知识做支撑,二者相结合才可能发挥更大的作用。

鄢一龙副教授主持沙龙活动指出,张楠老师在学术最新的前沿探索和实践着,国情研究院一直以「用数据说话」为荣。在信息时代,把工具方法论与管理、思想方法论结合起来,是个很有意义的探索,这种跨界可以说拯救了我们的“双重贫困”。

刘生龙副教授从文本挖掘的实际应用上提出了一些观点。数据已经量化了,下一步怎么办?在数据的基础上是否可以做一些经济学方面的因果识别,或者政治上的因果识别?比如将个体的思维行为和劳动力表现与一些普查数据再结合,与公共政策再结合进行更深入的分析。


学科跨界的无限可能:从文本挖掘到公共管理知识发现


学术沙龙现场

文字|国情研究院 阮萍晶


想和朋友一起浏览我们的网站 快分享到以下社区吧
发邮件给我们 希望收到大家的留言噢
看论文 > 提供海量中英文文献的学术资源平台,涵盖了各类学术期刊 会议论文,旨在为国内外学者提供最好的科研体验。
看视频 > 免费为您提供实用的大学视频教程在线观看,希望您能从中学 习到有关大学方面的知识。
看资讯 > 每日最新的国内、国际热点资讯,,不出门便知天下事
地址:北京市海淀区清华大学公共管理学院219 电话:010-62772199 邮箱:ccsoffice@tsinghua.edu.cn
Copyright ©2005 - 2013 清华大学国情研究院
犀牛云提供企业云服务