林业科技情报我国省级科技管理部门官网文本数据的主题建模

情报工作的目的之一是为领导等决策者提供决策支持，帮助决策者洞悉全貌，定位战略信息。科技部门作为科技情报链条的关键环节，连接着政府、企业和民众，也是科技政策和科技产业的重要节点，发挥着不可或缺的作用。随着科技领域的不断发展，对科技部门的分析研究逐渐成为科技情报研究的重要切入点之一。然而科技部门与其他机构相比呈现出不同的特征，科技领域的信息呈现出内容量大、信息密度高、变化迅速等特征，且随着科技的不断发展，科技部门所发布的政策等信息层出不穷且更新迅速，使用传统的情报分析方法难以迅速、准确、动态地对科技部门进行分析。此外，科技部门的服务对象非常宽泛，从科技部门本身的组织架构定位来说，科技部门作为上级部门政策法规或规范性文件的下达者和交流者，承担着上传下达的重要工作；从科技部门的服务功能来说，科技部门负责与企业与个人进行科技领域的交流和服务呈现出显著的主体多元性和复杂性。这些特征成为了针对科技部门进行情报分析工作时的难点。当下科技部门的信息公开内容广泛，涉及科技部门概况、科技政策与法律法规、科技预算决算和相关专题报道等，呈现出主题多元化的特征。通过研究科技部门的公开数据，不仅仅能够从表面分析科技部门的特征与状况，也能透过现象看本质，从公开数据推测未来的科技管理业务模式和科技领域的发展方向。为了更深入地了解科技部门的情况，知悉科技部门向社会提供的信息资源与服务，刻画不同科技部门的特征，探测科技部门的潜在情报需求，需要对科技部门进行用户画像，以全方位刻画科技部门的状况。主题建模作为用户画像的重要组成部分，能够以若干关键词对科技部门进行总体概括，帮助分析者快速获取用户画像常用的标签词。本文在科技情报领域多源数据的基础上尝试使用LDA2vec进行主题建模，进而寻找省级科技部门的主题特征，为用户画像提供参考。 1 研究现状 1.1 中文文本主题建模研究在中文的文本主题建模领域目前国内已经有许多学者对主题建模进行研究，围绕着主题建模形成了一系列的研究成果，主要分为主题建模算法和主题建模应用两个方面的研究。主题建模算法方面，李文波等针对传统LDA模型的问题，设计出有监督数据的情况下改进模型Labeled-LDA，克服了原始模型中隐含主题的强制分配的缺陷[1]。张超基于LDA模型，结合词性特征对现有模型进行改进，使新模型较为充分地利用文本的语义信息[2]。郭蓝天等将LDA和CBOW语言模型进行结合，将其应用到社交网络上的话题发现，提升了模型的响应度和精度[3]。主题建模应用方面，W.S.Lee等使用LDA对IPC标准下的多元专利进行分析，发现技术融合的新兴领域[4]。勒孚刚使用LDA模型对专利文本进行分析，在对专利文本进行分类的基础上开展演化研究[5]。张群等使用复旦大学中文文本分类语料库作为数据集，通过LDA等方法进行短文本分类，取得较好的效果[6]。裴超等基于改进的LDA算法应对微博短文本的语义稀疏问题，并将其用于K-means的聚类算法，改善微博用户的聚类效果[7]。 1.2 政策文本计算研究论文、专利、科技报告、政策文本等是科技情报研究的重要信息来源与研究对象，对这些数据进行采集、分析与挖掘是情报领域的重要研究内容。随着自然语言处理的技术不断成熟与深度学习技术的飞速发展，利用技术对这些文本内容进行深入的计算处理与分析挖掘成为当前研究的新方法与前沿热点。文本计算作为大数据环境下文本分析和计算科学的学科交叉领域，有着精细化政策文本分析的特点。基于政策文本的特殊性和价值性，诸多学者围绕着政策文本开展了一系列研究。张涛等使用关键词抽取和主题分析法对互联网租赁自行车相关的政策文件进行计算分析，证实相关政策的有效性[8]。杨慧等选取国际气候领域的政策文本进行研究，将量化计算和实证研究相结合，对比分析中国和美国、欧盟的气候政策情况[9]。刘晓彤对近10年国务院、科技部、商务部等国家级机构发布的创业政策文本进行多角度分析，结合图谱分析和内容分析对国家创业政策进行解读[10]。然而，相较于专利等领域，使用文本计算方法对政策领域进行分析的研究相对较少，且多数集中在文本计算与实证分析进行结合和对比研究。 1.3 研究述评综上所述，目前主题建模是中文文本数据分析的重要方法，围绕着主题建模也形成了一系列有影响的研究成果。但从科技情报领域的角度而言，还存在一些有待深入研究的问题，具体表现在： 1)对科技情报领域的分析不够充分。目前科技情报领域对期刊文献、学位论文和专利数据等多种领域的文本进行分析，但主要针对作者、关键词等进行计量分析，虽然也有一些主题建模方法的应用，但多数是针对文摘等短文本。针对长文本的主题建模研究相对较少。 2)在其他文本分析领域也开始频繁使用主题建模及相关研究方法，但针对科技情报领域的分析相对较少，且缺乏对相应研究的总结和方法研究。 3)对科技情报领域文本的多源性探究有限。针对论文、专利等常见单一来源、单一结构数据的研究比较多，但对政策法规、政策解读、规范性文件和规范计划等不同类型的文本数据进行广泛性采集整理和分析挖掘的研究还不充分，这方面的研究将有助于更加全面地掌握和分析科技管理部门的政策主题。 2 研究思路与方法 2.1 总体研究思路科技厅局的官方网站上分布着政策法规、科技规划、发展计划等多种多样的信息，对这些信息进行文本预处理、词性标注、主题建模等分析，分析出各省市在科技管理与服务方面的主题分布，进而探测科技管理与服务的情报需求，研究的总体思路如图1所示。图1 本文研究思路示意图为了有效对比不同省市自治区科技情报主题差异，需要对不同省市自治区的科技管理部门官网文本进行分析。第一步，从不同省、自治区和直辖市的科技厅官网上使用爬虫采集数据，根据不同地区的信息公开差异，爬取信息公开差异度较低的政策法规、政策解读、规划计划和规范性文件四类文本数据，抽取标题、时间、内容等需要的信息，并转换为json格式存储到科技情报文本数据库中。第二步，由于数据库中数据庞杂，信息密度低，不符合主题建模的需求，因此需要进行特征提取。特征提取工作包括分词、去停用词和词性标注，目的均为过滤掉信息密度较低的文本，保留主题词概率高的文本。第三步，基于过滤后的文本集合使用LDA2vec模型进行建模，并调整参数优化模型解释效果。最后，在综合LDA2vec所获得的主题词的基础上，通过领域词典的辅助横向比较不同省份的主题建模结果，分析省份的差异对主题词的影响，并生成主题词典为后续的用户画像提供参考。 2.2 文本分词经过爬虫程序获取的信息主要为文本类型数据，少数为图片格式或文件形式(如PDF,Word,Excel)。由于非文本类型数据占比较低，本文仅选取文本类型数据进行分析。主题建模要求数据有尽可能大的信息密度，因此在进行主题建模前需要进行特征提取工作。本研究中特征提取主要由文本分词和词性标注过滤两部分组成。其中，文本分词的主要流程如图2所示。图2 文本分词流程示意图先前获取的数据以json格式文件保存，其中每条数据以“标题”(title)、“发布来源”(source)、“发布时间”(release time)和“内容”(content)的形式保存。本文仅选取其中的“标题”和“内容”字段进行后续的处理和分析工作。由于爬虫程序仅对所获取的数据进行去重处理，而无关字符等干扰数据仍存在，需要针对文本数据进行进一步的清洗和准备，包括初步合并和分词。本文使用Python中的Jieba包对合并后的文本数据进行分词，为尽量减少分词过程中的信息损失，使用Jieba的全模式进行分词。此外，在分词的过程中还需加载用户词典并过滤掉无意义的停用词。根据常用的“哈工大停用词词库”等开放停用词表，加上从样本中提取出的停用词，共获得包含1894个词的停用词表。此外，在分词的过程中，针对领域特点添加了本研究自行构建的12116个科技政策领域关键词词表作为领域词典，在减少信息损失的同时提升分词的准确率。 2.3 词性标注文本数据含义丰富，且无关数据较多。不同词性的含义不同。词性共分为两类：第一类是实词，包含名词、动词、形容词、代词、数词、量词等；第二类为虚词，包含副词、介词、连词、助词、感叹词、拟声词等。其中，实词的意义较为实在，而虚词一般无法单独成句。除此之外，利用词性的标注信息便可对多义词进行进一步区分。王惠在研究汉语言词义消歧时发现，仅利用词性标注就可以消除超过1/5的汉语言歧义[11]。一般认为，实词的平均语义量大于虚词。因此，文本数据的主题词一般以实词为主。本文根据以往的研究结论，选取实词中的名词、形容词和动词三种词性进行后续的主题建模。基于停用词表的过滤规则可以过滤掉大部分无意义或信息密度低的词，然而依然会有部分不适合作为主题词的词语出现。为了进一步过滤掉这些词语，本文将经过分词和去停用词的词语集合进行词性标注，并挑选出其中信息密度较高的词语(如名词词性和形容词词性)。选择使用隐马尔科夫模型(Hidden Markov Model，HMM)作为词性标注的实现方法，其主要流程如图3所示。研究过程中筛选出名词(n.)、动词(v.)和形容词(a.)作为LDA建模的准备词组。经过上述过滤流程后，从网页中获取的信息被统一为信息密度较高的词语集合。图3 基于HMM的词性标注和过滤流程示意图 2.4 基于词向量的LDA2vec主题建模隐含狄利克雷分布(Latent Dirichlet Allocation，LDA)，其思想来源于隐含语义分析(Latent Semantic Analysis，LSA)。LSA出现后，Hofmann在其基础上提出了概率隐性语义分析(probabilistic Latent Semantic Analysis，pLSA)[12]，而LDA便是Blei等在pLSA的基础上进行扩展而来[13]。LDA以无监督学习的方法从文本中发现隐含的语义维度，即通常所说的“主题”(Topic)。如图4所示，LDA模型引入了两个狄利克雷先验分布，其中，基于超参数为α的狄利克雷先验分布作为文档—主题层的多项分布的先验分布，而超参数为β的狄利克雷先验分布则作为主题—单词层的多项分布的先验分布。两层狄利克雷分布有效地解决了pLSA模型的过拟合问题。作为统计语言模型中的典型代表，LDA主题建模近些年在情报分析、信息抽取、知识服务、知识发现等领域得到了广泛应用。图4 LDA模型词向量(Word Embedding)最早由Hinton等提出，用来解决自然语言在计算机中建模、存储与计算中遇到的困难。但使用传统的极大似然法计算词向量时，往往会出现性能问题。因此，Google于2013年提出使用神经网络代替传统方法计算词向量[14]，该模型后来被称为Word2vec模型，其核心功能是将词映射为对应的词向量。在主题建模中，传统的LDA模型是从文档中单词的共现推断文档—主题和主题—单词的分布情况。D.Q.Nguyen等将词向量化应用到LDA主题建模中，通过修改Word2vec中的CBOW和Skip-Gram模型，使其满足LDA模型的传入数据要求，结果发现基于词向量化所提供的上下文语义信息，LDA模型能获得更好的效果[15]。本文使用Word2vec对切词后的词语进行词向量化，并在词向量化的基础上使用gensim包中的LDA2vec模型进行主题建模。 3 实验及结果分析 3.1 数据爬取本文研究对象为全国除港澳台外的31个省、自治区和直辖市的科技厅或同等机构。根据《中华人民共和国政府信息公开条例》中规定的信息公开目录，选取研究对象所有公开信息中的政策法规、政策解读、规划计划和规范性文件部分作为研究样本，尽量降低不同省份之间的信息公开程度差异对研究结果的影响。本文编写了爬虫程序，从所研究的省、自治区和直辖市的科技厅或同等机构对互联网开放的数据进行爬取，并存储为json文件格式。经过数据爬取并剔除重复的数据后，共获得数据样本11642条，其中不同省级管理部门的数据样本数见表1。表1 全国省级科技管理部门官网样本量省份(研究对象名称)样本量省份(研究对象名称)样本量北京市546陕西省243天津市356湖北省513上海市580湖南省190重庆市187广东省334河北省284海南省69山西省411四川省1089辽宁省71贵州省296吉林省190云南省127黑龙江省389山西省320江苏省499甘肃省237浙江省386青海省116安徽省480内蒙古自治区339福建省1725广西壮族自治区149江西省74西藏自治区46山东省369宁夏回族自治区628河南省361新疆维吾尔自治区38 其中，每条样本数据包含标题、发布来源、发布时间和具体内容。由于不同省市自治区的信息公开程度和积极性相异，使用爬虫程序所收集到的样本量也有较大差异。 3.2 主题建模结果分析通过对爬取的数据进行特征提取，并使用gensim包中的LDA模型进行迭代训练，最终获得各省级管理部门的主题词。参考M.R?der等的相关研究[16]，基于单词的连贯性度量设计出主题模型的新型量化指标主题相干性(Topic Coherence)对建模结果进行评估，评估结果如图5所示。图5 词表和主题数对主题相干性的影响由主题相干性的结果可知，领域词表对模型有一定的提升作用。根据不同主题数的主题相干性计算结果，主题数定为3，每个主题取前10个最相关的关键词，并使用Gibbs采样迭代50次后保存结果。以下仅选取部分省市自治区的部分主题建模结果见表2。表2 部分省市自治区部分主题建模结果省份主题类主题词宁夏Topic 1知识产权工程技术电力工业Topic 2人才创业服务平台科技园Topic 3科技厅实地考察巡视员实施细则云南Topic 1科技厅专家研究所知识产权Topic 2中小企业科技成果关键技术股份有限公司Topic 3产业种植业生态农科西藏Topic 1公司科技网财政协调Topic 2领导战略知识产权大学Topic 3生物技术人工智能细胞特色福建Topic 1科学技术科技厅申报单技术厅Topic 2科技创新示范中小企业成果转化Topic 3创业资助制度人才由表2可以看出，科技情报领域的讨论热点问题中有诸多相似之处。其中，宁夏科技厅的关键主题有“电力企业”“电子商务”“孵化”，表明宁夏有意识发展电子产业和基于互联网的第三产业；“知识产权”“工程技术”“工业”等关键词可以看出，工业和专利转换仍是宁夏的重点发展方向之一。而云南省中“技术”“科研院所”“种植业”等关键词可以反映出云南省对传统农业及新型农业的重视，也有针对性地加强从科研院所到实地种植的转化过程；“企业”“科技成果”“关键技术”“股份有限公司”等关键词可以看出云南省通过“技术+资金”成立股份有限公司实现对科技成果的保护和转化。西藏自治区的主题词中，“人才”“知识”“能源”等关键词反映出能源领域可能是西藏未来的发展重心之一，对能源领域的人才和技术需求旺盛；“生物技术”“人工智能”“细胞”“特色”等关键词意味着西藏自治区将生物技术和人工智能技术作为今后一段时间的特色产业和专攻领域；福建省的主题词集合中，“科技创新”“企业”“成果转化”等关于科学技术词语和“创业”“资助”“人才”等关于创新创业的比重较大，说明福建省可能有意依托地理优势发展科技创新，并将科技成果转化为相关产业。 3.3 建模结果整合与解读基于对不同省份进行主题建模所获得的主题词，辅以领域词表，对主题相近的主题词进行组合，形成较长的主题短语以进行进一步的横向分析，获得全国除港澳台外各个省市自治区科技情报领域的部分主题短语如图6所示。地图来源：中华人民共和国国家测绘地理信息局标准地图服务(http://bzdt.ch.mnr.gov.cn/index.html)图6 全国各省自治区和直辖市科技情报主题短语(部分) 由各省市自治区科技情报领域关键词和主题短语，分析得出以下研究结论： 1)各个省份的科技情报领域的主题总体上呈现趋同的趋势。从建模结果来看，大部分省、自治区和直辖市科技厅的主题中均包含诸如“大众创业”“万众创新”“企业孵化器”等关键词，体现出各地积极响应落实国务院提出关于加快构建大众创业、万众创新支撑平台的指导意见。各个省市自治区在转发和学习国务院指导意见的同时，也针对本地区实际情况构建一系列本地化的方案、办法和举措。例如广东省科技厅在转发科技部《关于科技企业孵化器、大学科技园和众创空间税收政策的通知》之后，出台一系列相关规定开展落实工作，如《关于进一步提升我省科技企业孵化器质量水平的工作方案》《广东省科学技术厅广东省财政厅关于科技企业孵化器、众创空间后补助试行办法(修订)》等规范性文件。可以看出，国家政策法规对各个省市自治区的科技情报主题有引领和指向作用，在国家政策法规中出现的科技关键词有较大可能成为省市自治区的科技关键词。除转发学习国务院指导意见之外，各个省市自治区也普遍出现诸如“人才培育”“技术人才”“科技人才”“科技成果转化”“知识产权”“专利技术”等关键词。纵观全国的省市自治区的主题词可以看出，“知识产权保护”“科技人才培养”“科技成果转化”等是科技情报领域共同的热点话题。在探究科技领域共同热点话题的同时，也可以根据对上述热点话题的进一步挖掘，展现不同省份对于热点话题的不同关注程度，进而对不同省份的政策倾斜方向有所探知。例如上海市在科技人才方面偏重“人才引进”，印发了诸如《关于服务具有全球影响力的科技创新中心建设、实施更加开放的海外人才引进政策的实施办法(试行)》《关于服务具有全球影响力的科技创新中心建设实施更加开放的国内人才引进政策的实施办法》等政策文件，说明上海市可能依靠地理位置和发展前景等优势在培育人才的同时注重从国内其他地方和海外引进人才，而一些内陆省份则以加强人才管理、制定人才优惠政策为重点。 2)各个地区仍有特色区域科研领域。虽然各个省市自治区的主题大体一致，但从建模结果中仍可看出，不同省份仍有一些独特的侧重和特色领域。例如西藏自治区的科技情报文本中关于“能源”“生物技术”等主题短语反映出西藏自治区计划充分发挥其独特的地理优势，将能源领域研究和生物技术研究列为其科技发展的重点领域；而北京市“文化创意”主题则反映出北京市将厚重的文化积淀应用到科技服务和科技工作中，谋求“科技”+“文化”的融合发展。由各省市自治区的主题短语来看，大部分省市自治区在制定科技发展战略和政策的时候将自身优势考虑在内，以最大化科技创新和科技服务的效果。除不同省市自治区在科技情报主题方面侧重有所不同之外，同区域相近省份往往表现出相似的科技情报主题，呈现出“区域特色”。例如东北三省作为重工业基础雄厚的相似地区，在科技政策制定方面均表现出“稳定发展传统行业，积极探索创新创业”的趋势，其主题词往往反映出该省份传统的优势项目，但其对于新兴产业的敏感度往往低于南方沿海地区；与之相对的是东南沿海地区追随新兴技术，并在发展大学和研究所教育的同时注重产学研结合，发展诸如“大学科技园”“科技合作基地”等融合项目；而中部地区则普遍利用农业大省的优势，将科研重心定位到农业，并在农业的基础上结合其地域优势大力发展生态文明和可持续农业，并鼓励进行农业科技创新和转化工作。此外，在北京市、上海市、广东省等一些开放程度较高的省市自治区中，与“开放”“合作”“引进”等对外交流的主题词较多。 4 总结与展望本文对全国各个省、市、自治区分别进行内容爬取、清洗、处理和主题建模等步骤获取主题词和主题短语，并从横向的角度对建模结果进行了解读。从建模的结果来看，不同省份的科技情报领域研究热点主题相近，且往往与国家科技政策紧密相关。除此之外，不同省、市、自治区之间也有不同的侧重和特色科技领域，这些领域往往与省份的客观地理条件和产业基础相结合，并在其之上发展出新的创新领域。可以说，不同省份的科技情报领域主题呈现出大同小异的特征，既有相近主题的讨论热点话题，也有因地制宜特色主题。从全国范围看，相邻省份的科技情报主题往往呈现出相近的趋势，即“区域特色”现象。本研究的不足之处在于仅将各部分数据进行整合与重组，而没有针对各个数据源进行深入的研究比较，未来还将细化不同的数据来源，研究政策文本、规范性文件、工作动态和新闻内部的数据特征和数据价值，从更细的数据颗粒度对科技情报领域进行探究。□ [1] 李文波,孙乐,张大鲲.基于Labeled-LDA模型的文本分类新算法[J].计算机学报,2008(4):80-87. [2] 张超.一种词性标注LDA模型的文本分类方法研究[D].武汉：华中师范大学,2015. [3] 郭蓝天,李扬,慕德俊,等.一种基于LDA主题模型的话题发现方法[J].西北工业大学学报,2016,34(4):698-702. [4] LEE W S,HAN E J,SOHN S Y.Predicting the pattern of technology convergence using big-data technology on large-scale triadic patents[J].Technical Forecasting and Social Change,2015,100:317-329. [5] 勒孚刚.基于LDA模型的专利文本分类及演化研究[D].赣州：江西理工大学,2017. [6] 张群,王红军,王伦文.词向量与LDA相融合的短文本分类方法[J].现代图书情报技术,2016(12):31-39. [7] 裴超,肖诗斌,江敏.基于改进的LDA主题模型的微博用户聚类研究[J].情报理论与实践,2016,39(3):135-139. [8] 张涛,蔡庆平,马海群.一种基于政策文本计算的政策内容分析方法实证研究——以互联网租赁自行车为例[J].信息资源管理学报,2019,9(1):68-78. [9] 杨慧,杨建林.融合LDA模型的政策文本量化分析——基于国际气候领域的实证[J].现代情报,2016,36(5):71-81. [10] 刘晓彤.基于文本挖掘的国家创业政策主题演变与协调性分析[D].太原：山西财经大学,2018. [11] 王惠.机器翻译中基于语法,语义知识库的汉语词义消歧策略[J].广西师范大学学报(自然科学版),2003(1):86-93. [12] HOFMANN T.Probabilistic latent semantic analysis[C]//Proceedings of the Fifteenth Conference on Uncertainty in Artificial Intelligence.Morgan Kaufmann Publishers Inc.,1999:289-296. [13] BLEI D M,NG A Y,JORDAN M I.Latent Dirichlet allocation[J].Journal of Machine Learning Research,2003,3(Jan):993-1022. [14] MIKOLOV T,LE Q V,SUTSKEVER I.Exploiting similarities among languages for machine translation[J].ArXiv Preprint arXiv:1309.4168,2013. [15] NGUYEN D Q,BILLINGSLEY R,DU L,et al.Improving topic models with latent feature word representations[J].Transactions of the Association for Computational Linguistics,2015,3:299-313. [16] R?DER M,BOTH A,HINNEBURG A.Exploring the space of topic coherence measures[C]//Proceedings of the Eighth ACM International Conference on Web Search And Data Mining,2015:399-408. 情报工作的目的之一是为领导等决策者提供决策支持，帮助决策者洞悉全貌，定位战略信息。科技部门作为科技情报链条的关键环节，连接着政府、企业和民众，也是科技政策和科技产业的重要节点，发挥着不可或缺的作用。随着科技领域的不断发展，对科技部门的分析研究逐渐成为科技情报研究的重要切入点之一。然而科技部门与其他机构相比呈现出不同的特征，科技领域的信息呈现出内容量大、信息密度高、变化迅速等特征，且随着科技的不断发展，科技部门所发布的政策等信息层出不穷且更新迅速，使用传统的情报分析方法难以迅速、准确、动态地对科技部门进行分析。此外，科技部门的服务对象非常宽泛，从科技部门本身的组织架构定位来说，科技部门作为上级部门政策法规或规范性文件的下达者和交流者，承担着上传下达的重要工作；从科技部门的服务功能来说，科技部门负责与企业与个人进行科技领域的交流和服务呈现出显著的主体多元性和复杂性。这些特征成为了针对科技部门进行情报分析工作时的难点。当下科技部门的信息公开内容广泛，涉及科技部门概况、科技政策与法律法规、科技预算决算和相关专题报道等，呈现出主题多元化的特征。通过研究科技部门的公开数据，不仅仅能够从表面分析科技部门的特征与状况，也能透过现象看本质，从公开数据推测未来的科技管理业务模式和科技领域的发展方向。为了更深入地了解科技部门的情况，知悉科技部门向社会提供的信息资源与服务，刻画不同科技部门的特征，探测科技部门的潜在情报需求，需要对科技部门进行用户画像，以全方位刻画科技部门的状况。主题建模作为用户画像的重要组成部分，能够以若干关键词对科技部门进行总体概括，帮助分析者快速获取用户画像常用的标签词。本文在科技情报领域多源数据的基础上尝试使用LDA2vec进行主题建模，进而寻找省级科技部门的主题特征，为用户画像提供参考。1 研究现状1.1 中文文本主题建模研究在中文的文本主题建模领域目前国内已经有许多学者对主题建模进行研究，围绕着主题建模形成了一系列的研究成果，主要分为主题建模算法和主题建模应用两个方面的研究。主题建模算法方面，李文波等针对传统LDA模型的问题，设计出有监督数据的情况下改进模型Labeled-LDA，克服了原始模型中隐含主题的强制分配的缺陷[1]。张超基于LDA模型，结合词性特征对现有模型进行改进，使新模型较为充分地利用文本的语义信息[2]。郭蓝天等将LDA和CBOW语言模型进行结合，将其应用到社交网络上的话题发现，提升了模型的响应度和精度[3]。主题建模应用方面，W.S.Lee等使用LDA对IPC标准下的多元专利进行分析，发现技术融合的新兴领域[4]。勒孚刚使用LDA模型对专利文本进行分析，在对专利文本进行分类的基础上开展演化研究[5]。张群等使用复旦大学中文文本分类语料库作为数据集，通过LDA等方法进行短文本分类，取得较好的效果[6]。裴超等基于改进的LDA算法应对微博短文本的语义稀疏问题，并将其用于K-means的聚类算法，改善微博用户的聚类效果[7]。1.2 政策文本计算研究论文、专利、科技报告、政策文本等是科技情报研究的重要信息来源与研究对象，对这些数据进行采集、分析与挖掘是情报领域的重要研究内容。随着自然语言处理的技术不断成熟与深度学习技术的飞速发展，利用技术对这些文本内容进行深入的计算处理与分析挖掘成为当前研究的新方法与前沿热点。文本计算作为大数据环境下文本分析和计算科学的学科交叉领域，有着精细化政策文本分析的特点。基于政策文本的特殊性和价值性，诸多学者围绕着政策文本开展了一系列研究。张涛等使用关键词抽取和主题分析法对互联网租赁自行车相关的政策文件进行计算分析，证实相关政策的有效性[8]。杨慧等选取国际气候领域的政策文本进行研究，将量化计算和实证研究相结合，对比分析中国和美国、欧盟的气候政策情况[9]。刘晓彤对近10年国务院、科技部、商务部等国家级机构发布的创业政策文本进行多角度分析，结合图谱分析和内容分析对国家创业政策进行解读[10]。然而，相较于专利等领域，使用文本计算方法对政策领域进行分析的研究相对较少，且多数集中在文本计算与实证分析进行结合和对比研究。1.3 研究述评综上所述，目前主题建模是中文文本数据分析的重要方法，围绕着主题建模也形成了一系列有影响的研究成果。但从科技情报领域的角度而言，还存在一些有待深入研究的问题，具体表现在：1)对科技情报领域的分析不够充分。目前科技情报领域对期刊文献、学位论文和专利数据等多种领域的文本进行分析，但主要针对作者、关键词等进行计量分析，虽然也有一些主题建模方法的应用，但多数是针对文摘等短文本。针对长文本的主题建模研究相对较少。2)在其他文本分析领域也开始频繁使用主题建模及相关研究方法，但针对科技情报领域的分析相对较少，且缺乏对相应研究的总结和方法研究。3)对科技情报领域文本的多源性探究有限。针对论文、专利等常见单一来源、单一结构数据的研究比较多，但对政策法规、政策解读、规范性文件和规范计划等不同类型的文本数据进行广泛性采集整理和分析挖掘的研究还不充分，这方面的研究将有助于更加全面地掌握和分析科技管理部门的政策主题。2 研究思路与方法2.1 总体研究思路科技厅局的官方网站上分布着政策法规、科技规划、发展计划等多种多样的信息，对这些信息进行文本预处理、词性标注、主题建模等分析，分析出各省市在科技管理与服务方面的主题分布，进而探测科技管理与服务的情报需求，研究的总体思路如图1所示。图1 本文研究思路示意图为了有效对比不同省市自治区科技情报主题差异，需要对不同省市自治区的科技管理部门官网文本进行分析。第一步，从不同省、自治区和直辖市的科技厅官网上使用爬虫采集数据，根据不同地区的信息公开差异，爬取信息公开差异度较低的政策法规、政策解读、规划计划和规范性文件四类文本数据，抽取标题、时间、内容等需要的信息，并转换为json格式存储到科技情报文本数据库中。第二步，由于数据库中数据庞杂，信息密度低，不符合主题建模的需求，因此需要进行特征提取。特征提取工作包括分词、去停用词和词性标注，目的均为过滤掉信息密度较低的文本，保留主题词概率高的文本。第三步，基于过滤后的文本集合使用LDA2vec模型进行建模，并调整参数优化模型解释效果。最后，在综合LDA2vec所获得的主题词的基础上，通过领域词典的辅助横向比较不同省份的主题建模结果，分析省份的差异对主题词的影响，并生成主题词典为后续的用户画像提供参考。2.2 文本分词经过爬虫程序获取的信息主要为文本类型数据，少数为图片格式或文件形式(如PDF,Word,Excel)。由于非文本类型数据占比较低，本文仅选取文本类型数据进行分析。主题建模要求数据有尽可能大的信息密度，因此在进行主题建模前需要进行特征提取工作。本研究中特征提取主要由文本分词和词性标注过滤两部分组成。其中，文本分词的主要流程如图2所示。图2 文本分词流程示意图先前获取的数据以json格式文件保存，其中每条数据以“标题”(title)、“发布来源”(source)、“发布时间”(release time)和“内容”(content)的形式保存。本文仅选取其中的“标题”和“内容”字段进行后续的处理和分析工作。由于爬虫程序仅对所获取的数据进行去重处理，而无关字符等干扰数据仍存在，需要针对文本数据进行进一步的清洗和准备，包括初步合并和分词。本文使用Python中的Jieba包对合并后的文本数据进行分词，为尽量减少分词过程中的信息损失，使用Jieba的全模式进行分词。此外，在分词的过程中还需加载用户词典并过滤掉无意义的停用词。根据常用的“哈工大停用词词库”等开放停用词表，加上从样本中提取出的停用词，共获得包含1894个词的停用词表。此外，在分词的过程中，针对领域特点添加了本研究自行构建的12116个科技政策领域关键词词表作为领域词典，在减少信息损失的同时提升分词的准确率。2.3 词性标注文本数据含义丰富，且无关数据较多。不同词性的含义不同。词性共分为两类：第一类是实词，包含名词、动词、形容词、代词、数词、量词等；第二类为虚词，包含副词、介词、连词、助词、感叹词、拟声词等。其中，实词的意义较为实在，而虚词一般无法单独成句。除此之外，利用词性的标注信息便可对多义词进行进一步区分。王惠在研究汉语言词义消歧时发现，仅利用词性标注就可以消除超过1/5的汉语言歧义[11]。一般认为，实词的平均语义量大于虚词。因此，文本数据的主题词一般以实词为主。本文根据以往的研究结论，选取实词中的名词、形容词和动词三种词性进行后续的主题建模。基于停用词表的过滤规则可以过滤掉大部分无意义或信息密度低的词，然而依然会有部分不适合作为主题词的词语出现。为了进一步过滤掉这些词语，本文将经过分词和去停用词的词语集合进行词性标注，并挑选出其中信息密度较高的词语(如名词词性和形容词词性)。选择使用隐马尔科夫模型(Hidden Markov Model，HMM)作为词性标注的实现方法，其主要流程如图3所示。研究过程中筛选出名词(n.)、动词(v.)和形容词(a.)作为LDA建模的准备词组。经过上述过滤流程后，从网页中获取的信息被统一为信息密度较高的词语集合。图3 基于HMM的词性标注和过滤流程示意图2.4 基于词向量的LDA2vec主题建模隐含狄利克雷分布(Latent Dirichlet Allocation，LDA)，其思想来源于隐含语义分析(Latent Semantic Analysis，LSA)。LSA出现后，Hofmann在其基础上提出了概率隐性语义分析(probabilistic Latent Semantic Analysis，pLSA)[12]，而LDA便是Blei等在pLSA的基础上进行扩展而来[13]。LDA以无监督学习的方法从文本中发现隐含的语义维度，即通常所说的“主题”(Topic)。如图4所示，LDA模型引入了两个狄利克雷先验分布，其中，基于超参数为α的狄利克雷先验分布作为文档—主题层的多项分布的先验分布，而超参数为β的狄利克雷先验分布则作为主题—单词层的多项分布的先验分布。两层狄利克雷分布有效地解决了pLSA模型的过拟合问题。作为统计语言模型中的典型代表，LDA主题建模近些年在情报分析、信息抽取、知识服务、知识发现等领域得到了广泛应用。图4 LDA模型词向量(Word Embedding)最早由Hinton等提出，用来解决自然语言在计算机中建模、存储与计算中遇到的困难。但使用传统的极大似然法计算词向量时，往往会出现性能问题。因此，Google于2013年提出使用神经网络代替传统方法计算词向量[14]，该模型后来被称为Word2vec模型，其核心功能是将词映射为对应的词向量。在主题建模中，传统的LDA模型是从文档中单词的共现推断文档—主题和主题—单词的分布情况。D.Q.Nguyen等将词向量化应用到LDA主题建模中，通过修改Word2vec中的CBOW和Skip-Gram模型，使其满足LDA模型的传入数据要求，结果发现基于词向量化所提供的上下文语义信息，LDA模型能获得更好的效果[15]。本文使用Word2vec对切词后的词语进行词向量化，并在词向量化的基础上使用gensim包中的LDA2vec模型进行主题建模。3 实验及结果分析3.1 数据爬取本文研究对象为全国除港澳台外的31个省、自治区和直辖市的科技厅或同等机构。根据《中华人民共和国政府信息公开条例》中规定的信息公开目录，选取研究对象所有公开信息中的政策法规、政策解读、规划计划和规范性文件部分作为研究样本，尽量降低不同省份之间的信息公开程度差异对研究结果的影响。本文编写了爬虫程序，从所研究的省、自治区和直辖市的科技厅或同等机构对互联网开放的数据进行爬取，并存储为json文件格式。经过数据爬取并剔除重复的数据后，共获得数据样本11642条，其中不同省级管理部门的数据样本数见表1。表1 全国省级科技管理部门官网样本量省份(研究对象名称)样本量省份(研究对象名称)样本量北京市546陕西省243天津市356湖北省513上海市580湖南省190重庆市187广东省334河北省284海南省69山西省411四川省1089辽宁省71贵州省296吉林省190云南省127黑龙江省389山西省320江苏省499甘肃省237浙江省386青海省116安徽省480内蒙古自治区339福建省1725广西壮族自治区149江西省74西藏自治区46山东省369宁夏回族自治区628河南省361新疆维吾尔自治区38其中，每条样本数据包含标题、发布来源、发布时间和具体内容。由于不同省市自治区的信息公开程度和积极性相异，使用爬虫程序所收集到的样本量也有较大差异。3.2 主题建模结果分析通过对爬取的数据进行特征提取，并使用gensim包中的LDA模型进行迭代训练，最终获得各省级管理部门的主题词。参考M.R?der等的相关研究[16]，基于单词的连贯性度量设计出主题模型的新型量化指标主题相干性(Topic Coherence)对建模结果进行评估，评估结果如图5所示。图5 词表和主题数对主题相干性的影响由主题相干性的结果可知，领域词表对模型有一定的提升作用。根据不同主题数的主题相干性计算结果，主题数定为3，每个主题取前10个最相关的关键词，并使用Gibbs采样迭代50次后保存结果。以下仅选取部分省市自治区的部分主题建模结果见表2。表2 部分省市自治区部分主题建模结果省份主题类主题词宁夏Topic 1知识产权工程技术电力工业Topic 2人才创业服务平台科技园Topic 3科技厅实地考察巡视员实施细则云南Topic 1科技厅专家研究所知识产权Topic 2中小企业科技成果关键技术股份有限公司Topic 3产业种植业生态农科西藏Topic 1公司科技网财政协调Topic 2领导战略知识产权大学Topic 3生物技术人工智能细胞特色福建Topic 1科学技术科技厅申报单技术厅Topic 2科技创新示范中小企业成果转化Topic 3创业资助制度人才由表2可以看出，科技情报领域的讨论热点问题中有诸多相似之处。其中，宁夏科技厅的关键主题有“电力企业”“电子商务”“孵化”，表明宁夏有意识发展电子产业和基于互联网的第三产业；“知识产权”“工程技术”“工业”等关键词可以看出，工业和专利转换仍是宁夏的重点发展方向之一。而云南省中“技术”“科研院所”“种植业”等关键词可以反映出云南省对传统农业及新型农业的重视，也有针对性地加强从科研院所到实地种植的转化过程；“企业”“科技成果”“关键技术”“股份有限公司”等关键词可以看出云南省通过“技术+资金”成立股份有限公司实现对科技成果的保护和转化。西藏自治区的主题词中，“人才”“知识”“能源”等关键词反映出能源领域可能是西藏未来的发展重心之一，对能源领域的人才和技术需求旺盛；“生物技术”“人工智能”“细胞”“特色”等关键词意味着西藏自治区将生物技术和人工智能技术作为今后一段时间的特色产业和专攻领域；福建省的主题词集合中，“科技创新”“企业”“成果转化”等关于科学技术词语和“创业”“资助”“人才”等关于创新创业的比重较大，说明福建省可能有意依托地理优势发展科技创新，并将科技成果转化为相关产业。3.3 建模结果整合与解读基于对不同省份进行主题建模所获得的主题词，辅以领域词表，对主题相近的主题词进行组合，形成较长的主题短语以进行进一步的横向分析，获得全国除港澳台外各个省市自治区科技情报领域的部分主题短语如图6所示。地图来源：中华人民共和国国家测绘地理信息局标准地图服务(http://bzdt.ch.mnr.gov.cn/index.html)图6 全国各省自治区和直辖市科技情报主题短语(部分)由各省市自治区科技情报领域关键词和主题短语，分析得出以下研究结论：1)各个省份的科技情报领域的主题总体上呈现趋同的趋势。从建模结果来看，大部分省、自治区和直辖市科技厅的主题中均包含诸如“大众创业”“万众创新”“企业孵化器”等关键词，体现出各地积极响应落实国务院提出关于加快构建大众创业、万众创新支撑平台的指导意见。各个省市自治区在转发和学习国务院指导意见的同时，也针对本地区实际情况构建一系列本地化的方案、办法和举措。例如广东省科技厅在转发科技部《关于科技企业孵化器、大学科技园和众创空间税收政策的通知》之后，出台一系列相关规定开展落实工作，如《关于进一步提升我省科技企业孵化器质量水平的工作方案》《广东省科学技术厅广东省财政厅关于科技企业孵化器、众创空间后补助试行办法(修订)》等规范性文件。可以看出，国家政策法规对各个省市自治区的科技情报主题有引领和指向作用，在国家政策法规中出现的科技关键词有较大可能成为省市自治区的科技关键词。除转发学习国务院指导意见之外，各个省市自治区也普遍出现诸如“人才培育”“技术人才”“科技人才”“科技成果转化”“知识产权”“专利技术”等关键词。纵观全国的省市自治区的主题词可以看出，“知识产权保护”“科技人才培养”“科技成果转化”等是科技情报领域共同的热点话题。在探究科技领域共同热点话题的同时，也可以根据对上述热点话题的进一步挖掘，展现不同省份对于热点话题的不同关注程度，进而对不同省份的政策倾斜方向有所探知。例如上海市在科技人才方面偏重“人才引进”，印发了诸如《关于服务具有全球影响力的科技创新中心建设、实施更加开放的海外人才引进政策的实施办法(试行)》《关于服务具有全球影响力的科技创新中心建设实施更加开放的国内人才引进政策的实施办法》等政策文件，说明上海市可能依靠地理位置和发展前景等优势在培育人才的同时注重从国内其他地方和海外引进人才，而一些内陆省份则以加强人才管理、制定人才优惠政策为重点。2)各个地区仍有特色区域科研领域。虽然各个省市自治区的主题大体一致，但从建模结果中仍可看出，不同省份仍有一些独特的侧重和特色领域。例如西藏自治区的科技情报文本中关于“能源”“生物技术”等主题短语反映出西藏自治区计划充分发挥其独特的地理优势，将能源领域研究和生物技术研究列为其科技发展的重点领域；而北京市“文化创意”主题则反映出北京市将厚重的文化积淀应用到科技服务和科技工作中，谋求“科技”+“文化”的融合发展。由各省市自治区的主题短语来看，大部分省市自治区在制定科技发展战略和政策的时候将自身优势考虑在内，以最大化科技创新和科技服务的效果。除不同省市自治区在科技情报主题方面侧重有所不同之外，同区域相近省份往往表现出相似的科技情报主题，呈现出“区域特色”。例如东北三省作为重工业基础雄厚的相似地区，在科技政策制定方面均表现出“稳定发展传统行业，积极探索创新创业”的趋势，其主题词往往反映出该省份传统的优势项目，但其对于新兴产业的敏感度往往低于南方沿海地区；与之相对的是东南沿海地区追随新兴技术，并在发展大学和研究所教育的同时注重产学研结合，发展诸如“大学科技园”“科技合作基地”等融合项目；而中部地区则普遍利用农业大省的优势，将科研重心定位到农业，并在农业的基础上结合其地域优势大力发展生态文明和可持续农业，并鼓励进行农业科技创新和转化工作。此外，在北京市、上海市、广东省等一些开放程度较高的省市自治区中，与“开放”“合作”“引进”等对外交流的主题词较多。4 总结与展望本文对全国各个省、市、自治区分别进行内容爬取、清洗、处理和主题建模等步骤获取主题词和主题短语，并从横向的角度对建模结果进行了解读。从建模的结果来看，不同省份的科技情报领域研究热点主题相近，且往往与国家科技政策紧密相关。除此之外，不同省、市、自治区之间也有不同的侧重和特色科技领域，这些领域往往与省份的客观地理条件和产业基础相结合，并在其之上发展出新的创新领域。可以说，不同省份的科技情报领域主题呈现出大同小异的特征，既有相近主题的讨论热点话题，也有因地制宜特色主题。从全国范围看，相邻省份的科技情报主题往往呈现出相近的趋势，即“区域特色”现象。本研究的不足之处在于仅将各部分数据进行整合与重组，而没有针对各个数据源进行深入的研究比较，未来还将细化不同的数据来源，研究政策文本、规范性文件、工作动态和新闻内部的数据特征和数据价值，从更细的数据颗粒度对科技情报领域进行探究。□参考文献[1] 李文波,孙乐,张大鲲.基于Labeled-LDA模型的文本分类新算法[J].计算机学报,2008(4):80-87.[2] 张超.一种词性标注LDA模型的文本分类方法研究[D].武汉：华中师范大学,2015.[3] 郭蓝天,李扬,慕德俊,等.一种基于LDA主题模型的话题发现方法[J].西北工业大学学报,2016,34(4):698-702.[4] LEE W S,HAN E J,SOHN S Y.Predicting the pattern of technology convergence using big-data technology on large-scale triadic patents[J].Technical Forecasting and Social Change,2015,100:317-329.[5] 勒孚刚.基于LDA模型的专利文本分类及演化研究[D].赣州：江西理工大学,2017.[6] 张群,王红军,王伦文.词向量与LDA相融合的短文本分类方法[J].现代图书情报技术,2016(12):31-39.[7] 裴超,肖诗斌,江敏.基于改进的LDA主题模型的微博用户聚类研究[J].情报理论与实践,2016,39(3):135-139.[8] 张涛,蔡庆平,马海群.一种基于政策文本计算的政策内容分析方法实证研究——以互联网租赁自行车为例[J].信息资源管理学报,2019,9(1):68-78.[9] 杨慧,杨建林.融合LDA模型的政策文本量化分析——基于国际气候领域的实证[J].现代情报,2016,36(5):71-81.[10] 刘晓彤.基于文本挖掘的国家创业政策主题演变与协调性分析[D].太原：山西财经大学,2018.[11] 王惠.机器翻译中基于语法,语义知识库的汉语词义消歧策略[J].广西师范大学学报(自然科学版),2003(1):86-93.[12] HOFMANN T.Probabilistic latent semantic analysis[C]//Proceedings of the Fifteenth Conference on Uncertainty in Artificial Intelligence.Morgan Kaufmann Publishers Inc.,1999:289-296.[13] BLEI D M,NG A Y,JORDAN M I.Latent Dirichlet allocation[J].Journal of Machine Learning Research,2003,3(Jan):993-1022.[14] MIKOLOV T,LE Q V,SUTSKEVER I.Exploiting similarities among languages for machine translation[J].ArXiv Preprint arXiv:1309.4168,2013.[15] NGUYEN D Q,BILLINGSLEY R,DU L,et al.Improving topic models with latent feature word representations[J].Transactions of the Association for Computational Linguistics,2015,3:299-313.[16] R?DER M,BOTH A,HINNEBURG A.Exploring the space of topic coherence measures[C]//Proceedings of the Eighth ACM International Conference on Web Search And Data Mining,2015:399-408.

文章来源：林业科技情报网址: http://lykjqb.400nongye.com/lunwen/itemid-12718.shtml

上一篇： 大数据环境对航空科技情报工作的影响
下一篇： 计算机软件及计算机应用论文_面向战略决策的科技情报智能分析系统实践

点击在线投稿