关键词:引文内容分析;主题识别;高被引论文;引用动机
分类号:G350
Topic Identification of Highly Cited Papers Based on Citation Content
Analysis
Zhu Qingsong &Leng Fuhai
ABSTRACT Citation analysis based on citation frequency fails to directly reveal research contents of papers,neither can it objectivelyreflect the reason for citation with keywords or topic words extracted from titles, abstracts and full-texts. Taking highlycitedpapers of carbon nanotube fiber field as examples, this paper extracts citation contents and identifies the topics. Throughhuman interpretation, it verifies that the core topics of identifying highly-cited papers based on citation content analysis can betterreveal the reason for citation ( i. e. , motivation for citation) of highly-cited papers and accord with research contents of papers.Compared with the topic identification based on titles, abstracts and full-texts, the topics identified on the basis of citationcontent analysis have better representativeness and can effectively reveal research contents of cited papers, and are importantsupplement to related information in original texts. The experiment results of this paper prove the feasibility and validity of thetopic identification through citation content analysis on highly cited papers. 4 figs. 4 tabs. 31 refs.
KEY WORDS Citation content analysis. Topic identification. Highly cited papers. Citation motivation.
1 引言
高被引论文指在某个统计时间段内,被引用次数排在学科前列的论文,在一定程度上代表了学科的研究进展,具有重要的研究意义。汤森路透集团文献评价分析工具ESI 中将高被引论文( MostCited Papers) 定义为过去十年被引用次数排在各学科前1%的论文。一方面,科技论文的被引用次数及其改进指标如影响因子、h 指数等,作为重要的计量学指标,已被广泛应用于研究水平测度、科研绩效评价、学术期刊评价等方面; 另一方面,基于科技论文被引用次数的引文分析及共引分析、耦合分析等作为重要的情报研究方法,也广泛应用于学科结构研究、领域研究前沿和热点探测等领域。
科技论文的引用行为呈现出高度的复杂性,如Garfield[8]在1964 年提出15 种引用原因,且被引用次数无法揭示出作者的引用动机。以被引用次数为基础的传统引文分析将所有的引文同等看待,施引文献和被引文献之间的关联性也通常不加以区分。随着全文本文献可获取性的不断提高和文本挖掘技术的持续发展,引文类型识别将引用动机的研究推进到一个新阶段[9]。引文类型识别是通过对施引文献引用被引文献的文本内容进行分析来对引文进行分类,如Pham[10]将引文分为基础、支持、局限和比较,Le[11]将引文分为基于被引文献、被引文献一部分、支持施引文献、指出被引文献的问题或差距、比较当前工作和其他类型。引文类型识别主要从引用功能和观点倾向两种角度来对
引文进行分类。
为了进一步揭示高被引论文的研究内容,通常利用其关键词、主题词( 标题、摘要或全文抽取所得) 来表征高被引论文的研究主题,如侯跃芳等[12]将引文共引聚类与内容词分析法相结合揭示专题发展,通过引文共引聚类描述妊娠糖尿病专题研究的发展历史,通过高频引文的重要来源文献的内容词分析描述该专题研究现状。然而,高被引论文的主题词只能反映该论文自身的研究内容,不能揭示其被引的原因和内容,因而需要深入施引文献的全文来挖掘其引用的被引文献的内容,即引文内容,在引文内容分析的基础上抽取代表被引文献被引原因的主题词。另外,本文中的主题Topic 指论文中用于表征相关研究内容的词汇或短语,相对于一般具有严格规范控制和复杂概念体系的主题Subject(如受控词表和本体等) ,Topic 更符合从引文内容抽取相关词汇或短语来表征高被引论文主题的研究方法。
科技论文中大部分的创新并不是完全创新,而是在以往创新基础上的再创新,既有继承性,又有变化性。科技论文的继承性通过引用和被引用来实现,并以参考文献的形式出现在科技论文的正文后面,在正文中以特定的形式进行标记,本文称为引用标记,如3、[19,24]、( 15 - 17) 或( Teufel等。同时,将引用标记所在的句子称为引用句,与引用句在内容上相关联的上下文句子称为引用上下文。引文内容分析指对引用句或引文上下文的分析,引用句是施引文献和被引文献的直接关联,引文上下文蕴含更加丰富的语义信息,本文中引文内容分析指对从引用句中抽取的引文内容进行分析。
引文内容分析是对传统以被引用次数为基础的引文分析的重要补充,能较好地揭示被引文献和施引文献之间在语义内容上的关联,基于引文内容分析的论文主题识别从施引文献的角度出发,识别的主题词能更好地表征被引文献的研究主题和主要贡献,有利于共引、耦合等进一步分析中的语义揭示和内容挖掘。
2 相关研究
Small[13]将引文内容分析分为两种:①引文上下文分析( citation context analysis) ,主要是面向引用功能或观点倾向的引文类型识别;②引文上下文的内容分析( content analysis of citation contexts) ,主要是面向主题词或短语的语义内容挖掘。第一种更多关注引用功能或观点倾向的分类,重视外部特征,忽略引文的内容分析,在一定程度上仍然是外在层面的分析; 第二种是对第一种方法的重要补充,重视内部特征,深入语义内容进行分析,有更好的应用价值。Ding[14]认为基于内容的引文分析是下一代引文分析的方向,并将其分为两个层面: 一个是语法层面,指引文分布在文献中的不同语法结构中( 出现在文中不同章节位置) ; 另一个是语义层面,指引文具有不同的语义贡献( 比如重要或不太重要的贡献、肯定或否定型贡献) 。
引文内容分析的早期研究主要是人工对引文文本内容进行判读和总结,如Small[15]将引用内容作为观点表达的概念符号,认为将共被引聚类和引文内容分析结合起来能更好地揭示研究领域的知识基础。Small[16]利用这种方法对重组DNA 领域进行了分析,首先利用共被引聚类方法追溯重组DNA 领域的演化历史,然后利用引文内容分析揭示聚类之间主题的变化,并将其引申到共被引内容分析,进一步揭示文献概念之间的关系。该方法的关键是用引文文本内容中出现频次最高的词或短语来表示引文,将引文标签化,在一定程度上对演变进程有了更好的解释。
随着文本挖掘技术的提升以及全文本获取的可行性,对文献全文的挖掘和分析越来越多,引文内容分析也在其中。Nakov 等[17]指出引文内容分析的一系列潜在应用,如可比语料库构建、实体识别、关系抽取、自动文摘、同义词识别和消歧、文献检索等,这些应用都是建立在对引文内容分析的基础之上,其出发点都是引文内容相比被引文献的摘要和全文等包含更丰富的语义信息。Elkiss 等[18]通过多个实验发现引文内容和被引文献的摘要有一定程度的重合,但是针对同一篇被引文献的施引文献往往关注被引文献的不同方面,不会对其贡献进行完全的描述,并且发现引文内容比摘要具有更好的统一性,包含摘要所不具有的额外语义信息,是对摘要的重要补充。