《渔业致富指南》杂志社
首页 > 期刊导读
 
/ / /
 

渔业专利文献分类类目设置与机器标引策略研究

 
来源:渔业致富指南 栏目:期刊导读 时间:2021-03-18
 
1 引言 专利文献是极为重要的一类科技文献,其利用对于引进高新技术设备、确立尖端科研课题,避免重复的研究开发都具有重要意义[1],因此,国内外许多大型文献资源库都提供专利文献检索服务[2,3]。在中国工程科技知识中心渔业知识分中心的建设过程中,项目组非常重视渔业专利文献的全面采集与深度利用,规划了检全与检准近30 年中英文渔业专利文献,并实现专业化的分类浏览与检索服务的任务。 在前期工作中,项目组通过国际专利分类号(IPC)、题名关键词、专利权人等方式在中外专利数据库的检索选购,获取1985 年以来中文渔业专利文献元数据60 000 余条,获取2008 年以来英文渔业专利文献元数据150 000 余条。根据对获取数据的初步分析,元数据集中且能够直接反映渔业内容的IPC 分类类号仅有A01K6(养殖概念)、A01K7(捕捞概念)、A22C25\A22C29(加工概念),这样的分类过于抽象、过于集中,不便于直观地、深层次地识别专利文献的业务内容;有许多反映渔业业务的专利文献分散在A23(食品概念)、C02(水处理概念)、C12(生物技术概念)等多个类目的下位类号下,不利于逐级浏览与关联分析。因此,项目组首要考虑结合渔业产业特点,设置不同于IPC 的、更直观的分类类目,实现对渔业专利文献的再组织。 合适的分类体系和恰当的分类类目是文献标引的基础和前提[4,5],为解决各类专利文献的组织问题,业界先后创建了国际专利分类体系(IPC)、欧洲专利分类体系(ECLA/ICO)、联合专利分类体系(CPC)等分类体系[6-8],但各类专利分类法仍不能很好地满足特定行业深度识别、便捷标引的需要[9]。国内在已开展的专利文献的分类标引研究中,孙艳玲等[10]在中国药物专利数据库的加工中,进行了专利发明主题、医疗应用、范畴分类、化学物质信息等多维度的标引实践;张运良等[11]在分析专利自身的特点和应用需求的基础上,提出面向中文专利知识对象和专利知识要素的专利深度内容标引规范研制方法;田创等[12,13]通过对几个行业的专利的标引实践,提出专利文献可与产业类目映射的观点;彭茂祥等[14]还进行了专利分类与产业分类对照关系构建试验。除中国药物专利数据库外,专利文献分类标引在煤化工、医学、电子等几个行业的专利数据库建设中都有IPC、CPC 分类体系之外的研究应用[15-17],各行业尚没有成熟的、专用的分类标引方法。 笔者通过对筛选出的10 323 条中文渔业专利元数据的统计分析,提出了按业务类型设置分类类目体系,并构建了从IPC 分类号及专利题名关键词转换到新类目的对应关系,通过计算机辅助实现了对绝大部分渔业专利文献的专业化标引。 2 技术路径 研究的技术路径见图1。 图1 技术路径 3 样本数据的筛选 已获取的中文专利元数据,其数据量偏大,且有部分并不属于渔业行业。为方便统计分析,并排除非行业数据的误导,试验后决定选取2003—2017 年发布的法人单位名称含有水产或渔业的专利文献数据为样本进行各项统计分析。 打开已获取的中文渔业专利文献元数据表,设置检索式为:“patent_id(专利公告号):2003-2017”AND“applicant_name(专利申请人):水产+渔业”,筛选出元数据记录10 323 条,截取元数据中的title(题名)、main_classcode(主分类号)、classcode_level(复分类号)作为统计分析对象,形成样本数据。鉴于title(题名)统计分析不方便,项目组应用专业切词软件将样本数据中的题名一一分解成若干个title_keyword(题名关键词),根据研究需要先后对主分类号、复分类号、题名关键词进行统计、分析和归纳。 4 渔业专利文献的主题类型分析与分类类目设置 4.1 渔业专利文献的主题类型分析 将样本数据按main_classcode 分别统计4 位类目、6 位类目的出现频次,得到渔业专利文献的IPC 分布结果(表1)。 表1 显示,10 323 篇文献分布在30 个4 位类目中。其中6 853 篇分布在A01K,占比达到66.39%;而剩下33.61%的文献零散分布在29 个类目中,每类分布文献量都在600 篇以下,最高的也只占5.57%。表1还显示,文献量>20 的6 位分类号有30 个,根据IPC的类目定义,其中属于渔业专类的分类号13 个(A01K 下11 个,A22C 下2 个),其余17 个是兼有渔业专利的其他行业的分类号。表1 对主要高频分类号所反映的渔业业务作了简明概括。 根据表1 的文献量分布结果,若要对渔业专利文献进行有效分类,则除了要对照已概括的渔业业务设置类目外,还需要对A01K 类目下的文献作进一步的辨析与分类。 4.2 A01K 类下专利文献的分类辨析 表1 的6 位类号统计还显示,在A01K 的6 853 篇文献中,A01K61(鱼类、贻贝、蜊蛄、龙虾、海绵、珍珠等的养殖)4 207 篇,A01K63(装活鱼的容器)1 837 篇,A01K67(动物新品种饲养)195 篇,占比达91.04%;而A01K7\A01K8\A01K9(捕捞与钓鱼概念)的文献合计只有614 篇。A01K6 类下文献众多,如果将A01K6 类下文献简单标引为水产养殖,就相当于没有分类,从分类学基本要求与文献深度利用的要求考虑,有必要进一步分析A01K6 类的文献主题类型。 表1 渔业专利文献按IPC 的4 位及6 位分布 在样本数据中,选定的classcode_level 字段,按字段含有A01K6 进行筛选,获取含有水产养殖概念的部分数据,再统计与A01K6 同时出现的4 位复分类号频次,得到水产养殖类专利文献的复分类号的分布结果(表2)。 表2 显示,与A01K6 共现的复分类号超过25 个,这些类号单独出现并不表达渔业概念,但他们与A01K6 组合使用后,分别表达了繁殖育种、水产饲料、病害防治、水处理、养殖设施以及养殖技术等方面的主题概念,也就形成了分析和划分水产养殖业务类型的依据。观察发现,A01K6 类的专利文献许多都标注了3~4 个复分类号,与其中某个复分类号的组合通常不能完全地和准确地表达主题概念,所以复分类号一般只能作分类分析参考,若作为专业化标引的依据则错误会较多。 4.3 渔业专利文献专业化分类类目设置 根据表1、表2 的专利业务类型分析,渔业专利主要为满足渔业生产活动的需要而产生,如围绕养殖、捕捞、加工形成的专利成为渔业专利的主体;而为满足科研活动及商业活动的需要如围绕水产科学实验、水产品质量检测、鱼类增殖保护以及水产品的包装、运输、储藏等也产生了一定数量的专利,这些专利构成了渔业专利的次要组成部分。 如果以某类目专利文献量占渔业专利文献总量的比值大于1%作为设置分类类目的基本条件(即样本数据中单类文献量>100 篇),同时避免某类文献量占比>30%,则对渔业专利至少可以设置:捕捞&渔具、加工&产物、包装&运输&保藏、生物技术应用、实验&检测、繁殖育种、饲料配制、病害防治、水处理、养殖方式方法、养殖设施、其他等12 个分类类目。 表2 与A01K6 共现的复分类号分布 5 渔业专利文献的题名结构分析 专利文献的题名相对科技论文的题名更简明,其结构简单、关键词少、更容易理解。如果对专利的题名关键词进行简单归纳,基本上可以归为3 类:一是行业属性词,二是业务类型词,三是发明类型词。举例见表3。 通过词频统计分析,可以对这3 类关键词进行归纳。选定样本数据中的title_keyword(题名关键词)字段,应用专业词频分析软件对关键词进行词频统计,按词频从高到低排序,其中词频3 以上的词有2 089个,分别对这些词按渔业属性、业务类型、发明类型进行辨别与归纳,并判定其检索意义与标引意义,小结如下。 5.1 渔业属性词 渔业属性词通常为名词,表示业务工作的对象。表4 简明归纳了专利文献中的部分渔业属性词。渔业属性词大部分有明显的词根,可通过词根(如鱼、虾、蟹、渔、水产动物名等)检索即可判定为渔业文献,误检不会很多;但部分词根(如贝、网、池、塘等)的外延词部分反映渔业属性,部分涉及其他行业。渔业属性词是认定为渔业专利文献的基础,通常适用于检索渔业专利文献,只有少部分词能够用于标引专利文献。 5.2 发明类型词 发明类型词通常为名词,既有通用名词,也有具体的事物名词。表5 简明列举了渔业专利文献中的发明类型词。这类词常出现在题名的末尾,可以简明归纳为:方法技术、产品用品、设施设备、工具器具4类。典型的通用名词有:装置、方法、系统、设备、工艺、技术、工具、设施等,这类词不能单独用于检索和标引专利,但其与特定的名词或动词组合后,具有可靠的标引意义,如“采样装置”“排水系统”“标记方法”“测量工具”等。若题名的尾词是具体事物的名称,则该词隐含了发明类型,既具有检索意义,也具有标引意义,如“孵化器”“增氧机”“试剂盒”等。 表3 渔业专利文献的题名结构 表4 专利文献中的渔业属性词归纳 表5 渔业专利文献中的发明类型词举例 5.3 业务类型词 业务类型词通常为名词或词组,表示在某类业务工作中应用的或形成的专利。表6 简明归纳了专利文献中的业务类型词,这类词数量最多,表现的方面也较多(如病害防治类有病原、病种、药物、防治方法等方面词,加工&产物类有原料、操作、制品、专用机械等方面词),少数有词根(如病、菌),大部分无词根,适用于判别专利的业务类型,是对专利文献进行标引的首要关键词。 IPC 采用功能和应用相结合的分类原则分类[19],对于组织多行业的专利信息无疑是成功的。而从建设专业知识库的要求来看,从业务类型角度设置分类类目更能满足用户浏览、检索、统计分析等方面的使用需求。在3 类关键词中,业务类型词最适合专利文献的分类与标引,发明类型词可用于子类目的复分及检索辅助,渔业属性词一般只适用于行业属性的认定。 5.4 题尾词组的统计分析 题名中的尾词尤其是尾词组(通常由2~4 字组成)具有明确的业务属性,是分类标引最可靠的依据。如“投饲装置”既反映设施概念,也反映养殖业务,组合起来就反映养殖设施类型。“排污系统”既反映水处理概念,又反映设施类型,组合起来就反映水处理设施类型。笔者单独统计了题尾词组的词频,得到词频≥3 的词组340 个,其中能够清楚的反映业务类型的词组256 个。实践中,可以优先利用这些词组进行标引。 6 渔业专利文献专业化标引的实现 已检出的渔业专利文献,其行业属性已认定,在标引时不用再考虑渔业属性词,如果以业务类型为主线进行标引,则发明类型词一般也不用考虑(除少数兼具业务类型的词)。参考5.3 节、5.4 节归纳出的高频词,逐类逐个进行标引试验与检验,排除准确率低的标引词,排除无效的标引词,综合、简化后形成渔业专利文献专业化标引策略。本标引策略分4 步设计:首先考虑捕捞& 渔具、加工& 产物、包装& 运输&保藏这3 类,因为这3 类在IPC 有明确分类,而且其主题很少与其余各类交叉,必须采用分类号结合主题词的形式筛选和转换;其次考虑生物技术、实验& 检测这两类,因为这两类的主题词特色分明,用于判定业务类型相对准确,且与剩下其他类区别明显;第三步考虑繁殖育种、饲料配制、病害防治、水处理这4类,这4 类都属水产养殖大类,相互之间有一定交叉,有部分主题概念同时涉及几类业务;最后考虑养殖技术、养殖设施及其他,这部分往往需要利用词组来准确区分类型,有些只能靠人工来判定类型。标引试验结果详见表7。 表6 专利文献中的业务类型词归纳 7 对2016 年渔业专利文献标引结果的检验 按表7 策略对样本数据进行机器标引,截取2016年的机标结果1 755 条,逐条进行人工标引检验,两相对照,统计机器标引不准确的以及漏标的数据,得出每一类的标引正确率及漏标率,检验机器标引的效果,结果见表8。 表8 显示,2016 年专利文献合计有1 755 篇,机标文献1 840 篇次(有85 次为复标记录),机标综合正确率为91.44%,漏标率7.94%,如果不计算“其他”类的正确率与漏标率,则前11 类的综合正确率为92.41%,漏标率3.95%,大大超出了预期目标。总体看来,所设置的分类类目切合实际,标引策略具有很强的实践应用价值。 表7 渔业专利文献专业化标引策略注:式中“MC:”表示在主分类号字段检索;“TI:”表示在题名字段检索;“+”表示逻辑“OR”;“*”表示逻辑“AND”;“-”表示逻辑“非”;总数据记录为10 323 条,总标引记录为10 893 次,部分数据有2 次或3 次复标记录,总复标记录570 次 8 结语 8.1 关于类目设置 渔业专利文献的IPC 分类专题类目少,而且子类目繁杂无序,概念交叉现象较多,没有与行业特点结合起来,项目组在文献检索分析时认为有必要另行分类。前期考虑按中国水产科学研究院十大学科设置类目,但观察发现,专利主题有别于科技论文,其主题对象往往是一件物品或一种工具,它主要是满足生产活动的产物,并不具有明显的学科属性。如“循环水养殖保温棚”“一种太阳能鱼塘灭虫灯”这类专利,都不宜归属到学科。而且学科体系中的渔业资源、生态环境、经济信息类目在专利中极少有体现。实践中发现,每一个专利都是一种业务的需要或产物,以业务类型对专利文献进行分类是可行的方案,从行业内部来讲,这一分类方案优于IPC 分类。袁真富等[17]曾提出专利标引的维度可分为法律状态、产品线、技术效果、专利价值等,但从信息分析利用的角度来看,从业务类型这个维度的标引信息挖掘更深、标引的价值也更高,结果也契合张运良等[11]提出的可以从知识对象和知识要素角度组织专利文献的理论。 8.2 关于标引方式的选择 笔者在标引策略中,除捕捞& 渔具、加工& 产物、包装&运输&保藏主要采用IPC 分类映射到设定类目的方式,其他类目则主要采用了题名_ 关键词检索映射到分类类目的方式,经检验,这一方案是简明而且成功的。之所以还有误标、漏标现象,主要原因有三:一是原标注的IPC 分类号本身不准确,例如:分类号“A23B”表示“水产品保藏”概念,但其类下含有一部分加工概念的专利;二是部分关键词具有两类或三类的隐含意义,例如:“鱼糜”是加工产物、也是饲料原料,具有两类业务属性;“杂交”在题名中作为动词时反映“繁殖育种”业务,当在题名中以“杂交鲤”形式出现时更多反映“养殖技术”业务;三是单字检索外延溢出,有可能造成错误映射,例如“菌”,常见各种病原菌,映射“病害防治”,但也有“益生菌”这个低频词,本该映射到“饲料配制”;四是由于关键词不能完全列举,部分文献不得不使用主分类号映射补充。此外,“养殖设施”类正确率偏低以及“其他”类漏标率偏高,这是为避免关键词映射表达式过于复杂的特殊处理,对这两类的机器标引结果最后进行人工标引检查是必要的。 表8 2016 年渔业专利文献标引结果的检验 8.3 专业化标引的意义 专利标引是专利数据库建设的重要环节,是进行专利信息检索、分析、获取竞争情报的基础和关键[20]。在专业化分类标引方面:日本专利数据库普遍应用了FI/FT 分类法[21],美国专利数据库应用了USPC分类法[22],欧盟则统一推行了CPC 分类法[22],中国也有部分行业应用CPC 进行了专利分类标引[23,24],但在行业专利标引的体系研究方面不够深入,缺少自创[25]。笔者是对行业专利文献按业务类型分类的一次有益尝试,初步解决了渔业专利分类的思路和方法问题。笔者的方法可推广应用于其他行业和其他文种的专利标引。例如医学专利标引,可通过全面检索医院和医学院的专利文献,获取一段时期医学专利的元数据集,进而分析得出医学专利的高频主分类号、复分类号,归纳出医学专利常见的业务类型,之后再统计各业务类型的题名关键词词频,分析得出各类的高频关键词集,最后设定以分类号结合题名关键词的检索匹配策略,实现专业化的标引。对于其他文种的专利标引,也可以采用相同的检索方法和统计分析方法。研究后期对渔业英文专利的标引过程也表明,对于国外的英文专利,仅选择获取元数据样本的专利服务平台不同,结果中的高频IPC 分类号完全一致,高频关键词大部分一致,标引策略中只要将关键词作适当调整即可。 [1]朱江岭.专利文献——信息时代的重要资源[J].图书馆学研究,1998(3):56-58. [2]雷燕.介绍因特网上的六个专利文献数据库[J].图书情报知识,1998(2):44-46. [3]朴京顺.浅谈专利数据库及专利文献检索[J].中国发明与专利,2011(9):63-65. [4]丁海燕.国际专利分类法与分类号[J].今日科技,1985(8):34-35. [5]张颖.国外网上两类文献分类浏览系统的比较分析[J].晋图学刊,2007(6):10-12,32. [6]马海群.网络环境下的国际专利分类法IPC 变革与发展[J].现代图书情报技术,2002(6):41-43. [7]朱新超,霍翠婷,刘会景.合作专利分类系统(CPC)与传统专利分类系统的比较分析[J].数字图书馆论坛,2013(9):38-44. [8]朱雅琛,黄非.CPC 分类体系:开创专利分类体系新纪元[J].中国发明与专利,2013(2):41-45. [9]周青.专利技术分类构建方法研究[J].科技情报开发与经济,2014,24(10):143-144. [10]孙艳玲,刘化冰,王海虹,等.深度加工标引的中国药物专利数据库[J].中国医药导刊,2008(1):22-24,26. [11]张运良,桂婕,朱礼军,等.中文专利深度内容标引规范研制[J].数字图书馆论坛,2008(11):18-21. [12]田创,赵亚娟.一种基于相似度的专利与产业类目映射模型——以《国际专利分类》与《国民经济行业分类》为例[J].图书情报工作,2016(20):123-131. [13]田创,赵亚娟.专利文献与产业类目的映射研究——以2015 年度中科院专利与《战略性新兴产业分类》为例[J].知识管理论坛,2017(1):26-35. [14]彭茂祥,徐勇.专利分类与产业分类对照关系构建及应用研究[J].科学管理研究,2017(5):32-35. [15]葛川,杨颖.煤化工产业专利信息服务平台建设研究[J].山西科技,2018,33(5):4-10. [16]张婷,贾晓峰,曹敏军.医学科技专利数据库的设计与实现[J].计算机与应用化学,2015,32(6):669-673. [17]袁真富,杨敬涵.专利标引维度及其应用研究[J].电子知识产权,2018(5):75-84. [18]国家知识产权局.IPC 分类查询[EB/OL].[2020-03-02].http://epub.sipo.gov.cn/ipc.jsp. [19]刘德馨,李有馥.国际专利分类法评价[J].情报科学,1993(4):20-27. [20]李宏芳,邹小筑.中国专利数据库标引质量测评[J].现代情报,2010(12):58-61. [21]李胤,冯刚,裴少平.浅谈F-term 分类系统及其在日本专利检索中的应用[J].科技情报开发与经济,2013,23(19):130-132. [22]刘艳廷,柴丽丽,刘会景,等.现行专利分类系统概述及其应用场景[J].中国基础科学,2019,21(5):58-62. [23]刘桂波.建筑给排水领域CPC 分类及其检索应用[J].中国发明与专利,2017,14(2):113-116. [24]何彦东,王妍,蒋碧珠.光化学领域CPC 分类系统应用初探[J].中国发明与专利,2014(8):114-117. [25]唐思慧,魏静雯.我国专利信息数据库建设原则与利用体系研究[J].图书情报工作,2012,56(11):60-64. 1 引言专利文献是极为重要的一类科技文献,其利用对于引进高新技术设备、确立尖端科研课题,避免重复的研究开发都具有重要意义[1],因此,国内外许多大型文献资源库都提供专利文献检索服务[2,3]。在中国工程科技知识中心渔业知识分中心的建设过程中,项目组非常重视渔业专利文献的全面采集与深度利用,规划了检全与检准近30 年中英文渔业专利文献,并实现专业化的分类浏览与检索服务的任务。在前期工作中,项目组通过国际专利分类号(IPC)、题名关键词、专利权人等方式在中外专利数据库的检索选购,获取1985 年以来中文渔业专利文献元数据60 000 余条,获取2008 年以来英文渔业专利文献元数据150 000 余条。根据对获取数据的初步分析,元数据集中且能够直接反映渔业内容的IPC 分类类号仅有A01K6(养殖概念)、A01K7(捕捞概念)、A22C25\A22C29(加工概念),这样的分类过于抽象、过于集中,不便于直观地、深层次地识别专利文献的业务内容;有许多反映渔业业务的专利文献分散在A23(食品概念)、C02(水处理概念)、C12(生物技术概念)等多个类目的下位类号下,不利于逐级浏览与关联分析。因此,项目组首要考虑结合渔业产业特点,设置不同于IPC 的、更直观的分类类目,实现对渔业专利文献的再组织。合适的分类体系和恰当的分类类目是文献标引的基础和前提[4,5],为解决各类专利文献的组织问题,业界先后创建了国际专利分类体系(IPC)、欧洲专利分类体系(ECLA/ICO)、联合专利分类体系(CPC)等分类体系[6-8],但各类专利分类法仍不能很好地满足特定行业深度识别、便捷标引的需要[9]。国内在已开展的专利文献的分类标引研究中,孙艳玲等[10]在中国药物专利数据库的加工中,进行了专利发明主题、医疗应用、范畴分类、化学物质信息等多维度的标引实践;张运良等[11]在分析专利自身的特点和应用需求的基础上,提出面向中文专利知识对象和专利知识要素的专利深度内容标引规范研制方法;田创等[12,13]通过对几个行业的专利的标引实践,提出专利文献可与产业类目映射的观点;彭茂祥等[14]还进行了专利分类与产业分类对照关系构建试验。除中国药物专利数据库外,专利文献分类标引在煤化工、医学、电子等几个行业的专利数据库建设中都有IPC、CPC 分类体系之外的研究应用[15-17],各行业尚没有成熟的、专用的分类标引方法。笔者通过对筛选出的10 323 条中文渔业专利元数据的统计分析,提出了按业务类型设置分类类目体系,并构建了从IPC 分类号及专利题名关键词转换到新类目的对应关系,通过计算机辅助实现了对绝大部分渔业专利文献的专业化标引。2 技术路径研究的技术路径见图1。图1 技术路径3 样本数据的筛选已获取的中文专利元数据,其数据量偏大,且有部分并不属于渔业行业。为方便统计分析,并排除非行业数据的误导,试验后决定选取2003—2017 年发布的法人单位名称含有水产或渔业的专利文献数据为样本进行各项统计分析。打开已获取的中文渔业专利文献元数据表,设置检索式为:“patent_id(专利公告号):2003-2017”AND“applicant_name(专利申请人):水产+渔业”,筛选出元数据记录10 323 条,截取元数据中的title(题名)、main_classcode(主分类号)、classcode_level(复分类号)作为统计分析对象,形成样本数据。鉴于title(题名)统计分析不方便,项目组应用专业切词软件将样本数据中的题名一一分解成若干个title_keyword(题名关键词),根据研究需要先后对主分类号、复分类号、题名关键词进行统计、分析和归纳。4 渔业专利文献的主题类型分析与分类类目设置4.1 渔业专利文献的主题类型分析将样本数据按main_classcode 分别统计4 位类目、6 位类目的出现频次,得到渔业专利文献的IPC 分布结果(表1)。表1 显示,10 323 篇文献分布在30 个4 位类目中。其中6 853 篇分布在A01K,占比达到66.39%;而剩下33.61%的文献零散分布在29 个类目中,每类分布文献量都在600 篇以下,最高的也只占5.57%。表1还显示,文献量>20 的6 位分类号有30 个,根据IPC的类目定义,其中属于渔业专类的分类号13 个(A01K 下11 个,A22C 下2 个),其余17 个是兼有渔业专利的其他行业的分类号。表1 对主要高频分类号所反映的渔业业务作了简明概括。根据表1 的文献量分布结果,若要对渔业专利文献进行有效分类,则除了要对照已概括的渔业业务设置类目外,还需要对A01K 类目下的文献作进一步的辨析与分类。4.2 A01K 类下专利文献的分类辨析表1 的6 位类号统计还显示,在A01K 的6 853 篇文献中,A01K61(鱼类、贻贝、蜊蛄、龙虾、海绵、珍珠等的养殖)4 207 篇,A01K63(装活鱼的容器)1 837 篇,A01K67(动物新品种饲养)195 篇,占比达91.04%;而A01K7\A01K8\A01K9(捕捞与钓鱼概念)的文献合计只有614 篇。A01K6 类下文献众多,如果将A01K6 类下文献简单标引为水产养殖,就相当于没有分类,从分类学基本要求与文献深度利用的要求考虑,有必要进一步分析A01K6 类的文献主题类型。表1 渔业专利文献按IPC 的4 位及6 位分布在样本数据中,选定的classcode_level 字段,按字段含有A01K6 进行筛选,获取含有水产养殖概念的部分数据,再统计与A01K6 同时出现的4 位复分类号频次,得到水产养殖类专利文献的复分类号的分布结果(表2)。表2 显示,与A01K6 共现的复分类号超过25 个,这些类号单独出现并不表达渔业概念,但他们与A01K6 组合使用后,分别表达了繁殖育种、水产饲料、病害防治、水处理、养殖设施以及养殖技术等方面的主题概念,也就形成了分析和划分水产养殖业务类型的依据。观察发现,A01K6 类的专利文献许多都标注了3~4 个复分类号,与其中某个复分类号的组合通常不能完全地和准确地表达主题概念,所以复分类号一般只能作分类分析参考,若作为专业化标引的依据则错误会较多。4.3 渔业专利文献专业化分类类目设置根据表1、表2 的专利业务类型分析,渔业专利主要为满足渔业生产活动的需要而产生,如围绕养殖、捕捞、加工形成的专利成为渔业专利的主体;而为满足科研活动及商业活动的需要如围绕水产科学实验、水产品质量检测、鱼类增殖保护以及水产品的包装、运输、储藏等也产生了一定数量的专利,这些专利构成了渔业专利的次要组成部分。如果以某类目专利文献量占渔业专利文献总量的比值大于1%作为设置分类类目的基本条件(即样本数据中单类文献量>100 篇),同时避免某类文献量占比>30%,则对渔业专利至少可以设置:捕捞&渔具、加工&产物、包装&运输&保藏、生物技术应用、实验&检测、繁殖育种、饲料配制、病害防治、水处理、养殖方式方法、养殖设施、其他等12 个分类类目。表2 与A01K6 共现的复分类号分布5 渔业专利文献的题名结构分析专利文献的题名相对科技论文的题名更简明,其结构简单、关键词少、更容易理解。如果对专利的题名关键词进行简单归纳,基本上可以归为3 类:一是行业属性词,二是业务类型词,三是发明类型词。举例见表3。通过词频统计分析,可以对这3 类关键词进行归纳。选定样本数据中的title_keyword(题名关键词)字段,应用专业词频分析软件对关键词进行词频统计,按词频从高到低排序,其中词频3 以上的词有2 089个,分别对这些词按渔业属性、业务类型、发明类型进行辨别与归纳,并判定其检索意义与标引意义,小结如下。5.1 渔业属性词渔业属性词通常为名词,表示业务工作的对象。表4 简明归纳了专利文献中的部分渔业属性词。渔业属性词大部分有明显的词根,可通过词根(如鱼、虾、蟹、渔、水产动物名等)检索即可判定为渔业文献,误检不会很多;但部分词根(如贝、网、池、塘等)的外延词部分反映渔业属性,部分涉及其他行业。渔业属性词是认定为渔业专利文献的基础,通常适用于检索渔业专利文献,只有少部分词能够用于标引专利文献。5.2 发明类型词发明类型词通常为名词,既有通用名词,也有具体的事物名词。表5 简明列举了渔业专利文献中的发明类型词。这类词常出现在题名的末尾,可以简明归纳为:方法技术、产品用品、设施设备、工具器具4类。典型的通用名词有:装置、方法、系统、设备、工艺、技术、工具、设施等,这类词不能单独用于检索和标引专利,但其与特定的名词或动词组合后,具有可靠的标引意义,如“采样装置”“排水系统”“标记方法”“测量工具”等。若题名的尾词是具体事物的名称,则该词隐含了发明类型,既具有检索意义,也具有标引意义,如“孵化器”“增氧机”“试剂盒”等。表3 渔业专利文献的题名结构表4 专利文献中的渔业属性词归纳表5 渔业专利文献中的发明类型词举例5.3 业务类型词业务类型词通常为名词或词组,表示在某类业务工作中应用的或形成的专利。表6 简明归纳了专利文献中的业务类型词,这类词数量最多,表现的方面也较多(如病害防治类有病原、病种、药物、防治方法等方面词,加工&产物类有原料、操作、制品、专用机械等方面词),少数有词根(如病、菌),大部分无词根,适用于判别专利的业务类型,是对专利文献进行标引的首要关键词。IPC 采用功能和应用相结合的分类原则分类[19],对于组织多行业的专利信息无疑是成功的。而从建设专业知识库的要求来看,从业务类型角度设置分类类目更能满足用户浏览、检索、统计分析等方面的使用需求。在3 类关键词中,业务类型词最适合专利文献的分类与标引,发明类型词可用于子类目的复分及检索辅助,渔业属性词一般只适用于行业属性的认定。5.4 题尾词组的统计分析题名中的尾词尤其是尾词组(通常由2~4 字组成)具有明确的业务属性,是分类标引最可靠的依据。如“投饲装置”既反映设施概念,也反映养殖业务,组合起来就反映养殖设施类型。“排污系统”既反映水处理概念,又反映设施类型,组合起来就反映水处理设施类型。笔者单独统计了题尾词组的词频,得到词频≥3 的词组340 个,其中能够清楚的反映业务类型的词组256 个。实践中,可以优先利用这些词组进行标引。6 渔业专利文献专业化标引的实现已检出的渔业专利文献,其行业属性已认定,在标引时不用再考虑渔业属性词,如果以业务类型为主线进行标引,则发明类型词一般也不用考虑(除少数兼具业务类型的词)。参考5.3 节、5.4 节归纳出的高频词,逐类逐个进行标引试验与检验,排除准确率低的标引词,排除无效的标引词,综合、简化后形成渔业专利文献专业化标引策略。本标引策略分4 步设计:首先考虑捕捞& 渔具、加工& 产物、包装& 运输&保藏这3 类,因为这3 类在IPC 有明确分类,而且其主题很少与其余各类交叉,必须采用分类号结合主题词的形式筛选和转换;其次考虑生物技术、实验& 检测这两类,因为这两类的主题词特色分明,用于判定业务类型相对准确,且与剩下其他类区别明显;第三步考虑繁殖育种、饲料配制、病害防治、水处理这4类,这4 类都属水产养殖大类,相互之间有一定交叉,有部分主题概念同时涉及几类业务;最后考虑养殖技术、养殖设施及其他,这部分往往需要利用词组来准确区分类型,有些只能靠人工来判定类型。标引试验结果详见表7。表6 专利文献中的业务类型词归纳7 对2016 年渔业专利文献标引结果的检验按表7 策略对样本数据进行机器标引,截取2016年的机标结果1 755 条,逐条进行人工标引检验,两相对照,统计机器标引不准确的以及漏标的数据,得出每一类的标引正确率及漏标率,检验机器标引的效果,结果见表8。表8 显示,2016 年专利文献合计有1 755 篇,机标文献1 840 篇次(有85 次为复标记录),机标综合正确率为91.44%,漏标率7.94%,如果不计算“其他”类的正确率与漏标率,则前11 类的综合正确率为92.41%,漏标率3.95%,大大超出了预期目标。总体看来,所设置的分类类目切合实际,标引策略具有很强的实践应用价值。表7 渔业专利文献专业化标引策略注:式中“MC:”表示在主分类号字段检索;“TI:”表示在题名字段检索;“+”表示逻辑“OR”;“*”表示逻辑“AND”;“-”表示逻辑“非”;总数据记录为10 323 条,总标引记录为10 893 次,部分数据有2 次或3 次复标记录,总复标记录570 次8 结语8.1 关于类目设置渔业专利文献的IPC 分类专题类目少,而且子类目繁杂无序,概念交叉现象较多,没有与行业特点结合起来,项目组在文献检索分析时认为有必要另行分类。前期考虑按中国水产科学研究院十大学科设置类目,但观察发现,专利主题有别于科技论文,其主题对象往往是一件物品或一种工具,它主要是满足生产活动的产物,并不具有明显的学科属性。如“循环水养殖保温棚”“一种太阳能鱼塘灭虫灯”这类专利,都不宜归属到学科。而且学科体系中的渔业资源、生态环境、经济信息类目在专利中极少有体现。实践中发现,每一个专利都是一种业务的需要或产物,以业务类型对专利文献进行分类是可行的方案,从行业内部来讲,这一分类方案优于IPC 分类。袁真富等[17]曾提出专利标引的维度可分为法律状态、产品线、技术效果、专利价值等,但从信息分析利用的角度来看,从业务类型这个维度的标引信息挖掘更深、标引的价值也更高,结果也契合张运良等[11]提出的可以从知识对象和知识要素角度组织专利文献的理论。8.2 关于标引方式的选择笔者在标引策略中,除捕捞& 渔具、加工& 产物、包装&运输&保藏主要采用IPC 分类映射到设定类目的方式,其他类目则主要采用了题名_ 关键词检索映射到分类类目的方式,经检验,这一方案是简明而且成功的。之所以还有误标、漏标现象,主要原因有三:一是原标注的IPC 分类号本身不准确,例如:分类号“A23B”表示“水产品保藏”概念,但其类下含有一部分加工概念的专利;二是部分关键词具有两类或三类的隐含意义,例如:“鱼糜”是加工产物、也是饲料原料,具有两类业务属性;“杂交”在题名中作为动词时反映“繁殖育种”业务,当在题名中以“杂交鲤”形式出现时更多反映“养殖技术”业务;三是单字检索外延溢出,有可能造成错误映射,例如“菌”,常见各种病原菌,映射“病害防治”,但也有“益生菌”这个低频词,本该映射到“饲料配制”;四是由于关键词不能完全列举,部分文献不得不使用主分类号映射补充。此外,“养殖设施”类正确率偏低以及“其他”类漏标率偏高,这是为避免关键词映射表达式过于复杂的特殊处理,对这两类的机器标引结果最后进行人工标引检查是必要的。表8 2016 年渔业专利文献标引结果的检验8.3 专业化标引的意义专利标引是专利数据库建设的重要环节,是进行专利信息检索、分析、获取竞争情报的基础和关键[20]。在专业化分类标引方面:日本专利数据库普遍应用了FI/FT 分类法[21],美国专利数据库应用了USPC分类法[22],欧盟则统一推行了CPC 分类法[22],中国也有部分行业应用CPC 进行了专利分类标引[23,24],但在行业专利标引的体系研究方面不够深入,缺少自创[25]。笔者是对行业专利文献按业务类型分类的一次有益尝试,初步解决了渔业专利分类的思路和方法问题。笔者的方法可推广应用于其他行业和其他文种的专利标引。例如医学专利标引,可通过全面检索医院和医学院的专利文献,获取一段时期医学专利的元数据集,进而分析得出医学专利的高频主分类号、复分类号,归纳出医学专利常见的业务类型,之后再统计各业务类型的题名关键词词频,分析得出各类的高频关键词集,最后设定以分类号结合题名关键词的检索匹配策略,实现专业化的标引。对于其他文种的专利标引,也可以采用相同的检索方法和统计分析方法。研究后期对渔业英文专利的标引过程也表明,对于国外的英文专利,仅选择获取元数据样本的专利服务平台不同,结果中的高频IPC 分类号完全一致,高频关键词大部分一致,标引策略中只要将关键词作适当调整即可。参考文献:[1]朱江岭.专利文献——信息时代的重要资源[J].图书馆学研究,1998(3):56-58.[2]雷燕.介绍因特网上的六个专利文献数据库[J].图书情报知识,1998(2):44-46.[3]朴京顺.浅谈专利数据库及专利文献检索[J].中国发明与专利,2011(9):63-65.[4]丁海燕.国际专利分类法与分类号[J].今日科技,1985(8):34-35.[5]张颖.国外网上两类文献分类浏览系统的比较分析[J].晋图学刊,2007(6):10-12,32.[6]马海群.网络环境下的国际专利分类法IPC 变革与发展[J].现代图书情报技术,2002(6):41-43.[7]朱新超,霍翠婷,刘会景.合作专利分类系统(CPC)与传统专利分类系统的比较分析[J].数字图书馆论坛,2013(9):38-44.[8]朱雅琛,黄非.CPC 分类体系:开创专利分类体系新纪元[J].中国发明与专利,2013(2):41-45.[9]周青.专利技术分类构建方法研究[J].科技情报开发与经济,2014,24(10):143-144.[10]孙艳玲,刘化冰,王海虹,等.深度加工标引的中国药物专利数据库[J].中国医药导刊,2008(1):22-24,26.[11]张运良,桂婕,朱礼军,等.中文专利深度内容标引规范研制[J].数字图书馆论坛,2008(11):18-21.[12]田创,赵亚娟.一种基于相似度的专利与产业类目映射模型——以《国际专利分类》与《国民经济行业分类》为例[J].图书情报工作,2016(20):123-131.[13]田创,赵亚娟.专利文献与产业类目的映射研究——以2015 年度中科院专利与《战略性新兴产业分类》为例[J].知识管理论坛,2017(1):26-35.[14]彭茂祥,徐勇.专利分类与产业分类对照关系构建及应用研究[J].科学管理研究,2017(5):32-35.[15]葛川,杨颖.煤化工产业专利信息服务平台建设研究[J].山西科技,2018,33(5):4-10.[16]张婷,贾晓峰,曹敏军.医学科技专利数据库的设计与实现[J].计算机与应用化学,2015,32(6):669-673.[17]袁真富,杨敬涵.专利标引维度及其应用研究[J].电子知识产权,2018(5):75-84.[18]国家知识产权局.IPC 分类查询[EB/OL].[2020-03-02].http://epub.sipo.gov.cn/ipc.jsp.[19]刘德馨,李有馥.国际专利分类法评价[J].情报科学,1993(4):20-27.[20]李宏芳,邹小筑.中国专利数据库标引质量测评[J].现代情报,2010(12):58-61.[21]李胤,冯刚,裴少平.浅谈F-term 分类系统及其在日本专利检索中的应用[J].科技情报开发与经济,2013,23(19):130-132.[22]刘艳廷,柴丽丽,刘会景,等.现行专利分类系统概述及其应用场景[J].中国基础科学,2019,21(5):58-62.[23]刘桂波.建筑给排水领域CPC 分类及其检索应用[J].中国发明与专利,2017,14(2):113-116.[24]何彦东,王妍,蒋碧珠.光化学领域CPC 分类系统应用初探[J].中国发明与专利,2014(8):114-117.[25]唐思慧,魏静雯.我国专利信息数据库建设原则与利用体系研究[J].图书情报工作,2012,56(11):60-64.

文章来源:渔业致富指南 网址: http://yyzfzn.400nongye.com/lunwen/itemid-5254.shtml


上一篇: 浅谈水产科技档案的管理及应用
下一篇: 教育理论与教育管理论文_学科类校外培训有了鉴别指南



点击在线投稿

 
/ / /
 
 
 
 

Copyright 2001-2021 400农业期刊网版权所有 做最专业学术期刊论文发表网站
本站不是《渔业致富指南杂志社》官网,如果需要联系官方杂志社,请联系客服索取网站或者电话。