工程项目查重系统的相关应用分析

吴彬 杨振兴 郭芳琳 唐笑梅。

摘 要:随着社会经济的不断发展,科学技术也在不断创新完善。加强工程项目查重系统的建设,建立相应的数据库,以全面加强工程项目质量检验工作就需要加强工程项目查询系统的建设,而且能够结合现代化技术不断完善查询系统,从多个角度、多个方向实现差异化的质量控制,以全面提高工程项目建设的质量,提升其实际的应用效果。因此,着重探究了如何借用現代化技术不断完善工程项目查询系统,并结合实际应用中存在的问题进行创新和发展,全面提高工程项目查重系统的稳健性。

关键词:工程项目;查重系统;应用分析。

引言。

如今这个信息膨胀的时代为信息共享提供了一个良好的环境。从一个角度来看,信息技术使得工程项目的质量得到有效的提高,但从另一个角度来看却是难以保障科研项目资源的安全。在工程项目建设的过程中出现了大量的相似信息,为了全面加强这些信息的管理工作,在实际的应用中要想能够准确并快速的找到相应的内容,则需要建立相应的查重系统。自助查重系统能够结合信息技术以及时判定工程项目与现有数据库中的信息是否存在大量相似的部分,及时检测出相似的部分,从而在后期能够为工程项目工作提供指导性的意见,确定研究方向和研究重点。

一、研究现状。

我国已逐渐意识到加强工程项目查询系统建设的必要性和重要性,因而逐渐加大了资金投入。而国外对于工程项目查询系统并没有相关的研究,但在部分文献中提出了关键字提取、相似计算等观念;国外也并没有提出构建查重系统的概念,而是借助向量空间模型来计算向量之间的相似度,从而计算文本间的相似度。向量空间模型是基于统计学衍生出来的计算相似度的方法,其最大的优势在于计算的效率相对较高,实用性很强。但在向量空间模型的实际应用过程中,为了提高使用效率的需要有一个庞大的数据库作为支撑。而这种单一的计算方式难以加强项目工程整体的相似度检测,正如在一篇文章的查重中只能通过汉字来查重,难以综合文章的语义和词语近义词、文体等多个方面来实现系统查重,而这样的查询方式已经无法满足现阶段工程项目查重的要求。例如,在文章查重当中,首先要加强文本内容相似度的检验,同时综合考虑到词语、句子和段落之间的联系,以借助更为复杂、难度更大的查重系统全面提高查重的准确率,而这也是未来工程项目查重系统发展的趋势。我国在这方面的研究起步相对较晚,但在实际的查重系统建设过程中结合了先进的思想和理念,不断完善工程项目查询系统;同时,综合利用了我国的先进技术,在建立向量空间模型的同时,扩大了工程项目查重的范围,除了名称、内容、技术指标等各个方面之外,把更多的注意力放在了项目内容相似度的检测上,通过加权平均以获得最终的检测结果。而大数据也为工程项目系统查重工作提供了有效的帮助,通过数据挖掘以获取相关的项目信息,在修正的过程当中全面提高查重结果的准确性。但现阶段,我国工程项目查重系统建设中,由于信息共享度相对较低,存在着查重的范围相对小,查全率不高等弊端。

二、项目查重的含义。

工程项目的建设过程中,为了全面提高其实际的效果和质量,以达到实际的研究需求,避免重复研究的现象发生,构建工程查询系统,以加强信息公开,实现资源的统筹规划,从而保证工程项目能够公正公平地开展,同时能够充分突出其实际的服务效能。通过项目查重加强数据信息的监测,全面了解项目研究状况和成果产出情况,为后期的项目申请等相关工作提供有效的参考以避免重复申请、重复研究的现象发生,以尽可能地利用现有的资源全面提升工程项目研究的质量。对于同一主题的项目在实际的研究过程中,相应的工作人员可以从基础前沿、关键性技术,以及应用示范等各个方面出发,其中包含了多个布局项目。为了加快研究的进程,在实际的研究过程中还会出现多个队伍从不同的路径去研究,因而研究活动存在交叉现象。而为了有效避免这些不同的技术路线出现相同的申报项目,应通过建立项目查重系统有效避免在工程项目工程开发过程中出现重复的现象。因而在项目查重过程中,则需要加强项目名称、申请者研究内容等相关信息的检测。虽然这样的项目查重难以完全避免重复立项的现象发生,但是其建立的综合项目目标、内容和技术路线为项目的后期研究和发展提供相应的决策支持,通过比较可以实现择优。因而,在项目查重工作开展的过程中,首先要结合查重的目标,选择相应的查重样本库,从而通过相似计算来设定阈值,将查重的最终结果和阈值进行比较检验,并显现出项目工程的相似度和相似文本。项目查重的流程如图1所示。

三、工程项目查重系统设计。

(一)功能结构。

工程项目查询系统的设计过程中,首先要从功能结构和功能需求两个方面出发,全面提高查重系统的实用性,同时达到实际的应用需求。在工程项目查重过程中要能够充分利用现有的资源优势,借助互联网加强项目申请书、工程报告项目成果等信息的收集和处理。为了全面提高项目的查全率,在实际的建设过程中则需要结合多个部门共同研究通过系统查重分析,以挖掘具有一定关联性的信息源,通过相似性的检测,全面加强文本内容分析,为相关工作人员提供更加专业系统的服务,使得工程项目能够稳定开展,同时能够有效避免出现多头分散立项和重复研究的现象发生。在项目查重系统的建设过程中,首先要加强系统功能设计,充分考虑到用户的实际需求,在做好样本库管理的同时,做好检测管理和系统管理等相关模块,以全面提高项目查重系统的有效性。查重系统功能结构如图2所示。

(二)功能需求。

工程项目查询系统的建设过程当中,除了加强相似性的对比之外,还需要结合具体的项目数据来实施相应的查重工作。在项目查重工作中,可以通过对申请书内容的比较重,也可以结合工程报告和工程成果等相应的资源进行综合性的相似度对比,通过全面的对比以及时挑选出立项重复的结果,筛选出题目相同、报告内容相似度较高的项目。而且以元数据为基础,通过搜索申请人或机构所提供的信息和数量,结合现有的元数据字段进行综合性的检索,初步了解并判断工程项目出现重复申报的概率。针对出现的不同状况,在项目查询系统的实际应用过程中,则需要通过进一步的查重,全面提升查重系统的使用效果。对于部分项目名称、承担机构或申请人相同的项目,则需要通过对申请书内容相似度的检测以确定是否出现重复。而对于申请人相同、项目名称不同的工程项目则需要进一步加强对申请书内容,申请时间和申请机构的相似度检验。综合考虑到项目名称、项目内容以及相关技术在项目查重中所占的比重,通过加权的方式来计算项目工程整体这相似度。综合不同的功能需求,在项目查重系统构建过程中,还需要加强对工程报告和成果的相似度检验工作,通过有效的审核,以借助丰富的信息支持全面提升工程项目查重结果的准确性。因而,在功能模块设计的过程中需要结合详细的功能需求实现工程项目某一方面的查重或者综合型的查重

四、系统基本构架。

(一)体系结构。

工程项目查重系统体系结构可以分为数据层、业务逻辑层和表现层等三个不同的部分。其中,数据层又包含了项目库报告库和成果库等不同的内容;业务逻辑层主要是通过分词和特征词的提取建立知识表示模型,从而通过相似度的计算来确定重复率;表现层则是通过项目信息检索,通过相似性检测,全面加强系统管理工作。而表现层主要是面向相应的工程管理机构和相关人员,以结合不同用户的特点和不同需求提供个性化的服务,以方便相关人员来查询基本的信息,实现基础服务的比对,同时还可以实现大数据的立项查重

(二)工作流程。

工程项目查询系统构建过程当中,为了全面提高工程项目相似性分析结果的准确性,首先要加强对现有信息资源的处理工作,通过工程项目申请书的预处理,做好关键词和特征的提取。因而在特征词的提取过程中,首先要去掉语气词,助词,连词等,选择更具有针对性和代表性的词汇作为特征项。为了保证下一步工作能够顺利开展,在提取好特征词后,则需要构建相应的表示模型,结合样本库构建完整的知识表示模型。在项目工程检测的过程中,首先利用相应的知识模型来实现初步的检测,借助相似计算模块来完成带测模型与样本库的模型相似计算,将计算所得的结果与判别模块中的阈值进行综合的对比和分析,从而确定是否超出阈值,是否出现相似的情况。

五、实际应用和技术分析。

(一)层次聚类。

工程项目查重系统构建过程当中,仅依靠传统的查重方式难以保障工程项目评审的准确性和科学性。而借助层次聚类这一方式通过有效的聚类分析,将相应的项目文本划分为不同的簇,通过簇内比较和簇间比较,全面加强文本分类。聚类分析包括了划分法、层次法、K邻近法等多种方式。而通过层次聚类以全面加强文本相似度的计算工作,结合项目本体建立相似计算模型,综合利用最小二乘法、最大似然法等相应的技术,提升文本相似度,计算结果的准确性。而在项目聚类的过程中可以利用粒度的概念,通过平衡迭代来选取阈值,建立文本相似度的取值曲线,并使用最小二乘法来进行拟合求出曲线的拐点,将其作为阈值,在减少计算步骤或迭代次数的同时,以全面提高层次聚类结果的准确性。在工程项目查重过程中,可以借助层次聚类的方法,通过对层次树的搜索来选取不同的阈值,从而在不同的粒度上实现不同相似度的项目查重。层次聚类的应用还可以借助prefuse的主题知识图谱系统框架来实现关键词的提取和分析,使得工程项目查重工作能够更加智能化。

(二)非分词技术。

工程项目查询系统构建过程当中,借助非分词技术以充分利用Ukkonen算法思想,以构建后缀树,结合工程项目的申请书等基础信息来不断完善后缀树。通过利用charm算法来找出后缀树的节点,构成相应的集合,利用该集合来构造向量空间模型,以此实现对工程项目工程的查重工作。在分词技术的实际应用中,主要是借助相应的算法来构造一个树,通过对树枝整体的分析和判断,以做好特征提取和筛选工作,利用非分词技术实现工程项目查重。而在实际的应用过程中,则需要做好特征点的选取工作,可以借助支持向量机来构建数学模型,计算特征权值。而在相似计算过程中,可以借助欧式距离和余弦相似度实现计算,提高相似计算的准确性。在特征提取的过程中可以借助中文分词的方法全面加强工程项目内容的查重工作。而在具体的操作过程中,可以通过字典分词法、统计分词法和混合分词法来进行分词处理,从而构建中文文本向量空间模型。在重复系统构建过程中,并非资料越多越好,因而在非分词技术的实际应用中还需要加强数据信息的筛选,通过有效的筛选与挖掘潜在的关联规则,从而构建频繁闭项集,选取工程项目工程内容中富含有特征的点。大数据挖掘为工程项目查重工作也提供了新的思路和方法,而在实际的应用过程中,则需要加强现有方法和基本信息的整合工作,以借助多元信息整合方法來构建相应的模型。因而,在工程项目查重系统构建中要充分利用现代化的技术,综合使用现代科学技术,加强创新,全面提升工程项目研究的质量。

结语。

总之,加强工程项目查重工作能够充分借助大数据和信息技术的优势全面加强技术的创新,为工程项目研究工作提供有效的指导。科研工作具有很强的复杂性,正如在查重过程中存在相似计算难、查重系统复杂等多方面的状况。在实际的工作过程中,需要综合考虑到信息分布的不均匀性和获取的局限性等众多客观因素的影响。在未来的发展过程中,还需要全面加强工程项目技术指标、路线的查重,结合人工智能,提升工程项目查重结果的准确性和有效性,从而为工程项目研究方向和发展方向提供指导性的建议。

参考文献:

[1]  周育忠,陶秀杰,张自锋,等.工程项目查重系统在企业中的实践应用[J].河南工程,2019,(28):32—35.

[2]  政和工程股份有限公司.一种工程项目自动查重方法及系统[P].2019—06—11.

[3]  黄思颖,蔡桂兰,徐凯,等.基于SolrCloud的分布式工程项目查重系统[J].工程管理研究,2018,38(7):236—242.

[4]  张新民,张爱霞,郑彦宁.工程项目查重系统构建研究[J].情报学报,2016,35(9):917—922.

[5]  李善青,邢晓昭,杜圣梅.工程项目查重方法研究综述[J].工程管理研究,2018,38(6):197—201.

0 次访问