您的位置：學(xué)術(shù)不端論文查重 > 學(xué)術(shù)不端檢測系統(tǒng)

產(chǎn)品中心

新聞中心

學(xué)術(shù)學(xué)術(shù)不端文獻(xiàn)檢測系統(tǒng)檢測原理詳解

http://www.gufuxuan.cn/發(fā)布時間：2020-11-05 14:37:58

? ?目前，很多大學(xué)的學(xué)位論文管理機(jī)構(gòu)和期刊編輯部都已經(jīng)配置了中國學(xué)術(shù)CNKI和中國學(xué)術(shù)期刊(光盤版)編輯部聯(lián)合開發(fā)的學(xué)術(shù)不端檢測系統(tǒng)(簡稱TMLC) ，用以對本校學(xué)生的學(xué)位論文和本刊投稿論文進(jìn)行學(xué)術(shù)不端檢測。本文對該系統(tǒng)作簡單介紹。

　　一、系統(tǒng)簡介

　　學(xué)術(shù)論文學(xué)術(shù)不端行為檢測系統(tǒng)由中國學(xué)術(shù)和中國學(xué)術(shù)期刊(光盤版)編輯部2008年12月底推出，2009年3月開始應(yīng)用。目前，已涵蓋上千家期刊編輯部，360多家高校，基本覆蓋了全國重點(diǎn)院校。到目前為止，光是研究生學(xué)位論文檢測，TMLC的檢測量就已達(dá)到了20萬篇次。

　　TMLC采用CNKI自主研發(fā)的自適應(yīng)多階指紋(AMLFP)特征檢測技術(shù)，具有檢測速度快、準(zhǔn)確率和召回率高、抗干擾性強(qiáng)等特征。不僅支持篇章、段落、句子的各層級檢測，也支持文獻(xiàn)改寫、多篇文獻(xiàn)組合等各種文獻(xiàn)的變形檢測。TMLC以《中國學(xué)術(shù)文獻(xiàn)網(wǎng)絡(luò)出版總庫》為全文比對數(shù)據(jù)庫，實現(xiàn)了對抄襲與剽竊、偽造、篡改等學(xué)術(shù)不端行為的快速檢測，可供用戶檢測學(xué)位論文、學(xué)術(shù)論文及著作等長文獻(xiàn)，并支持用戶自建比對庫。

　　對任意一篇需要檢測的文獻(xiàn)，系統(tǒng)首先對其進(jìn)行分層處理，按照篇章、段落、句子等層級分別創(chuàng)建指紋,而比對資源庫中的比對文獻(xiàn)，也采取同樣技術(shù)創(chuàng)建指紋索引。這樣的分層多階指紋結(jié)構(gòu)，不僅可以滿足對超長文獻(xiàn)的快速檢測，而且因為最小指紋粒度為句子，因此也滿足了系統(tǒng)對檢準(zhǔn)率和檢全率的高要求。理論上，只要檢測文獻(xiàn)與比對文獻(xiàn)存在一個相同的句子，就能被系統(tǒng)發(fā)現(xiàn)。

　　系統(tǒng)主要功能包括已發(fā)表文獻(xiàn)檢測、論文檢測、問題庫查詢、自建比對庫管理等。其中，已發(fā)表文獻(xiàn)檢測，指檢測系統(tǒng)能夠自動將屬于用戶的已正式發(fā)表的論文檢索出來，并對每一篇已發(fā)表文獻(xiàn)進(jìn)行實時檢測，快速給出檢測結(jié)果;論文檢測，主要實現(xiàn)論文的實時在線檢測;問題庫查詢，指用戶可以將檢測結(jié)果中確認(rèn)有問題的文獻(xiàn)放入問題庫，便于用戶集中管理;自建比對庫，指管理人員可以選擇將檢測文獻(xiàn)放入個人比對庫或者批量上傳文獻(xiàn)作為個人比對庫，該個人比對庫即可作為以后學(xué)術(shù)不端文獻(xiàn)檢測的比對數(shù)據(jù)庫。

　　TMLC的目的是輔助各研究生培養(yǎng)單位對學(xué)位論文質(zhì)量進(jìn)行評估，為審查論文提供技術(shù)服務(wù)。檢測系統(tǒng)在對論文進(jìn)行檢測之后，生成檢測報告，為判斷論文性質(zhì)提供相關(guān)依據(jù)。

b4a491a7e47e5cb50e75100f8688129d_u=4107004594,3278299886&

　　在對用戶提交的檢測文獻(xiàn)檢測之后，系統(tǒng)生成的檢測結(jié)果包括:

　　1)重合文字來源文獻(xiàn)信息。系統(tǒng)詳細(xì)列出重合文字來源文獻(xiàn)信息，這些文獻(xiàn)都是真實存在，而且應(yīng)是公開發(fā)表或得到發(fā)表確認(rèn)的。

　　2)比對信息。檢測文獻(xiàn)和來源文獻(xiàn)的詳細(xì)比對信息，用戶可以快速選擇重合文字部分查閱。

　　3)總檢測指標(biāo)。該指標(biāo)體系從多個角度對檢測文獻(xiàn)中的文字復(fù)制情況進(jìn)行了概括性描述。

　　4)子檢測指標(biāo)。因為學(xué)位論文一般較長，因此，系統(tǒng)一般按章檢索，并且每一章給出子檢測指標(biāo)，該檢測指標(biāo)從多個角度對該章內(nèi)容的檢測情況進(jìn)行詳細(xì)描述。

　　5)診斷類型。系統(tǒng)根據(jù)指標(biāo)參數(shù)以及其他元數(shù)據(jù)相關(guān)信息，自動給出一個預(yù)判的診斷類型，供審查人員參考。

　　6)檢測報告。檢測系統(tǒng)自動生成一個檢測報告單，詳細(xì)列出檢測文獻(xiàn)的學(xué)術(shù)不端行為檢測情況，用戶可以對該報告單進(jìn)行修改，生成終審報告。系統(tǒng)只對疑似存在學(xué)術(shù)不端行為的論文生成檢測報告。

　　二、檢測原理

　　CNKI目前已經(jīng)擁有具有國際或國內(nèi)領(lǐng)先水準(zhǔn)的全面的數(shù)字出版相關(guān)技術(shù)，包括資源采集技術(shù)、文本數(shù)據(jù)庫加工技術(shù)、文本數(shù)據(jù)庫技術(shù)、數(shù)字資源版權(quán)保護(hù)技術(shù)、知識挖掘技術(shù)、自然語言處理技術(shù)、快速比對技術(shù)等。上述技術(shù)是在海量的全文數(shù)據(jù)基礎(chǔ)上實現(xiàn)快速準(zhǔn)確檢測的基本保證。

　　TMLC需要一個盡可能完備的全文數(shù)據(jù)比對資源庫，而CNKI的《中國學(xué)術(shù)文獻(xiàn)網(wǎng)絡(luò)出版總庫》正好滿足這一要求。在收錄資源種類.上，CNKI在國內(nèi)具有明顯優(yōu)勢，收錄了期刊、學(xué)位論文、會議論文、報紙、年鑒、工具書、專利、外文文獻(xiàn)、學(xué)術(shù)文獻(xiàn)引文等與科學(xué)研究、學(xué)習(xí)相關(guān)的主要資源。在資源收錄數(shù)量上，CNKI明顯優(yōu)于同類產(chǎn)品，各個資源庫收錄年限長，期刊等主要資源庫回溯到創(chuàng)刊。在資源更新速度上，CNKI產(chǎn)品除了第三方合作的外文文獻(xiàn)以外，其他資源都做到了日更新，單日更新數(shù)量大，這是推行產(chǎn)業(yè)化、標(biāo)準(zhǔn)化運(yùn)作的結(jié)果。

　　到目前為止，CNKI擁有學(xué)術(shù)期刊7 000余種，期刊全文文獻(xiàn)2480萬篇，文獻(xiàn)收錄完整率大于99.9%，文獻(xiàn)量居國際國內(nèi)同類產(chǎn)品之首;出版503家碩士學(xué)位點(diǎn)的72萬篇優(yōu)秀碩士學(xué)位論文，368家博士學(xué)位點(diǎn)的9.6萬篇博士學(xué)位論文; 1 286種重要會議論文106萬篇; 515家重要報紙500多萬篇; 1 376種重要年鑒787萬篇; 600多種工具書220多萬條;學(xué)術(shù)引文索引數(shù)據(jù)600多萬條。這些出版物平均日更新2萬條記錄。另外，出版平臺還集成整合出版了各類第三方數(shù)據(jù)庫資源1020種。

　　學(xué)術(shù)不端行為檢測系統(tǒng)采用的指標(biāo)體系分為兩個部分:總檢測指標(biāo)和子檢測指標(biāo)。

bb7e6af548542243bb4f80f834a2d537_u=1357227498,327335985&

　　1.總檢測指標(biāo)

　　包括總重合字?jǐn)?shù)(CCA)、總文字復(fù)制比(TTR) 、總文字?jǐn)?shù)(TCA)、疑似章節(jié)數(shù)(QCA)、總章節(jié)數(shù)(TCA)、首部重合文字?jǐn)?shù)(HCCA)、尾部重合文字?jǐn)?shù)(ECCA)。這些指標(biāo)從整體上描述了論文的檢測情況，便于用戶快速了解該論文總的檢測概況。

　　1)總重合字?jǐn)?shù):學(xué)位論文一般篇幅大，少則3~ 5萬字，多則十多萬字，若以文字復(fù)制比來衡量一篇論文的文字重合情況，則不太合適。如一篇十幾萬字的博士論文，10%就已達(dá)到1萬字，文字復(fù)制情況已經(jīng)非常嚴(yán)重。因此，對于博碩士論文檢測，檢測系統(tǒng)使用絕對字?jǐn)?shù)即總重合字?jǐn)?shù)作為檢測結(jié)果的核心指標(biāo)。

　　2)總文字復(fù)制比:總文字復(fù)制比是指論文中總的重合字?jǐn)?shù)在總的論文字?jǐn)?shù)中所占的比例。通過該指標(biāo)，可以直觀地了解到重合字?jǐn)?shù)在該檢測論文中所占的比例情況。

　　3)總文字?jǐn)?shù):總文字?jǐn)?shù)是指該檢測論文所有包含的字?jǐn)?shù)，文字復(fù)制比與總文字?jǐn)?shù)的乘積即為重合字?jǐn)?shù)。

　　4)疑似章節(jié)數(shù)、總章節(jié)數(shù):疑似章節(jié)數(shù)是檢測論文疑似存在學(xué)術(shù)不端行為的章節(jié)的數(shù)量;總章節(jié)數(shù)則是指學(xué)位論文總的章節(jié)數(shù)。

　　5)首部重合文字?jǐn)?shù)、尾部重合文字?jǐn)?shù):首部重合文字?jǐn)?shù)指論文前1萬字中重合的文字?jǐn)?shù)量;尾部重合文字?jǐn)?shù)是指除去前1萬字，剩下的部分中重合的文字?jǐn)?shù)量。對于學(xué)位論文，一般開頭部分均是綜述性的介紹，其重要性遠(yuǎn)低于論文尾部。

　　2.子檢測指標(biāo)

　　對于一篇論文，每一章的內(nèi)容各異，重點(diǎn)也不一樣，其核心內(nèi)容一般存在于某幾章中，子檢測指標(biāo)可以讓用戶迅速了解每一章節(jié)的檢測情況。子檢測指標(biāo)包括:文字復(fù)制比(TR) 、重合字?jǐn)?shù)(CNW)、最大段長 (LPL) 、平均段長(APL) 、段落數(shù)(PN)、段文字比(PR) 、首部復(fù)制比(HR) 、尾部復(fù)制比(ER) 、引用復(fù)制比(RR) 。這些指標(biāo)從多個角度反映了檢測文獻(xiàn)的檢測情況，便于用戶進(jìn)行針對性審核。

　　1)文字復(fù)制比:若用戶提交的論文是Word格式，檢測系統(tǒng)會自動識別論文章節(jié)，按論文實際章節(jié)信息顯示論文內(nèi)容。若論文不存在明顯的章節(jié)信息，或非Word格式，則系統(tǒng)按照每段1萬字符自動切分學(xué)位論文，并按切分后的結(jié)果顯示。文字復(fù)制比即指論文的某-章節(jié)與比對文獻(xiàn)比較后,重合文字部分在該章節(jié)中所占的比例。比例越高,反映該章節(jié)越多的文字來自于其他已發(fā)表文獻(xiàn)，存在學(xué)術(shù)不端行為的可能性越大。

　　2)重合字?jǐn)?shù):重合字?jǐn)?shù)指論文章節(jié)與比對文獻(xiàn)比較后，重合部分的字?jǐn)?shù)。一般來說，不管文字復(fù)制比如何，重合字?jǐn)?shù)越多，存在學(xué)術(shù)不端行為的可能性越大。

　　3)最大段長、平均段長、段落數(shù):在論文檢測中，當(dāng)連續(xù)文字超過一定比例時，稱之為段。在本系統(tǒng)中，一般認(rèn)為，連續(xù)200字以上即為段。與比對文獻(xiàn)重合的最大段長度即為最大段長。最大段長反映成段抄襲特征。連續(xù)的文字越長，抄襲的可能性越大。

　　在學(xué)位論文中，所有段的長度平均值即為平均段長，所有段的數(shù)量為段落數(shù)。平均段長和段落數(shù)反映了重合文字在學(xué)位論文中的分布情況。一般來說，指標(biāo)參數(shù)越高，存在學(xué)術(shù)不端行為的可能性越大。

be10ef0f84fa83d6f08df57875115a15_u=1599606406,56340171&f

　　4)段文字比:在論文的某一章節(jié)中，所有該章節(jié)文字重合段的字?jǐn)?shù)之和占該章節(jié)文字?jǐn)?shù)的比例為段文字比。段文字比反映了抄襲的連續(xù)特征。一般來說，連續(xù)文字出現(xiàn)越多，比文字分散出現(xiàn)時更可能存在學(xué)術(shù)不端行為。

　　5)首部復(fù)制比、尾部復(fù)制比:論文某一章節(jié)的前20%稱之為章節(jié)首部，首部的文字復(fù)制比為首部復(fù)制比。就中文文獻(xiàn)來說，一般每一章節(jié)正文開頭部分出現(xiàn)的是綜述性語言，重要性相對偏低。后80%稱之為章節(jié)尾部，尾部的文字復(fù)制比為尾部復(fù)制比。通常情況下，尾部文字內(nèi)容重要性比前部文字要高。尾部文獻(xiàn)是闡述自己研究工作的目的和意義，應(yīng)該是作者個人工作的體現(xiàn)。在這部分直接抄襲他文,性質(zhì)要嚴(yán)重得多。

　　6)引用復(fù)制比:引用復(fù)制比指與存在引證關(guān)系的文獻(xiàn)的文字重合部分的比例。對于學(xué)位論文來說，存在引|證關(guān)系與不存在引證關(guān)系的復(fù)制部分應(yīng)區(qū)別對待。復(fù)制了他文內(nèi)容，而不注明引用，性質(zhì)要更，加嚴(yán)重。同時，不是所有的注明了引用的就不存在抄襲，引用也應(yīng)有一個度和范圍的限制。

　　在每一次檢測過程中，該系統(tǒng)將待檢論文首先按照篇章、段落、句子等層級分層處理，然后創(chuàng)建指紋，而比對資源庫中的比對文獻(xiàn)，也采取同樣技術(shù)創(chuàng)建指紋索引。通俗來說，就是將論文和數(shù)據(jù)庫進(jìn)行比對，根據(jù)其重合的比例，判斷該論文是否存在抄襲行為。

　　在國際上，為應(yīng)對近年來頻頻發(fā)生的學(xué)術(shù)丑聞，由國際出版鏈接協(xié)會(PILA) 牽頭、數(shù)家全球出版集團(tuán)共同參與實驗的一個世界范圍內(nèi)防止學(xué)術(shù)剽竊的功能性的國際項目CrossCheck已經(jīng)開始實施。它由于具有保護(hù)原創(chuàng)作者的著作權(quán)、嚴(yán)正學(xué)術(shù)道德、杜絕學(xué)術(shù)剽竊等功能，一舉贏得2008年度全球最佳出版創(chuàng)新獎。國內(nèi)已有學(xué)術(shù)期刊加入這個計劃，并開始把它作為學(xué)術(shù)審稿的“第三只眼睛”，取得了良好的效果。從趨勢上看，在全球范圍內(nèi)加強(qiáng)合作，打擊學(xué)術(shù)不端,將最大限度地遏制學(xué)術(shù)腐敗的產(chǎn)生。

?以上就是關(guān)于“學(xué)術(shù)學(xué)術(shù)不端文獻(xiàn)檢測系統(tǒng)檢測原理詳解”了，想了解更多怎樣查重論文的知識，請持續(xù)關(guān)注學(xué)術(shù)不端論文查重網(wǎng)，學(xué)術(shù)小編會為大家收集更多的學(xué)術(shù)論文知識哦。

如何識別論文檢測學(xué)術(shù)不端行為？

在學(xué)術(shù)查重時出現(xiàn)學(xué)術(shù)不端的四種新情況

狠狠综合久久久久尤物丿,一本色综合久久,潮喷大喷水系列无码久久精品,欧美日韓性视頻在線

產(chǎn)品中心

新聞中心

學(xué)術(shù)學(xué)術(shù)不端文獻(xiàn)檢測系統(tǒng)檢測原理詳解

推薦資訊