查重是一個匹配的過程,是以句為單位,如果一句話重復了,就很容易判定重復了。以查重軟件知網為例:中國知網CNKI學位論文檢測系統TMLC/VIP,其運作模式是將論文電子版輸入電子數據庫,然后數據庫會根據現有的所有存在的知網的或者網絡上的電子數據進行匹配,軟件檢測到如果有13個相同的字,就認為是雷同。
論文查重的標準:
1.學術不端的各種行為中,文字復制是最為普遍和嚴重的,論文檢測系統查重百分比只是描述檢測文獻中重合文字所占的比例大小程度,并不是指該文獻的抄襲嚴重程度。只能這么說,百分比越大,重合字數越多,存在抄襲的可能性越大。是否屬于抄襲及抄襲的嚴重程度需由專家審查后決定。有一個句子相似性的算法。并不是句子完全一樣才判斷為相同。句子有句子級的相似算法,段落有段落級的相似算法,計算一篇文獻,一段話是否與其他文獻文字相似,是在此基礎上綜合得出的。
2.論文查重檢測系統不下結論,是不是抄襲最后還有人工審查這一關,所以,如果是您描述的這種情況,專家會有相應判斷。我們的系統只是提供各種線索和依據,讓人能夠快速掌握檢測文獻的信息。比如像知網論文檢測的條件是連續13個字相似或抄襲都會被紅字標注,但是必須滿足3里面的前提條件,即你所引用或抄襲的A文獻文字總和在你的各個檢測段落中要達到5%。