论文查重率其实是看论文里有多少内容跟别人已经写过的或者其他资料重复,然后用这个比例来衡量这篇文章原创性怎么样。知网、维普、papertime和paperfree这些系统,是常见的查重工具。计算查重率的时候,有两种基本方法:一种是按字符数算,把重复的字符数除以总字符数再乘以100%;另一种是按词数算,把重复的词数除以总词数再乘以100%。具体怎么算呢?就是先把数据收齐,然后分词处理去比对一下。系统会用一些算法,比如余弦相似性、Jaccard相似系数,还有词频-逆文档频率之类的,来判断哪些地方是相似的。这个过程就好像是把论文拆成句子、段落或者连续的字符段,然后跟数据库里的资料一一对比。不同的系统规定可能不一样,有些是连续几个字相同就算重复,有些对引用的部分有特别的处理方式。最后报告里会把查重率还有具体重复的内容都列出来。