快捷搜索:

ROST反剽窃(学术不端行为检测系统)系统说明

  ROST反剽窃(学术不端行为测试系统)系统描述

  ROST反剽窃(学术不端行为检测系统)系统说明
我们现在已经把这个软件交给有关人士进行社会服务。
网址:www.fanpq.com
我们将重点研究反剽窃中的一些新的技术问题>近期研究:力争在近几个月内为学生推出免费的网上反剽窃服务,积极主动地防范剽窃。
最近更新! (2009.04.13)
1.增加第二次测试时混合英语,减少误报。
2.添加一个链接单元格,当点击测试表单时,切换到浏览器页面时,可以高亮显示所有抄袭的文本抄袭文档3.增加了自动升级功能
给服务器上的压力,目前不提供学生测试服务,免费向单位测试用户和大学教师开放,与本文档覆盖的其他系统80%以上不同,系统通过混合引擎覆盖188亿个网页和490万篇论文,建议用户使用多套系统测试文件。反剽窃系统是一种信息处理系统,其结果相似性给出比源文件和目标文件相似。武汉大学信息管理学院副教授(避免过于敏感或有时称为相关检测工具)开发的ROST文档相似度检测工具可以有效检测出类似于论文的剽窃,经过六年的研发(早期版本被称为克星的克星)终于推出了6.0版本,在设置过程中得到了武汉大学教授和专家的一些建议。目前已有约20个单位投入使用,反应良好,在一定程度上杜绝了剽窃论文的发表。
中国学术期刊网络出版发行中国学术剽窃, JCDL 2009.6(数字图书馆顶级国际会议)
>数字时代与人才培养国际研讨会在第二届期刊出版业领域的应用与发展--ROST反剽窃系统2008.11
信息指纹信息与研究二次系统Hashtrie,EGTA 2008,EI,2008.9
反剽窃监测系统模型研究(Wisa2007)武汉大学自然科学学报Vol.12 NO.5,9pt.2007,937-940 Springer Publishing <抄袭和反剽窃m反对中国教育网2008.9
基本原理:反剽窃软件将文档自动剪切成多个50-200个字(可定制),一个模糊文字匹配18.8亿个网页和4.9万个文档通过混合引擎,表明每个文本块与文档库中的一些文档之间的最大相似性。本软件统计相似度≥95%(基本完整抄袭)与相似度≥80%(略有改动抄袭)字数占总字数的比例。我们用这个比例来衡量剽窃(相似性)。系统需要XP系统,word2003环境。 ü覆盖范围,约188亿个网页和490万个纸张通过混合引擎覆盖。该系统使用自主开发的ROST WebSpider和ROST SEAT算法来实现Internet和一些周期性网络的广度。
模糊检测,灵活匹配,以防止复制品替换部分字符,删除一些标点符号,与系统相似性判断。该系统采用自主开发的ROST相似算法实现高速相似度检测和测量。系统自主研发的青青算法提取指纹信息,P3,512MBPC,分词速度13MB / S,已经在互联网评测版上提供了行业评测。软件检测结果只能作为参考,可以用表格右键导出详细的检查结果来检查自己,不管抄袭软件是否不做这个结论,而是告诉你现存的文献相似度高于80%,文章总数的比例是多少。相似度高于80%的文本需要注意。低于这个值可以完全忽略。 ü规范引用和引用删除,减少误报的可能性。
ü自定义块检测机制,每块文本文件和其他文件都是相似的精确表示出来的,每块文本大概有50个字符到200个字符不等(可以从定义中),红色极其相似(相似度大于80%),一目了然,醒目醒目。当设置为50个单词时,可以在较低的信息粒度下找到剽窃或类似的文档。 ü跟踪模块的类似文件,可以将文件定位直接类似于已被复制或复制的简单操作并直观理解。 ü结果分析,自动文件相似度分析结果,评价意见。支持多种文件格式,包括PDF,DOC,PPT,XLS,TXT等文件。 ü专有数据文件保存,不需重复测试,浪费时间。 ü这种反剽窃制度的缺陷不能覆盖英国文学中的所有世界,关于与召回率有关的问题的覆盖面,我们正在研究中。 ü稍长一些的检测,软件检测每200个单词需要7秒,一个8000字的文档至少需要5分钟左右,需要一点耐心。
ü这个软件是检测结果存在的一个小错误,通过检测一个较小的文件块,可以减少错误,但是所需时间会增加,之后我们试了一些例子在编辑部中,200字的大小更合适,此时错误率是可以接受的,文件相似度一般比实际低。在试用版中为了最大限度地检测各种不同学科最相关的文件,软件在某些情况下存在误判的可能性,此时用户可以通过两个参数调整设置以获得不同的相似度指标结果。如果是正式使用,请联系我们调整参数,将系统调整到更严格的匹配,后面我们会进行软件升级和不同学科的分配。 Manber
亚利桑那大学1993年提出的近似索引概念是衡量字符串文件之间的相似度,这个想法后来很多类似的系统用过的。 1995年,斯坦福大学的Brin和Garcia-Molina在数字图书馆项目中提出了COPS系统及相应算法,为反剽窃系统奠定了基础。香港理工大学的Si和Leong使用统计关键词建立了CHECK原型来测量文本相似度,并首次将文档结构信息引入到文本相似性度量中。在2000年,Monostori使用后缀向量在后缀树搜索字符串之间存储了最大的子字符串,并建立了MDR原型。目前,Turnitin在90多个国家提供反剽窃服务。网页数量超过66亿,拥有650万用户,支持全球四大电子学习平台 - 黑板,WebCT,Moodle,天使。 (200,610,166,577.5)或反剽窃的方法申请专利许可,申请基于2006.5.16的反剽窃计算机网络和/或反剽窃监测方法(200,610,019,074.5)转载文档检出率2006.12.31授权
相关软件工具
ROST webspider,ROST全文检索,ROST SearchEngine分析工具,ROST WordParser,ROST WordFrequency约20如小工具或软件的模型,目前约有10,000个互联网网站提供下载
http://hi.baidu.com/whusoft/blog/item/76dcc28bab7e81dbfd1f10ea.html
 

您可能还会对下面的文章感兴趣: