ChatGPT 作弊难逃,99% 命中检测,堪萨斯大学全新算法,研究登 Cell 子刊

sxkk20082年前智能百科230
之前,很多人都尝试过开发 ChatGPT 检测器,但并没有一个真正有效的。然而,堪萨斯大学的研究人员最近介绍了一种全新的算法,可以有效地检测出是否使用了 ChatGPT 进行作弊,准确率高达 99%。这项最新研究已于 6 月 7 日发表在《 Cell Reports Physical Science 》期刊上。

之前,很多人都尝试过开发 ChatGPT 检测器,但并没有一个真正有效的。然而,堪萨斯大学的研究人员最近介绍了一种全新的算法,可以有效地检测出是否使用了 ChatGPT 进行作弊,准确率高达 99%。


这项最新研究已于 6 月 7 日发表在《 Cell Reports Physical Science 》期刊上。该研究的作者之一,堪萨斯大学化学教授 Heather Desaire 表示:“我们努力创建一种易于使用的方法,即使是高中生,也可以在很少的指导下为不同类型的写作构建一个人工智能检测器。”

正如研究者所说,90%的准确性往往是不够的。但要获得更高的准确性,往往需要做出许多取舍。在这项研究中,研究人员选择了人类作者在科学杂志上撰写的 64 篇研究文章作为数据样本,涵盖了生物学到物理学等各个学科。

然后,他们将这些数据输入到 ChatGPT 中,并用它们生成了一个包含 128 篇人工智能文章的数据集。这个训练数据集中含有 1276 个聊天机器人的示例段落。研究人员利用这些数据构建了 ChatGPT 的检测算法。


ChatGPT 作弊难逃,99% 命中检测,堪萨斯大学全新算法,研究登 Cell 子刊


在模型的完全开发和优化之后,他们还生成了两个测试集。每个测试集由 30 篇真实文章和 60 篇 ChatGPT 撰写的文章组成,总计 1210 个段落,用于对最新算法进行测试。实验结果显示,最新算法可以 100%地识别出由 ChatGPT 撰写的整篇文章。

在段落层面上,准确性较低,但仍然令人印象深刻:该算法可以识别出 92%的由人工智能生成的段落。值得一提的是,研究论文中指出,从某些细节中可以发现哪些内容是由 ChatGPT 创作的。

通过对训练集中许多示例的手工比较,研究人员确定了四类特征,有助于区分人类作者和聊天机器人的写作。(1)段落的复杂性,(2)句子长度的多样性,(3)标点符号的使用,以及(4)流行词或数字的引用。

总体而言,人类作者的段落更长,使用的词汇量更大,并包含更多的标点符号。

此外,人类作者也更倾向于使用像“然而”、“但是”和“尽管”这样的词来修饰陈述。而 ChatGPT 在引用数字和提及其他科学家方面并不是那么具体。在这个分类中,人类作者在内容方面比 ChatGPT 更擅长。


ChatGPT 作弊难逃,99% 命中检测,堪萨斯大学全新算法,研究登 Cell 子刊

ChatGPT 难以逃脱作弊检测,检测命中率高达 99%的堪萨斯大学全新算法揭示了四类特征,其中有两类(1 和 3)是 ChatGPT 生成的内容不如人类复杂的方式。最大的区别特征是每段句子的数量和每段总单词的数量。

在这两种情况下,ChatGPT 的平均值明显低于人类。研究人员还发现,人类作者更喜欢改变句子结构。他们更频繁地改变句子的长度,包括使用较长的句子(35 个单词或更多)和较短的句子(10 个单词或更少)。

剩下的两类区别特征更多地可以描述为“文体”选择。一方面,人类科学家更频繁地使用问号、破折号、括号、分号和冒号,而 ChatGPT 更多地使用单引号。人类还更多地使用专有名词和 / 或首字母缩略词,以及数字。

这个由 Desaire 教授团队开发的模型并不能完全满足希望惩罚作弊的高中老师们的需求。该算法是为学术写作而开发的,特别是那些在科学期刊上阅读到的学术写作。Desaire 教授团队表示,理论上可以使用相同的技术来开发一个模型,来检测其他类型的写作。

然而,必须要考虑到一个事实,即一个人很容易对聊天机器人的写作进行一些微小的调整,从而使其更难以被发现为作弊行为,事情变得更加复杂了。

当我们考虑到一个事实,即作者可以对聊天机器人的写作进行一些微小的调整,使其更难以被发现时,情况就变得复杂了。尽管如此,研究人员将这项研究描述为“概念证明”,并表示未来可以开发一个更稳定、准确的工具,并使用更大的数据集。

如果人工智能继续以极快的速度发展下去,就无法保证这种检测方法是否仍然有效。因为随着大型语言模型越来越接近复制人类语言文字的能力,识别聊天机器人写作痕迹将越来越困难。

ChatGPT 自问世以来已被许多高校的学生和教师应用于日常作业和教学。然而,如果不加限制,ChatGPT 将成为史上最强大的作弊工具,可以帮助学生完成写作任务,甚至是完成考试论文。


ChatGPT 作弊难逃,99% 命中检测,堪萨斯大学全新算法,研究登 Cell 子刊

为了对抗这种作弊行为,老师们渴望一种简单易用的探测器。22 岁的普林斯顿大学学生 Edward Tian 开发了一款令人期待的探测器——GPTZero。甚至 OpenAI 宣布推出名为 AI Text Classifier 的新工具,用于文件的探测。


然而,这些探测器的性能并未达到人们的期望。能够检测出由 AI 创作的内容听起来似乎很容易。但当我们拿到一封手写邮件和 ChatGPT 生成的邮件时,我们几乎无法区分二者。


Turnitin 的人工智能副总裁 Eric Wang 指出,利用软件来检测人工智能写作涉及到统计学。从统计学的角度来看,人工智能与人类的区别在于它们稳定地处于平均水平。


简言之,AI 的水平非常稳定。然而,实际上事情并非如此。「像 ChatGPT 这样的系统好比是自动补全的高级版本,不断寻找下一个最有可能写出的单词。这也是为什么 AI 写作听起来如此自然的原因。AI 写作是人类写作中最有可能的一个子集。」


相关文章

第二届科技月系列活动丨零部件走进整机技术交流暨科技联动创未来技术论坛

第二届科技月系列活动丨零部件走进整机技术交流暨科技联动创未来技术论坛

 为加快推动产业联动与协同发展,由中国五金制品协会燃气用具分会、佛山市顺德区燃气具商会主办,万和电气承办的零部件走进整机技术交流会暨“科技联动创未来”技术...

中国电信公布 TeleChat 大模型,或采用华为鲲鹏920芯片,宣称将建立“百亿级 AI 服务商”

中国电信公布 TeleChat 大模型,或采用华为鲲鹏920芯片,宣称将建立“百亿级 AI 服务商”

2023 年 7 月 3 日,中国电信在全球数字经济大会的人工智能高峰论坛上宣布了中国电信独家研发的 TeleChat 大模型,为 ChatGPT 产品注入了独特的中国电信版。2023 年 7 月 3...

Rio插件,AI聊天支持的网页数字助理

Rio插件,AI聊天支持的网页数字助理

Rio 插件是一款支持搜索引擎 /Gmail/Outlook/Twitter/LinkedIn/YouTube 摘要等的助手,该插件利用 AI 聊天语言模型的先进技术为用户提供了一套强大的功能来增强其...

沉浸式网页双语翻译插件,AI 驱动的双语网页翻译工具

沉浸式网页双语翻译插件,AI 驱动的双语网页翻译工具

沉浸式网页双语翻译插件一款免费好用的、由 AI 驱动的双语网页翻译工具,该插件支持智能识别网页文本内容区域并进行双语对照翻译,为用户提供全新的外文阅读体验,帮助其有效地打破信息差!沉浸式网页双语翻译插...

云米洗衣机AI Neo3,洗衣烘干新选择,助你轻松应对回南天!

云米洗衣机AI Neo3,洗衣烘干新选择,助你轻松应对回南天!

在南方,每当回南天来临,湿漉漉的天气总让人头疼不已。衣服洗完后,挂在阳台或晾衣架上,仿佛被无形的力量紧紧拽住,久久难以晾干。不仅衣物散发出一股难以言喻的霉味,连心情都跟着变得阴沉起来。但幸...

九九重阳节,我们一起帮老人“防跌倒”

九九重阳节,我们一起帮老人“防跌倒”

你知道吗?“跌倒”这件看似平常的小意外,却是我国65岁以上老人伤害死亡的首位原因。 九九重阳节,浓浓敬老情,今年重阳节是我国第十二个法定老年节,贝壳公益杭州站携手...

发表评论    

◎欢迎参与讨论,请在这里发表您的看法、交流您的观点。