ChatGPT 作弊难逃,99% 命中检测,堪萨斯大学全新算法,研究登 Cell 子刊

sxkk20082年前智能百科145
之前,很多人都尝试过开发 ChatGPT 检测器,但并没有一个真正有效的。然而,堪萨斯大学的研究人员最近介绍了一种全新的算法,可以有效地检测出是否使用了 ChatGPT 进行作弊,准确率高达 99%。这项最新研究已于 6 月 7 日发表在《 Cell Reports Physical Science 》期刊上。

之前,很多人都尝试过开发 ChatGPT 检测器,但并没有一个真正有效的。然而,堪萨斯大学的研究人员最近介绍了一种全新的算法,可以有效地检测出是否使用了 ChatGPT 进行作弊,准确率高达 99%。


这项最新研究已于 6 月 7 日发表在《 Cell Reports Physical Science 》期刊上。该研究的作者之一,堪萨斯大学化学教授 Heather Desaire 表示:“我们努力创建一种易于使用的方法,即使是高中生,也可以在很少的指导下为不同类型的写作构建一个人工智能检测器。”

正如研究者所说,90%的准确性往往是不够的。但要获得更高的准确性,往往需要做出许多取舍。在这项研究中,研究人员选择了人类作者在科学杂志上撰写的 64 篇研究文章作为数据样本,涵盖了生物学到物理学等各个学科。

然后,他们将这些数据输入到 ChatGPT 中,并用它们生成了一个包含 128 篇人工智能文章的数据集。这个训练数据集中含有 1276 个聊天机器人的示例段落。研究人员利用这些数据构建了 ChatGPT 的检测算法。


ChatGPT 作弊难逃,99% 命中检测,堪萨斯大学全新算法,研究登 Cell 子刊


在模型的完全开发和优化之后,他们还生成了两个测试集。每个测试集由 30 篇真实文章和 60 篇 ChatGPT 撰写的文章组成,总计 1210 个段落,用于对最新算法进行测试。实验结果显示,最新算法可以 100%地识别出由 ChatGPT 撰写的整篇文章。

在段落层面上,准确性较低,但仍然令人印象深刻:该算法可以识别出 92%的由人工智能生成的段落。值得一提的是,研究论文中指出,从某些细节中可以发现哪些内容是由 ChatGPT 创作的。

通过对训练集中许多示例的手工比较,研究人员确定了四类特征,有助于区分人类作者和聊天机器人的写作。(1)段落的复杂性,(2)句子长度的多样性,(3)标点符号的使用,以及(4)流行词或数字的引用。

总体而言,人类作者的段落更长,使用的词汇量更大,并包含更多的标点符号。

此外,人类作者也更倾向于使用像“然而”、“但是”和“尽管”这样的词来修饰陈述。而 ChatGPT 在引用数字和提及其他科学家方面并不是那么具体。在这个分类中,人类作者在内容方面比 ChatGPT 更擅长。


ChatGPT 作弊难逃,99% 命中检测,堪萨斯大学全新算法,研究登 Cell 子刊

ChatGPT 难以逃脱作弊检测,检测命中率高达 99%的堪萨斯大学全新算法揭示了四类特征,其中有两类(1 和 3)是 ChatGPT 生成的内容不如人类复杂的方式。最大的区别特征是每段句子的数量和每段总单词的数量。

在这两种情况下,ChatGPT 的平均值明显低于人类。研究人员还发现,人类作者更喜欢改变句子结构。他们更频繁地改变句子的长度,包括使用较长的句子(35 个单词或更多)和较短的句子(10 个单词或更少)。

剩下的两类区别特征更多地可以描述为“文体”选择。一方面,人类科学家更频繁地使用问号、破折号、括号、分号和冒号,而 ChatGPT 更多地使用单引号。人类还更多地使用专有名词和 / 或首字母缩略词,以及数字。

这个由 Desaire 教授团队开发的模型并不能完全满足希望惩罚作弊的高中老师们的需求。该算法是为学术写作而开发的,特别是那些在科学期刊上阅读到的学术写作。Desaire 教授团队表示,理论上可以使用相同的技术来开发一个模型,来检测其他类型的写作。

然而,必须要考虑到一个事实,即一个人很容易对聊天机器人的写作进行一些微小的调整,从而使其更难以被发现为作弊行为,事情变得更加复杂了。

当我们考虑到一个事实,即作者可以对聊天机器人的写作进行一些微小的调整,使其更难以被发现时,情况就变得复杂了。尽管如此,研究人员将这项研究描述为“概念证明”,并表示未来可以开发一个更稳定、准确的工具,并使用更大的数据集。

如果人工智能继续以极快的速度发展下去,就无法保证这种检测方法是否仍然有效。因为随着大型语言模型越来越接近复制人类语言文字的能力,识别聊天机器人写作痕迹将越来越困难。

ChatGPT 自问世以来已被许多高校的学生和教师应用于日常作业和教学。然而,如果不加限制,ChatGPT 将成为史上最强大的作弊工具,可以帮助学生完成写作任务,甚至是完成考试论文。


ChatGPT 作弊难逃,99% 命中检测,堪萨斯大学全新算法,研究登 Cell 子刊

为了对抗这种作弊行为,老师们渴望一种简单易用的探测器。22 岁的普林斯顿大学学生 Edward Tian 开发了一款令人期待的探测器——GPTZero。甚至 OpenAI 宣布推出名为 AI Text Classifier 的新工具,用于文件的探测。


然而,这些探测器的性能并未达到人们的期望。能够检测出由 AI 创作的内容听起来似乎很容易。但当我们拿到一封手写邮件和 ChatGPT 生成的邮件时,我们几乎无法区分二者。


Turnitin 的人工智能副总裁 Eric Wang 指出,利用软件来检测人工智能写作涉及到统计学。从统计学的角度来看,人工智能与人类的区别在于它们稳定地处于平均水平。


简言之,AI 的水平非常稳定。然而,实际上事情并非如此。「像 ChatGPT 这样的系统好比是自动补全的高级版本,不断寻找下一个最有可能写出的单词。这也是为什么 AI 写作听起来如此自然的原因。AI 写作是人类写作中最有可能的一个子集。」


相关文章

马斯克宣布成立人工智能公司xAI,顶级AI天团坐镇

马斯克宣布成立人工智能公司xAI,顶级AI天团坐镇

埃隆·马斯克 (Elon Musk) 周三宣布成立一家专注于人工智能的新公司 xAI,此前几个月,他一直在酝酿建立 ChatGPT 竞争对手的计划。人工智能领域的斗争如火如荼,长期活跃在互联网上的马斯...

人人争当“学霸”,贝壳搏学大考引领房产经纪人职业化新风尚

人人争当“学霸”,贝壳搏学大考引领房产经纪人职业化新风尚

 最近,杭州的房产经纪门店都变成了学习教室,经纪人们拿着教材反复阅读,还建起了学习小组相互PK,为的就是在“搏学大考”上搏出好成绩。 “搏学...

谷歌更新隐私政策规定,可使用互联网上的公开信息训练 AI 模型

谷歌更新隐私政策规定,可使用互联网上的公开信息训练 AI 模型

数据,是 AI 技术发展的其中一大要素,也一直是科技巨头们“斗争”的焦点。近期,搜索引擎巨头谷歌对其隐私政策进行了更新,明确表示公司将保留获取用户在网上发布的内容来训练其人工智能工具的权利。数据,作为...

厨电领域的物种演化: 方太高端全场景厨电打造“智能生活新物种”

厨电领域的物种演化: 方太高端全场景厨电打造“智能生活新物种”

 人类的文明史,本身就是一部新物种的创造史。每一个新物种诞生的背后,则是一次前所未有的资源获取方式的发现,一次独特“生态位”的精准卡位。 &ldqu...

必应聊天将推出“#nosearch”功能:禁用网络搜索,直达精准答案

必应聊天将推出“#nosearch”功能:禁用网络搜索,直达精准答案

必应聊天(bing chat)是微软推出的一款基于人工智能的搜索引擎聊天模式,它可以让用户通过自然语言与必应搜索进行交流,获取信息、娱乐和创意内容。它的目标是提供一种更加人性化、有趣和高效的搜索体验,...

Stability AI 推出素描转图像工具 Stable Doodle,让你的涂鸦变成艺术品

Stability AI 推出素描转图像工具 Stable Doodle,让你的涂鸦变成艺术品

最近,Stability AI 发布了一项名为"稳定素描"的全新服务,利用稳定扩散模型将素描转换为艺术视觉作品,为用户带来愉悦的视觉体验。最近,Stability AI 发布了一项...

发表评论    

◎欢迎参与讨论,请在这里发表您的看法、交流您的观点。