ChatGPT 作弊难逃,99% 命中检测,堪萨斯大学全新算法,研究登 Cell 子刊

sxkk20081年前智能百科83
之前,很多人都尝试过开发 ChatGPT 检测器,但并没有一个真正有效的。然而,堪萨斯大学的研究人员最近介绍了一种全新的算法,可以有效地检测出是否使用了 ChatGPT 进行作弊,准确率高达 99%。这项最新研究已于 6 月 7 日发表在《 Cell Reports Physical Science 》期刊上。

之前,很多人都尝试过开发 ChatGPT 检测器,但并没有一个真正有效的。然而,堪萨斯大学的研究人员最近介绍了一种全新的算法,可以有效地检测出是否使用了 ChatGPT 进行作弊,准确率高达 99%。


这项最新研究已于 6 月 7 日发表在《 Cell Reports Physical Science 》期刊上。该研究的作者之一,堪萨斯大学化学教授 Heather Desaire 表示:“我们努力创建一种易于使用的方法,即使是高中生,也可以在很少的指导下为不同类型的写作构建一个人工智能检测器。”

正如研究者所说,90%的准确性往往是不够的。但要获得更高的准确性,往往需要做出许多取舍。在这项研究中,研究人员选择了人类作者在科学杂志上撰写的 64 篇研究文章作为数据样本,涵盖了生物学到物理学等各个学科。

然后,他们将这些数据输入到 ChatGPT 中,并用它们生成了一个包含 128 篇人工智能文章的数据集。这个训练数据集中含有 1276 个聊天机器人的示例段落。研究人员利用这些数据构建了 ChatGPT 的检测算法。


ChatGPT 作弊难逃,99% 命中检测,堪萨斯大学全新算法,研究登 Cell 子刊


在模型的完全开发和优化之后,他们还生成了两个测试集。每个测试集由 30 篇真实文章和 60 篇 ChatGPT 撰写的文章组成,总计 1210 个段落,用于对最新算法进行测试。实验结果显示,最新算法可以 100%地识别出由 ChatGPT 撰写的整篇文章。

在段落层面上,准确性较低,但仍然令人印象深刻:该算法可以识别出 92%的由人工智能生成的段落。值得一提的是,研究论文中指出,从某些细节中可以发现哪些内容是由 ChatGPT 创作的。

通过对训练集中许多示例的手工比较,研究人员确定了四类特征,有助于区分人类作者和聊天机器人的写作。(1)段落的复杂性,(2)句子长度的多样性,(3)标点符号的使用,以及(4)流行词或数字的引用。

总体而言,人类作者的段落更长,使用的词汇量更大,并包含更多的标点符号。

此外,人类作者也更倾向于使用像“然而”、“但是”和“尽管”这样的词来修饰陈述。而 ChatGPT 在引用数字和提及其他科学家方面并不是那么具体。在这个分类中,人类作者在内容方面比 ChatGPT 更擅长。


ChatGPT 作弊难逃,99% 命中检测,堪萨斯大学全新算法,研究登 Cell 子刊

ChatGPT 难以逃脱作弊检测,检测命中率高达 99%的堪萨斯大学全新算法揭示了四类特征,其中有两类(1 和 3)是 ChatGPT 生成的内容不如人类复杂的方式。最大的区别特征是每段句子的数量和每段总单词的数量。

在这两种情况下,ChatGPT 的平均值明显低于人类。研究人员还发现,人类作者更喜欢改变句子结构。他们更频繁地改变句子的长度,包括使用较长的句子(35 个单词或更多)和较短的句子(10 个单词或更少)。

剩下的两类区别特征更多地可以描述为“文体”选择。一方面,人类科学家更频繁地使用问号、破折号、括号、分号和冒号,而 ChatGPT 更多地使用单引号。人类还更多地使用专有名词和 / 或首字母缩略词,以及数字。

这个由 Desaire 教授团队开发的模型并不能完全满足希望惩罚作弊的高中老师们的需求。该算法是为学术写作而开发的,特别是那些在科学期刊上阅读到的学术写作。Desaire 教授团队表示,理论上可以使用相同的技术来开发一个模型,来检测其他类型的写作。

然而,必须要考虑到一个事实,即一个人很容易对聊天机器人的写作进行一些微小的调整,从而使其更难以被发现为作弊行为,事情变得更加复杂了。

当我们考虑到一个事实,即作者可以对聊天机器人的写作进行一些微小的调整,使其更难以被发现时,情况就变得复杂了。尽管如此,研究人员将这项研究描述为“概念证明”,并表示未来可以开发一个更稳定、准确的工具,并使用更大的数据集。

如果人工智能继续以极快的速度发展下去,就无法保证这种检测方法是否仍然有效。因为随着大型语言模型越来越接近复制人类语言文字的能力,识别聊天机器人写作痕迹将越来越困难。

ChatGPT 自问世以来已被许多高校的学生和教师应用于日常作业和教学。然而,如果不加限制,ChatGPT 将成为史上最强大的作弊工具,可以帮助学生完成写作任务,甚至是完成考试论文。


ChatGPT 作弊难逃,99% 命中检测,堪萨斯大学全新算法,研究登 Cell 子刊

为了对抗这种作弊行为,老师们渴望一种简单易用的探测器。22 岁的普林斯顿大学学生 Edward Tian 开发了一款令人期待的探测器——GPTZero。甚至 OpenAI 宣布推出名为 AI Text Classifier 的新工具,用于文件的探测。


然而,这些探测器的性能并未达到人们的期望。能够检测出由 AI 创作的内容听起来似乎很容易。但当我们拿到一封手写邮件和 ChatGPT 生成的邮件时,我们几乎无法区分二者。


Turnitin 的人工智能副总裁 Eric Wang 指出,利用软件来检测人工智能写作涉及到统计学。从统计学的角度来看,人工智能与人类的区别在于它们稳定地处于平均水平。


简言之,AI 的水平非常稳定。然而,实际上事情并非如此。「像 ChatGPT 这样的系统好比是自动补全的高级版本,不断寻找下一个最有可能写出的单词。这也是为什么 AI 写作听起来如此自然的原因。AI 写作是人类写作中最有可能的一个子集。」


相关文章

报告称整合必应聊天之后,微软 Edge 浏览器用户数量正逼近 3 亿

报告称整合必应聊天之后,微软 Edge 浏览器用户数量正逼近 3 亿

人工智能技术在互联网上继续掀起了一股狂潮。这种人工智能的普及不仅对谷歌的主导地位构成了一种威胁,还引发了欧盟成员国对安全问题的担忧。然而,在这个混乱的局势中,微软看到了一个机遇,宣布开发必应人工智能,...

加速本土化创新,熵基科技亮相东京建筑建材展

加速本土化创新,熵基科技亮相东京建筑建材展

 日前,2023日本东京国际建筑建材展览会(以下简称“2023东京建筑建材展”)在日本东京国际展览中心落下帷幕。作为多模态“计算机视觉与生物识别”(BioCV)领军企业,熵基科技以...

腾讯多媒体实验室发布自研 AI 作曲框架 XMusic,不通音律也能帮你“自动作曲”

腾讯多媒体实验室发布自研 AI 作曲框架 XMusic,不通音律也能帮你“自动作曲”

作为2023世界人工智能大会的亮点之一,AIGC技术在各企业展区中引人注目。腾讯多媒体实验室展示的自研 AI 通用作曲框架 XMusic就是其中之一,可谓是本次大会的一颗璀璨明星。2023年7月6日-...

AI聊天助手插件,在弹出窗口中使用AI聊天机器人

AI聊天助手插件,在弹出窗口中使用AI聊天机器人

ChatGPT 助手插件支持在弹出窗口中显示 OpenAI ChatGPT 对搜索引擎结果的响应并增加 ChatGPT 提示,用户可以通过该插件提出任何问题并实时获得准确、简明的答案,非常简单便捷。A...

古董电脑也能和人工智能聊天:WinGPT 可让 Win3.1 接入 ChatGPT

古董电脑也能和人工智能聊天:WinGPT 可让 Win3.1 接入 ChatGPT

Windows 3.1,一款微软于 1992 年 4 月 6 日发布的 Windows 3.x 系列的基于 MS-DOS 的操作系统,该版本系统于 2002 年 1 月 1 日早已宣布终止支持。尽管已...

海信激光电视2024德国柏林消费电子展“炫技”连连,超百吋巨幕体验值爆表

海信激光电视2024德国柏林消费电子展“炫技”连连,超百吋巨幕体验值爆表

当地时间9月6日,IFA2024如期而至,各种新奇的产品上演了一场技术大秀。作为激光显示赛道的创领者,海信激光电视一出场便“炸场”,带来了全球首款8K屏幕发声激光电...

发表评论    

◎欢迎参与讨论,请在这里发表您的看法、交流您的观点。