ChatGPT 作弊难逃,99% 命中检测,堪萨斯大学全新算法,研究登 Cell 子刊

sxkk20082年前智能百科208
之前,很多人都尝试过开发 ChatGPT 检测器,但并没有一个真正有效的。然而,堪萨斯大学的研究人员最近介绍了一种全新的算法,可以有效地检测出是否使用了 ChatGPT 进行作弊,准确率高达 99%。这项最新研究已于 6 月 7 日发表在《 Cell Reports Physical Science 》期刊上。

之前,很多人都尝试过开发 ChatGPT 检测器,但并没有一个真正有效的。然而,堪萨斯大学的研究人员最近介绍了一种全新的算法,可以有效地检测出是否使用了 ChatGPT 进行作弊,准确率高达 99%。


这项最新研究已于 6 月 7 日发表在《 Cell Reports Physical Science 》期刊上。该研究的作者之一,堪萨斯大学化学教授 Heather Desaire 表示:“我们努力创建一种易于使用的方法,即使是高中生,也可以在很少的指导下为不同类型的写作构建一个人工智能检测器。”

正如研究者所说,90%的准确性往往是不够的。但要获得更高的准确性,往往需要做出许多取舍。在这项研究中,研究人员选择了人类作者在科学杂志上撰写的 64 篇研究文章作为数据样本,涵盖了生物学到物理学等各个学科。

然后,他们将这些数据输入到 ChatGPT 中,并用它们生成了一个包含 128 篇人工智能文章的数据集。这个训练数据集中含有 1276 个聊天机器人的示例段落。研究人员利用这些数据构建了 ChatGPT 的检测算法。


ChatGPT 作弊难逃,99% 命中检测,堪萨斯大学全新算法,研究登 Cell 子刊


在模型的完全开发和优化之后,他们还生成了两个测试集。每个测试集由 30 篇真实文章和 60 篇 ChatGPT 撰写的文章组成,总计 1210 个段落,用于对最新算法进行测试。实验结果显示,最新算法可以 100%地识别出由 ChatGPT 撰写的整篇文章。

在段落层面上,准确性较低,但仍然令人印象深刻:该算法可以识别出 92%的由人工智能生成的段落。值得一提的是,研究论文中指出,从某些细节中可以发现哪些内容是由 ChatGPT 创作的。

通过对训练集中许多示例的手工比较,研究人员确定了四类特征,有助于区分人类作者和聊天机器人的写作。(1)段落的复杂性,(2)句子长度的多样性,(3)标点符号的使用,以及(4)流行词或数字的引用。

总体而言,人类作者的段落更长,使用的词汇量更大,并包含更多的标点符号。

此外,人类作者也更倾向于使用像“然而”、“但是”和“尽管”这样的词来修饰陈述。而 ChatGPT 在引用数字和提及其他科学家方面并不是那么具体。在这个分类中,人类作者在内容方面比 ChatGPT 更擅长。


ChatGPT 作弊难逃,99% 命中检测,堪萨斯大学全新算法,研究登 Cell 子刊

ChatGPT 难以逃脱作弊检测,检测命中率高达 99%的堪萨斯大学全新算法揭示了四类特征,其中有两类(1 和 3)是 ChatGPT 生成的内容不如人类复杂的方式。最大的区别特征是每段句子的数量和每段总单词的数量。

在这两种情况下,ChatGPT 的平均值明显低于人类。研究人员还发现,人类作者更喜欢改变句子结构。他们更频繁地改变句子的长度,包括使用较长的句子(35 个单词或更多)和较短的句子(10 个单词或更少)。

剩下的两类区别特征更多地可以描述为“文体”选择。一方面,人类科学家更频繁地使用问号、破折号、括号、分号和冒号,而 ChatGPT 更多地使用单引号。人类还更多地使用专有名词和 / 或首字母缩略词,以及数字。

这个由 Desaire 教授团队开发的模型并不能完全满足希望惩罚作弊的高中老师们的需求。该算法是为学术写作而开发的,特别是那些在科学期刊上阅读到的学术写作。Desaire 教授团队表示,理论上可以使用相同的技术来开发一个模型,来检测其他类型的写作。

然而,必须要考虑到一个事实,即一个人很容易对聊天机器人的写作进行一些微小的调整,从而使其更难以被发现为作弊行为,事情变得更加复杂了。

当我们考虑到一个事实,即作者可以对聊天机器人的写作进行一些微小的调整,使其更难以被发现时,情况就变得复杂了。尽管如此,研究人员将这项研究描述为“概念证明”,并表示未来可以开发一个更稳定、准确的工具,并使用更大的数据集。

如果人工智能继续以极快的速度发展下去,就无法保证这种检测方法是否仍然有效。因为随着大型语言模型越来越接近复制人类语言文字的能力,识别聊天机器人写作痕迹将越来越困难。

ChatGPT 自问世以来已被许多高校的学生和教师应用于日常作业和教学。然而,如果不加限制,ChatGPT 将成为史上最强大的作弊工具,可以帮助学生完成写作任务,甚至是完成考试论文。


ChatGPT 作弊难逃,99% 命中检测,堪萨斯大学全新算法,研究登 Cell 子刊

为了对抗这种作弊行为,老师们渴望一种简单易用的探测器。22 岁的普林斯顿大学学生 Edward Tian 开发了一款令人期待的探测器——GPTZero。甚至 OpenAI 宣布推出名为 AI Text Classifier 的新工具,用于文件的探测。


然而,这些探测器的性能并未达到人们的期望。能够检测出由 AI 创作的内容听起来似乎很容易。但当我们拿到一封手写邮件和 ChatGPT 生成的邮件时,我们几乎无法区分二者。


Turnitin 的人工智能副总裁 Eric Wang 指出,利用软件来检测人工智能写作涉及到统计学。从统计学的角度来看,人工智能与人类的区别在于它们稳定地处于平均水平。


简言之,AI 的水平非常稳定。然而,实际上事情并非如此。「像 ChatGPT 这样的系统好比是自动补全的高级版本,不断寻找下一个最有可能写出的单词。这也是为什么 AI 写作听起来如此自然的原因。AI 写作是人类写作中最有可能的一个子集。」


相关文章

谷歌遭遇集体诉讼,被指窃取数亿人网上数据训练AI

近日,一项新的诉讼指控谷歌在未经用户知情或同意的情况下,窃取了数亿美国人的网上数据,用于训练其人工智能(AI)产品,如聊天机器人 Bard 等。AI 大模型的训练需要大量的数据,而数据的收集往往涉及到...

海信AI家电亮相青岛品牌日,展示智慧生活新范式

海信AI家电亮相青岛品牌日,展示智慧生活新范式

7月17日,以“AI驱动 品智未来”为主题的2024年青岛品牌日活动启幕,海信家电(SZ 000921,HK 00921)携全品类产品亮相,在生活化场景中呈现人本科...

AIChat for Bing插件,在 Bing 搜索引擎显示AI智能回答

AIChat for Bing插件,在 Bing 搜索引擎显示AI智能回答

AIChat for Bing 插件适用于 Microsoft Bing,该插件能够帮助用户在搜索结果页面中轻松获得 AI 对话聊天的强大功能,将用户的 Bing 搜索体验提升到一个新的水平。AI 对...

卡萨帝:“至诚无息”

卡萨帝:“至诚无息”

  作者| 高端品牌实验室发起人 段传敏 卡萨帝几乎将自己全部都藏了起来,带领自己16个品类“兄弟”整体藏身到新发布的致境套系中,隐入到极简大气的橱柜...

厨电领域的物种演化: 方太高端全场景厨电打造“智能生活新物种”

厨电领域的物种演化: 方太高端全场景厨电打造“智能生活新物种”

 人类的文明史,本身就是一部新物种的创造史。每一个新物种诞生的背后,则是一次前所未有的资源获取方式的发现,一次独特“生态位”的精准卡位。 &ldqu...

海尔全屋家居亮相中国品牌博览会,理念创新高端品质体验再升级

海尔全屋家居亮相中国品牌博览会,理念创新高端品质体验再升级

 5月10日-14日,由国家发展改革委、国资委、市场监管总局、国家知识产权局共同主办的2024年中国品牌博览会在上海盛大开幕。 作为第8个中国品牌日系列活动之一,今年中国品博会...

发表评论    

◎欢迎参与讨论,请在这里发表您的看法、交流您的观点。