资深专家也无法准确分辨出 ChatGPT 生成的科学论文

(相关资料图)

IT之家 1 月 14 日消息，美国科普杂志《科学美国人》（Scientific American）今天发布文章，表示由 ChatGPT 撰写的科学论文具备非常高的学术性，以至于资深的科学家也无法分辨。

图源 Nature

在 12 月下旬发表在 bioRxiv 服务器上的预印论文中写道，人工智能 (AI) 聊天机器人已经具备撰写令人信服的虚假研究论文，以至于科学家们在不仔细甄别的情况下也无法分辨。

英国牛津大学研究技术和监管的 Sandra Wachter 表示：“我对此非常担心。如果连专家都无法甄别论文的真假，那么就会影响我们的研究基石”。

IT之家小课堂：聊天机器人 ChatGPT 会根据用户提示创建逼真且听起来很智能的文本。它是一种“大型语言模型”，一种基于神经网络的系统，通过消化大量现有的人类生成的文本来学习执行任务。位于加利福尼亚州旧金山的软件公司 OpenAI 于 11 月 30 日发布了该工具，并且可以免费使用。

由伊利诺伊州芝加哥市西北大学的 Catherine Gao 领导的小组使用 ChatGPT 生成人工研究论文摘要，以测试科学家是否可以发现它们。研究人员要求聊天机器人根据发表在《美国医学会杂志》（JAMA）、《新英格兰医学杂志》（The New England Journal of Medicine）、《英国医学杂志》（The BMJ）、《柳叶刀》（The Lancet ）和《自然医学》（Nature Medicine）上的选集撰写 50 篇医学研究摘要。

然后，他们通过剽窃检测器和 AI 输出检测器将这些摘要与原始摘要进行比较，并要求一组医学研究人员找出捏造的摘要。

ChatGPT 生成的摘要顺利通过了剽窃检查器（plagiarism checker）：原创得分中位数为 100%，这表明没有检测到剽窃。

AI 输出检测器发现了 66% 的生成摘要，而人工审核仅正确识别了 68% 的生成摘要和 86% 的真实摘要。专家错误地将 32% 的生成摘要识别为真实摘要，将 14% 的真实摘要识别为生成的。

关键词：医学研究自然医学