5个最大的“迹象”表明某些内容是由人工智能撰写的

CN
Decrypt
关注
2小时前

如今一切都是由人工智能写的吗?这篇文章呢?

大型语言模型的普及促使人们产生了一种新的、谨慎的读写能力:人们现在可以阅读一段文字并思考是谁——或者是什么——写的。这种焦虑是有充分理由的。

最近的研究继续表明,机器生成的文本与人类写作在越来越不微妙的方式上存在差异,从特定的用词选择到容易识别的结构特征。这些模式很重要,因为它们影响的不仅仅是学校论文和研究论文;它们以可能混淆信任或真实性的方式塑造企业沟通、新闻报道和人际电子邮件。

研究人员在调查风格计量检测技术时发现,词汇多样性、从句结构和功能词分布中存在一致且可测量的模式——一种在任务和提示中持续存在的统计指纹。虽然这些特征随着每一代模型的更新而缩小——例如,OpenAI 刚刚修复了 对破折号的过度依赖——但人工智能生成的低质量文本与人类写作之间的差异仍然足够大,以影响读者和编辑对可疑精致文本的处理方式。

最近《华盛顿邮报》对328,744条ChatGPT消息的分析用现实数据强化了这一观点。研究发现,该模型在表情符号、狭窄的常用词汇和大家熟悉的特征“负平行结构”上表现得很明显:“这不是X,而是Y;”或者“这更少关于X,而更多关于Y。”

《邮报》还警告不要过于自信:这些特征并不能证明是人工智能创作;它们只是提高了可能性。然而,当一篇写作展现出其中几个特征时,这种信号就更难以忽视。

以下是文本可能是机器生成的五个最强信号,每个信号都基于当前的研究。

五个最常见的人工智能特征

  1. 负平行结构和过于简化的对比

    人工智能过度使用“这不是X,而是Y”的整齐、戏剧性的转折,以及它的变体“不仅仅是X,而是Y”。这些结构创造了洞察的错觉,但提供的内容却很少。风格计量研究表明,LLM的输出倾向于平衡、公式化的从句结构,而不是人类作家使用的不均匀、直观的节奏。在邮报的数据集中,仅“不仅仅是X,而是Y”的变体在所有七月消息中出现了大约6%——对于一个单一的修辞特征来说,这是一个惊人的比例。

  2. 过于整齐的结构和显著一致的节奏

    LLM生成的文本往往读起来像是由一个强迫修订但从不即兴创作的人写的。段落遵循教科书模式,过渡流畅,节奏几乎是数学上均匀的,根据最近的分析在《自然》杂志上。人类写作——即使是仔细的写作——通常反映出离题、打断、语调变化和不对称的节奏。风格计量研究比较LLM输出与人类短篇小说发现,模型在句子长度和句法形状上表现出更窄的方差。

  3. 平滑的情感语调和过于礼貌的模糊表达

    人工智能的声音往往听起来友好,实际上没有成年人会这样说,除非他们在HR或客户支持工作。像“可以理解的是……”或温和总结一切的结尾(“最终……”)以不自然的规律出现。对检测方法的定量评估指出,LLM生成的散文表现出更均匀的情感和比人类文本更少的突发情感变化。

  4. 模糊的抽象和不断演变的“安全”词汇

    模型在缺乏具体内容时,严重依赖于通用名词——“生态系统”、“框架”、“动态”——以及像“利用”、“解锁”或“导航”这样的动词。研究一致表明,人工智能文本的词汇多样性较低,名词化程度较高。《华盛顿邮报》和《自然》分析还发现,某些人工智能陈词滥调并不是静态的:臭名昭著的“深入”已经大幅消退,取而代之的是“核心”和“现代”等新宠。这很重要,因为词汇特征迅速演变;结构比任何固定的词汇表更可靠。

  5. 平衡的从句和显著谨慎的措辞

    LLM喜欢对称:“虽然X是正确的,Y也很重要,”或“无论你是初学者还是专家……”这些结构感觉安全,因为它们避免了承诺。风格计量研究表明,人工智能文本过度使用某些功能词模式和从句结构,其比例与人类基线有显著差异。人类往往更直接或更冗长;机器每次都力求外交上的平衡。

顺便说一下,这篇文章的大部分内容是由人工智能写的。

免责声明:本文章仅代表作者个人观点,不代表本平台的立场和观点。本文章仅供信息分享,不构成对任何人的任何投资建议。用户与作者之间的任何争议,与本平台无关。如网页中刊载的文章或图片涉及侵权,请提供相关的权利证明和身份证明发送邮件到support@aicoin.com,本平台相关工作人员将会进行核查。

分享至:
APP下载

X

Telegram

Facebook

Reddit

复制链接