谷歌推出人工智能解码海豚语言，运行在Pixel手机上

为什么尝试理解Z世代的俚语，而与动物沟通可能更简单？

今天，谷歌推出了DolphinGemma，这是一个开源AI模型，旨在通过分析海豚的点击声、口哨声和爆发脉冲来解码海豚的交流。这一公告恰逢国家海豚日。

该模型是与乔治亚理工学院和野生海豚项目（WDP）合作创建的，学习海豚发声的结构，并能够生成类似海豚的声音序列。

这一突破可能有助于确定海豚的交流是否达到了语言的水平。

DolphinGemma在全球最长的水下海豚研究项目上进行训练，利用自1985年以来WDP收集的数十年精心标记的音频和视频数据。

该项目采用非侵入性的方法，研究巴哈马的亚特兰大斑点海豚，跨越几代人，称之为“在他们的世界，以他们的方式”。

谷歌在公告中表示：“通过识别重复的声音模式、簇和可靠的序列，该模型可以帮助研究人员揭示海豚自然交流中的隐藏结构和潜在意义——这一任务以前需要巨大的人工努力。”

该AI模型包含大约4亿个参数，足够小，可以在研究人员在现场使用的Pixel手机上运行。它使用谷歌的SoundStream分词器处理海豚声音，并预测序列中的后续声音，类似于人类语言模型预测句子中的下一个单词。

DolphinGemma并不是孤立运作的。它与CHAT（鲸类听觉增强遥测）系统协同工作，该系统将合成口哨声与海豚喜欢的特定物体（如浮萍、海草或围巾）关联起来，可能建立一种共享的互动词汇。

谷歌表示：“最终，这些模式，结合研究人员创造的合成声音来指代海豚喜欢玩的物体，可能会与海豚建立一种共享的互动交流词汇。”

现场研究人员目前使用Pixel 6手机进行海豚声音的实时分析。

团队计划在2025年夏季研究季节升级到Pixel 9设备，该设备将同时运行深度学习模型和模板匹配算法，同时集成扬声器和麦克风功能。

向智能手机技术的转变大大减少了对定制硬件的需求，这对海洋现场工作是一个关键优势。DolphinGemma的预测能力可以帮助研究人员更早地预测和识别声带序列中的潜在模仿者，使互动更加流畅。

理解无法理解的事物

DolphinGemma加入了其他几个旨在破解动物交流代码的AI项目。

地球物种项目（ESP）是一家非营利组织，最近开发了NatureLM，这是一种音频语言模型，能够识别动物物种、近似年龄，以及声音是否表示痛苦或玩耍——这并不是真正的语言，但仍然是建立某种原始交流的方式。

该模型在混合人类语言、环境声音和动物发声的基础上进行训练，即使在未曾遇到的物种中也显示出有希望的结果。

CETI项目代表了这一领域的另一个重要努力。

由包括伦敦帝国学院的迈克尔·布朗斯坦在内的研究人员领导，该项目专注于抹香鲸的交流，分析它们在长距离使用的复杂点击模式。

该团队已识别出143种点击组合，这些组合可能形成一种音素字母表，他们现在正在使用深度神经网络和自然语言处理技术进行研究。

虽然这些项目专注于解码动物声音，但纽约大学的研究人员从婴儿发展中获得了AI学习的灵感。

他们的儿童视角对比学习模型（CVCL）通过婴儿的视角观察世界来学习语言，使用的是从6个月到2岁婴儿佩戴的头戴式摄像机拍摄的录像。

纽约大学团队发现，他们的AI能够高效地从自然数据中学习，类似于人类婴儿的学习方式，这与传统AI模型需要数万亿个单词进行训练形成了鲜明对比。

谷歌计划在今年夏天分享DolphinGemma的更新版本，可能将其用途扩展到亚特兰大斑点海豚之外。不过，该模型可能需要针对不同物种的发声进行微调。

WDP广泛关注将海豚声音与特定行为相关联，包括母海豚和幼崽重聚时使用的特征口哨声、冲突期间的爆发脉冲“尖叫声”，以及求偶或追逐鲨鱼时使用的点击“嗡嗡声”。

“我们不再只是倾听，”谷歌指出。“我们开始理解声音中的模式，为未来铺平道路，在那里人类与海豚之间的交流差距可能会变得更小。”

免责声明：本文章仅代表作者个人观点，不代表本平台的立场和观点。本文章仅供信息分享，不构成对任何人的任何投资建议。用户与作者之间的任何争议，与本平台无关。如网页中刊载的文章或图片涉及侵权，请提供相关的权利证明和身份证明发送邮件到support@aicoin.com，本平台相关工作人员将会进行核查。