创建或修改目录:/www/wwwroot/104.219.215.234/data 失败!
发布日期:2025-03-23 04:01 点击次数:144
王鑫涛,复旦大学博士生,师从肖仰华、汪卫讲授,致力于于探索用AI创造具有东谈主格的数字生命。商榷标的聚焦大言语模子与Agent时间,在AI脚色饰演范围发表多篇ACL/EMNLP论文,以及该范围首篇商榷综述国产主播,筹算援用量三百余次。他的商榷寻求AI时间与东谈主类情态需求的衔尾。科研除外,他是一位二次元爱重者、业余Coser。该商榷完成于他在阶跃星辰实习时刻,指令者为王亨安分。
论文标题:CoSER: Coordinating LLM-Based Persona Simulation of Established Roles
论文通顺:https://arxiv.org/abs/2502.09082
脚色饰演 AI(Role-Playing Language Agents,RPLAs)看成大言语模子(LLM)的紧要应用,频年来赢得了芜俚暖和。无论是用于情态陪同、故事创作、游戏中的 AI 脚色,如故真东谈主的数字分身,王人需要模子约略准确捕捉和模拟特定脚色的设定、个性和行径方式。非常是当饰演演义、动漫中的着名脚色时,模子需要获取并愚弄对于这些脚色的无数学问。然则,现存的脚色饰演 AI 濒临两大中枢挑战:艰辛高质地的信得过脚色数据集,以及阑珊有用的评估表率。
为管理这些问题,复旦大学和阶跃星辰合营发表了一篇使命,CoSER(Coordinating LLM-Based Persona Simulation of Established Roles),一个包含当下最大的信得过数据集、SoTA 开源模子和最深切的评估表率的完好框架,用于高效构建和评估脚色饰演 AI。本文的代码、数据集和模子已在 Github 和 Huggingface 上开源,用于促进脚色饰演 AI 在商榷和应用中的发展。
CoSER 8B: https://huggingface.co/Neph0s/CoSER-Llama-3.1-8B
CoSER 70B: https://huggingface.co/Neph0s/CoSER-Llama-3.1-70B
CoSER Dataset: https://huggingface.co/datasets/Neph0s/CoSER
CoSER Code: https://github.com/Neph0s/COSER
See and Chat with Your Favorite Book Characters: https://ch.rhineai.com/characters
CoSER Dataset
最大、最信得过、最丰富的脚色饰演数据
从天下最着名的 771 本书中,本文构建了 CoSER Dataset,迄今限制最大、最信得过、最丰富的脚色饰演数据集,包含:
来自 771 本着名文体作品的 17,966 个脚色
29,798 段书中的信得过对话,而非由大模子生成
全面的数据类型:脚色概述、对话(包含堤防的高下文景象)、要津剧情的节录和脚色履历和等
言语、动作和念念法:除了言语的对白,对话中还包括脚色的动作和念念法。
上图将 CoSER Dataset 与之前的数据集进行了比拟。抽象来说,CoSER 的特有之处在于:
1. 信得过性:不同于此前数据聚积无数使用的 LLM 生成的脚色问答对,CoSER 数据集从经典文体作品中索求信得过脚色对话,在诚挚描述脚色的同期,保留了信得过对话的复杂性,是自然的多轮、多脚色的优质对话数据。
2. 全面性:CoSER 数据集不仅包含脚色概述和对话,还包括剧情节录、脚色履历和对话布景等丰富推行。堤防的对话布景在脚色饰演的检修和评估中十分紧要,而剧情节录、脚色履历提供了更丰富的脚色学问。
3. 多维抒发:对话推行涵盖言语(speech)、动作(action)和念念法(thought)三个维度,使脚色发扬更为立体。其中,念念法数据能匡助模子在检修中更好地见地脚色的行径和言语。
4. 环境看成罕见脚色:将环境视为罕见脚色,彭胀了脚色对话能抒发的信息,使对话数据不错示意书中的环境反馈、公共脚色反应等信息。
Given-Circumstance Acting
脚色饰演的检修与评估表率
本文引入了给定情境演出(Given-Circumstance Acting,GCA)表率用于检修和评估 LLM 的脚色饰演智商,这一表率受到了《演员的自我教会》的作家 - 斯坦尼斯拉夫斯基 - 的演出表面的启发。
在检修阶段,给定一段对话偏激高下文景象,本文让模子每次饰演对话中的一个脚色,并在相应的台词上进行检修。基于这一表率,本文检修了 CoSER 8B 和 CoSER 70B 两个模子,它们基于 LLaMA-3.1 构建,展现了信得过、生动的脚色发扬智商,并在多项脚色饰演评估上取得 SoTA 收货。
在评估阶段,GCA 评估由两个要领构成:
1. 多智能体模拟(Multi-agent Simulation):构建一个多智能体系统,让被评估模子顺次饰演不同脚色,在给定情境下进行模拟,赢得一段由多个脚色 AI 交互生成的对话。
2. 基于刑事背负的 LLM 评判(Penalty-based LLM Juding):让 LLM 饰演评判者,使用堤防评分范例(rubrics)和原始对话看成参考,按照 “采点扣分制” 识别明确的演出瑕玷来评估模拟对话的质地。下图展示了 “东谈主物诚挚度” 维度的扣分范例:
本文将评估维度按照 1. 暖和自己质地 or 暖和忠于原作;2. 暖和单一脚色 or 暖和举座模拟,分红了以下四个维度。
GCA 评估表率的上风在于:1. 通过多智能体模拟,全面反应模子的多轮、多脚色的饰演智商;2. 基于原著中的信得过对话看成 Groundtruth,并提供大师级评分范例指令 LLM 评判者。
要津实验与论断
在本文建议的 GCA 评估中,CoSER-70B、GPT-4o、Step-2、Doubao-pro 取得了最佳的发扬,其中,CoSER-70B 的发扬远超其他开源模子。进一步,本文在实验中还讲述了 BLEU、ROUGE-L 等想法来比拟模子生成对话与 Groundtruth 对话的一致性,在这一想法上 CoSER-70B 逾越了扫数的现存模子。
阳光在线在 InCharacter、LifeChoice 等基于分类和多选题的脚色饰演基准测试上,CoSER 模子也取得了优秀的发扬。其中,CoSER-70B 在 InCharacter 和 LifeChoice 基准测试上分辩达到了 75.80% 和 93.47% 的准确率,突出或匹配 GPT-4o。
在论文中,作家还进行了其他实验,诠释了念念法数据在检修 / 推理阶段的紧要性、将 CoSER 数据用于检索增强(RAG)的有用性等论断,感酷好的读者不错在论文原文中找到相应的实验。
Case Study
终末,下图列出了 CoSER 测试聚积的一个例子(出自《权利的游戏》),包括其中的对话场景、Groundtruth 对话及 CoSER-70B 生成的遵循。在这个例子中,咱们看到,CoSER-70B 不仅将脚色的布景、本性师法得活天真现,还用上了原作的脚色的经典台词(不在数据中出现),体现了 CoSER 模子在饰演演义脚色时的优秀发扬。
© THE END转载请谋划本公众号赢得授权
投稿或寻求报谈:liyazhou@jiqizhixin.com国产主播
]article_adlist-->