Project 02
文言文有声书智能体系统
文言文有声书智能体系统面向古典小说有声书制作,将文言文原文转化为现代白话剧本,并继续生成情绪节奏分析、角色声音参数与音乐氛围规划。项目的成熟度来自明确的多 Agent 分工:每个智能体只负责一个环节,输出继续作为后续环节上下文,最终形成从原文输入到制作方案输出的自动化流水线。

文本改编 Agent
本人主要负责的文本改编 Agent 是整个系统的入口。它拒绝简单的白话文转换,而是采用“两步式精准重构”:第一步进行原文翻译,确保情节、人物和细节零丢失;第二步进行剧本化改写,将叙事文字转化为有声书可演绎的场景、旁白、角色台词、动作和神态描述。
提示词设计中设置了角色、目标、技能、工作流、输出格式和限制条件。核心原则包括忠于原著、不脱离原作大纲、不进行机械直译、减少大段旁白,并通过人物对话和互动增强戏剧张力。
- 角色身份:古典小说改编者 / 古典小说剧本改编 Agent。
- 目标约束:保留原意、提升可听性、保持古典小说叙事逻辑。
- 输出结构:场景、人物、旁白、角色台词、动作描写、神态描写。
四智能体协同流程
小组方案将有声书制作拆分为四个模块:文本改编、分段解析、角色声音参数设计和音乐氛围规划。分段解析 Agent 通读剧本后识别情节转换、场景变化和情绪转折,将文本切为 4 到 8 个段落,并输出段落 ID、段落名称、起止文本、情感标签、强度和节奏。
角色声音参数设计 Agent 面向 AI 配音,要求同一角色前后声线一致,同时允许随剧情调整音调、音量和语气。音乐氛围规划 Agent 则根据段落情绪和节奏安排 BGM 单元,强调古筝、二胡、竹笛等传统乐器与氛围合成器结合,并遵守人声优先原则。
- 分段解析:建立“起、升、高潮、降、收”的情绪曲线。
- 声音参数:为旁白与每句人物台词生成可量化、可执行的配音参数。
- 音乐规划:输出段落范围、情绪基调、乐器组合、进出方式和音量建议。

Python 接口整合
项目通过 Python 脚本把四个 Coze Agent 串联为自动化运行流程。脚本使用 requests 与 json 组织接口调用,以 Bearer Token 完成鉴权,并通过 `stream=True` 与 `iter_lines()` 实时读取流式返回。
整合逻辑采用 Pipeline:用户只输入一次文言文原文,第一个 Agent 输出白话剧本;第二个 Agent 基于剧本生成情绪节奏表;第三个 Agent 接收前两步结果生成声音参数;第四个 Agent 再结合所有前序内容生成音乐氛围规划。`combined_input3` 和 `combined_input4` 负责把前序结果拼接进后续上下文。
- 单点生成升级为流水线生成,减少人工复制粘贴和重复输入。
- 每个 Agent 输出都被保存为变量,并成为下一个 Agent 的输入上下文。
- 流程可直接产出白话剧本、分段解析、声音参数和音乐氛围规划四类制作材料。
项目呈现成果
这个项目表现出的成熟度在于,它不是单个提示词实验,而是一套围绕有声书生产任务拆解出的内容工作流。文本、情绪、声音和音乐分别由不同智能体处理,使输出结果更稳定、结构更清楚,也更贴近实际制作人员的工作方式。
最终系统可以把古典文本从“可读材料”推进到“可制作材料”:剧本可供朗读,分段表可供节奏控制,声音参数可供 TTS 或配音制作,音乐规划可供后期音频编辑使用。