生成式AI掀起产业智能化新浪潮｜爱分析报告

报告关键发现

大模型支撑的生成式AI，让人类社会有望步入通用人工智能时代，拥有广阔的应用前景，有望赋能千行百业。

当前生成式AI的落地整体处于初级阶段，不同模态的落地时间表差异明显，企业需求主要集中在数字化程度高、容错率相对较高的领域，以借助中间件调用大模型能力为主要方式。数字内容产业、客户服务是生成式AI渗透的典型行业和场景。

AIGC+数字内容：数字经济快速发展，带来国内数字内容消费需求的持续快速增长，但国内数字内容产业面临需求变化快、供给侧内容整体过剩而优质供给不足的问题。以长音频数字内容生产为例，AIGC能够助力内容生产的工程化、高质量、个性化。

AIGC+客户服务：大模型依托自身强大泛化能力优势，有望给国内智能客服领域的服务前、服务中、服务后各环节带来效能提升。但由于存在效果不明、数据安全等问题，短期内大模型很难对现有智能客服体系实现完全替代和颠覆，厂商需要探索如何在融合大模型能力的同时实现模式突破。报告典型案例

灵伴智能：呱呱有声AIGC长音频内容生产平台实践案例

容联云&国内某知名车企：新一代数智化客户联络体验中心案例

01 报告综述

大模型主导的生成式AI，尤其是GPT-4的发布，让人类社会看到了通用人工智能时代的曙光。这意味着，作为生产力工具甚至是数字时代的“新基建”的人工智能技术，不用再局限于单一或有限场景，而是能够在众多领域像人类一样进行思考、解决问题，并进行持续、快速的自我进化，因此，大模型主导的生成式AI，将拥有极为广阔的应用前景，有望赋能千行百业。

1.1 政策端：中央定调，地方跟进，协力推动产业发展

人工智能产业已成为全球新一轮科技革命和产业变革的核心驱动力之一，对制造业、金融、医疗等国民经济的诸多行业有着深刻影响。党中央、国务院历来高度重视人工智能产业的发展，近5年来，几乎每年都会有相应政策出台，以持续推动我国人工智能产业的高水平发展和应用。

2023年4月28日，中央政治局会议提出，“要夯实科技自立自强根基，培育壮大新动能。要重视通用人工智能发展，营造创新生态，重视防范风险”。区别于以往会议和文件中泛指“人工智能”产业，这是中央政治局首次提及通用人工智能，为我国人工智能产业尤其是通用人工智能的发展奠定了总基调。

在中央会议精神的指引下和产业发展需要的驱动下，地方政府政策积极跟进，促进人工智能产业政策的进一步落地。

2023年5月末，北京、上海、深圳三地政府接连发布人工智能产业政策文件。例如，5月30日，北京市发布《北京市加快建设具有全球影响力的人工智能创新策源地实施方案（2023—2025年）》，强调要加快推动人工智能场景建设，牵引创新成果落地应用，打造一批标杆型示范应用场景，促进新技术迭代和新应用增长。5月31日，《深圳市加快推动人工智能高质量发展高水平应用行动方案（2023—2024年）》，强调要提升产业集聚水平，打造全域全时场景应用, 推进“公共服务﹢AI”、“城市治理﹢AI”、“千行百业﹢AI”，实施人工智能软件应用示范扶持计划，鼓励金融、商务、工业、交通等行业企业基于人工智能技术对现有生产、服务和管理方式进行升级。

1.2 技术端：文本、语音模态先行，多模态或成人机交互终极状态

从技术构成来看，生成式AI包括基础层、模型层和应用层。基础层主要聚焦算力、数据集、Transformer及CLIP等基础生成算法，为模型层提供基础的资源支撑；模型层主要包括通用大模型和行业大模型两类，是整个AIGC技术生态的核心，为上层应用提供智能化能力；应用层主要是大模型在行业、价值链上的具体展开，是AIGC真正落地和实现价值创造的场景和窗口。

图1：AIGC市场全景地图

人工智能的中远期目标，是模拟人类的认知和思维，进行多维度、多感官信息的摄入和思考。而作为AIGC生态的核心，当前，大模型本身可根据可交互对象的类型进行分类，分成不同模态，包括文本、音频、图像、视频等不同的单模态以及跨模态。例如，专注进行文本和语言文字交互的大语言模型（LLM）、可在文本-图片-视频等模态间进行跨模态内容交互的多模态模型。

从国外最新的技术进展来看，Open AI的GPT-4可进行文本、图像两种模态输入，meta开源的跨感官AI模型ImageBind甚至可实现文本、图像、视频、热点图、深度数据、IMU等6种模态的输入，更多的模态，则意味着更多的交互和应用场景组合。

国内AIGC产业目前尚处于发展初期，各项技术发展进度不尽相同，技术侧的成熟度在一定程度上决定了当前应用场景的选择范畴与效果上限。目前，以文本生成、音频生成应用相对广泛，比如，TTS语音合成技术已经在国内有比较广泛的应用，此外，从国内当前公布的大模型类型主要以进行文本和语言文字交互的LLM为主，便可见一斑。图像、视频、跨模态等，当前要么是在技术酝酿与突破期，要么目前还只是在有限场景下进行局部尝试，尚未规模化展开。

从发展趋势来看，与人类与外界交互最为接近的多模态一定是未来的发展方向，甚至是终极状态。

1.3 需求端：落地侧重于借助中间件进行能力调用，企业规模及属性决定具体落地策略

AIGC的核心在于大模型。大模型引爆市场后，需求端不乏观望摇摆者，但很多行业已开始跃跃欲试。据爱分析调研，目前能源领域落地进展相对靠前，证券等金融领域也在政策的驱动下，开始尝试AIGC的应用。

首先，从需求方向来看，高昂的算力成本、超大规模的数据集要求等高壁垒，加之市场上第三方大模型云集，考虑到专业性、效率及ROI，目前甲方的AIGC需求主要是与大模型厂商或中间件供应商进行合作来调用大模型能力，在传媒、教育、营销、客服、数字人等数字化程度更高、容错率相对较高的领域，需求旺盛，而在医疗等容错率低的领域进展则相对缓慢。

其次，从需求落地目标来看，甲方当前阶段主要目的是新技术尝试、用于组织内部的提效降本，待技术成熟或对内实验取得一定效果后，才会继续向终端用户侧的价值创造及传递场景转移。

最后，不同规模的组织落地生成式AI的策略不同。总体来看，组织获取AI能力无非自建、调用、直接用SaaS三种方式。企业具体的AIGC落地路径势必会结合自身规模、属性进行综合考量来做出选择。从企业规模来看，大中型企业倾向于自建大模型、基于中间件（思维链提示chain-of-thought prompting+微调等）进行能力调用，且采用能力调用方式者居多；小微企业资源有限，则更倾向于集合了底层大模型能力的SaaS，以最低成本实现大模型能力的直接应用、快速落地。从企业属性来看，金融行业企业、央国企等对于合规及数据安全极为重视，即使不选择自建大模型，也会要求大模型以私有化部署方式来赋能自身应用。

图2：AIGC落地需求分解

综上，本报告选取当前受AIGC影响最为明显的数字内容产业、客户服务两个市场作为重点研究对象，围绕相关组织的生成式AI应用实践展开研究。

02 AIGC+数字内容

2.1 数字内容产业发展现状

数字内容产业虽然在全球尚无统一定义，但核心是数字技术与内容创意的融合，是以信息化、数字化手段对文本、图像、声音、视频等信息素材进行生产、传递、消费的新兴产业，包括游戏、文化出版、影音产品、图像图形等诸多细分领域。

近年来随着移动互联网为代表的数字经济的快速发展，国内数字内容的消费需求持续快速增长。分别由专家、用户所主导的PGC、UGC数字内容生产模式，已逐渐无法完全满足数字内容的多样性、效率需求，基于人工智能技术的AIGC，能够深刻、广泛赋能数字内容生产的各类场景和内容创作者，将对数字内容生产产生颠覆性影响。

当前，数字内容发展主要面临以下问题：

一方面，需求侧变化加速。随着Z世代群体逐步成为消费主力，作为互联网原住民的Z世代群体，更加追求个性、喜欢互动，对产品及服务的品质与颜值有更高要求，这使得需求侧的变化周期进一步被缩短，需求变化加快。

另一方面，内容整体过剩，但优质内容的有效供给相对不足，存在结构性供需错位。互联网平台、短视频平台、长音频平台等内容分发平台的崛起，为每个人都提供了低门槛内容制作和展示的渠道，在提升内容丰富度的同时，也客观上降低了内容质量。

上述需求侧与供给侧的不匹配，极大考验数字内容生产方的需求响应及验证能力。与文字、短视频等数字内容的细分领域不同的是，长音频数字内容很大程度上还处在PGC、PUGC阶段，能否在激烈的市场竞争中快速适应市场需求，对长音频数字内容创作者而言，尤为重要。同时，长音频是“知识+娱乐”的复合性数字化内容，市场下一步有望迎来指数级增长。因此，本报告将以长音频数字内容生产为例进行重点分析。

2.2 长音频数字内容生产发展历程

长音频数字内容的典型场景是有声书的制作，有声书早已成为我国居民的重要阅读媒介。随着4G/5G网络的普及、智能手机等为代表的移动互联网技术与产品的持续快速渗透，满足了消费者多场景化、碎片化阅读和交互需求的有声书市场在国内取得了长足的发展。《2022年中国在线音频市场分析》报告显示，越来越多的用户转向收听有声读物来填充碎片时间，大约三分之一成年人会定期收听有声书。因此，近年来，国内有声书市场以两位数的速度稳步增长。公开资料显示，2022年，国内有声书市场规模已接近百亿。和大多数行业类似，在经历了一系列无序竞争后，国内有声书市场开始步入精细化内容主导的质量竞争新阶段。

从发展过程来看，国内的长音频数字内容生产经历了传统人力驱动、AI为核心的技术驱动两大阶段。

图3：国内的长音频数字内容生产发展历程示意

在AI被深度融合到长音频数字内容生产领域之前，国内的有声书制作，相对传统。

一方面，从作业流程视角，传统的有声书包括画本/选角、录音、对轨、后期、审听及上线等众多流程，各环节基本依靠人力和经验来推动。例如，导演需要花整段时间通读话本，并梳理出整本有声书的角色及其关系，同时，包括旁白在内的所有内容均由真人配音演员按剧本按角色各自录制完成。

另一方面，从协作视角，传统模式下，不同环节、各角色分散使用不同工具软件，在成果整合与信息共享方面，需要强有力的组织协调。有声书的创作剧组通常包括导演、众多配音演员、后期专业技术人员等多种角色。各角色间工具不统一、工作进度和效率情况也并不透明，沟通协调任务艰巨。

由于效率偏低，传统人力驱动阶段，业界也有一些对于局部工具的尝试，以提升局部产出效率，但都没有对业务流程及产出效率有实质性的改善。

随着自然语言理解、语音识别等AI技术的不断成熟，业界开始尝试通过AI技术，尤其是通过行业大模型，来大幅提升整体作业效率。比如，可以通过AI来自动完成画本/选角的工作，大幅节省导演的时间；通过TTS语音合成技术，配置个性化的旁白音色，来智能、快速完成原来时间占比最高的旁白工作等等。也有机构尝试通过引入经过预训练的、面向有声书行业的大模型，来进一步提升各环节工作的效率、精准度与质量。

2.3 长音频数字内容生产目前面临的主要问题和挑战

进入新发展阶段后，长音频数字内容生产需求标准的持续抬升与现有供给侧之间的矛盾日显突出，很多依赖传统模式的中小工作室在失去平台扶持和补贴的大背景下，经营开始变得吃力。

1）作业模式严重依赖人力、经验驱动，难以应对需求的爆发、高质量、个性化趋势。传统模式下，整个作业方式是典型的“作坊式”生产，产能天花板明显，且依赖人工经验，内容质量容易产生明显波动，难以将生产过程工程化，无法对快速变化的受众口味进行试水和内容的快速调整，以快速适应市场变化。

2）整体生产过程有待重新定义和优化。原有传统模式下，作业流程并没有结构性调整和优化，容易“按下葫芦浮起瓢”，局部优化后，在全链条的其他环节容易形成“堵点”，影响整体产出效率。为扩大营收，随着项目的增多，管理链条及难度大幅增加，经营问题叠加管理问题，使得问题更加突出。

2.4 长音频数字内容生产当前的主要解决方案

从业界实践来看，目前国内长音频数字内容生产领域主要有以下两大应用实践方向，其中创新性突破实践，将AI等先进生产力工具与作业流程深度融合，在生产力工具、作业流程两方面双管齐下，有望引领国内长音频数字内容生产领域实现实质性效能提升。

1）渐进式优化：即基于以前传统的人力驱动，在不改变整体作业流程与协作模式的前提下，通过引入一些新的技术手段，来提升局部、单点环节的长音频数字内容产出效率与质量，但提效相对有限。比如，内容共享通过云存储方式来实现，内容审听与质检，通过引入一些独立的质检软件来提高审听的覆盖度、纠错质量。

2）创新性突破：充分利用行业大模型为代表的AI技术及大数据技术等新兴技术，基于对行业作业流程及痛点的系统认知，形成颠覆原有作业流程的长音频数字内容生产软件平台，不仅可以调用行业大模型能力进行场景/环节效率提效，还可以通过作业流程优化、数据沉淀及分析，来进行结构性提效，进而实现长音频数字内容生产的高效、精细化运营。

典型案例1：AI驱动，灵伴智能助力国内某知名长音频工作室重塑内容生产流程，突破发展瓶颈

一、传统生产模式发展受阻，国内某头部长音频工作室寻求突破

某长音频工作室（以下简称“该工作室”），于2017年前后进入有声书行业，凭借创始人作为配音演员的富有感染力的表演、高水平的编剧和精心地制作迅速走红，打造出一个有声书领域的知名IP。在国内某大型音频内容平台上，该工作室拥有近百万听众，同时拥有数千名私域铁杆粉丝。该工作室通过购买或合作方式获取小说版权内容，改编并录制成有声读物，通过对外分发、展播获取收入。

发展初期，该工作室以创始人为核心，由创始人任总导演，饰演主角及旁白，组建了一个小型制作团队，由该团队负责项目策划、剧本编辑、后期制作、审听校对，以及剧组统筹协调，同时通过与全国范围内大量兼职配音演员合作，进行版权内容的录音与制作。得益于对内容的精准选品以及精益求精的改编制作，叠加近年来我国有声书市场每年30%+的高速增长，该工作室乘风而起，一鸣惊人，部分作品在某大型音频内容平台上播放量甚至破亿。

图4：该工作室的业务逻辑示意

初尝胜利喜悦后，该工作室迅速加大投资，购买了大量版权内容。鉴于自有团队产能有限，因此，除少部分内容由自有团队制作外，该工作室将其余大部分版权内容通过版权合作模式委托其他工作室进行有声书改编制作。但由于合作方水平参差不齐、品控不足等因素，大部分版权内容的投资难以达到预期收入水平。

经过复盘，该工作室发现，自有团队在垂直领域业务经验和对制作过程的精细管理，对高质量作品的生产非常重要，然而采用传统的“手工作坊式”的生产模式的自有团队，很难快速实现团队人员产能的规模化，其主要痛点在于：

图5：该工作室的主要需求痛点

1. 制作工序多：有声作品制作分为剧本改编、导演选角、演员录音、音频对轨、后期制作及质检审听等6个步骤。在传统模式下，各步骤顺序进行，无法并行提速，在任何步骤都可能发现之前步骤中的问题并返工修改；

2. 参与角色多：一个多人播讲有声剧的剧组一般包括导演（1）、编辑（1）、配音演员（20+）、对轨（1+）、后期制作（1）、审听（1+）、财务（1）等共二十余人。其中多数人员通过互联网在异地兼职；

3. 信息传递难：传统模式下，上述二十余人通过QQ群沟通任务安排和工作进展，利用文本文件传递作品内容，通过网盘传递音频数据，靠人力管理剧组工作进度；

4. 生产周期长：旁白是有声剧中的主要角色，其录音时长占整部作品的6-7成，然而，一个旁白配音演员每天只能产出2-3小时的音频内容，这导致长篇作品的录音工作常常持续一年左右，大部分其他环节的进度均受旁白录音进度制约。此外，在导演选角环节，导演须亲自阅读小说内容并人为梳理出作品中所有角色及角色对应特点，才能根据角色特点选择合适的配音演员，而长篇作品的文字内容常常超过200万字，导演的阅读总结工作量巨大，严重阻碍后续工作展开；

5. 管理难度大：由于工序多而复杂，同时缺乏制作流程的数字化和可视化，剧组管理全凭主观感觉和经验。加之人员多而分散，在超长的生产周期中常出现团队成员拖延任务、离职等意外情况，项目进度常常难以把控，人员工资计算纠纷多；

6. 质量不可控：由于内容生产依赖人工经验，生产过程缺乏统一的技术标准和平台支撑，该工作室难以通过优化管理实现高效稳定的内容规模化生产。

针对以上业务痛点，该工作室希望通过技术手段寻求突破。在所有痛点中，该工作室首先考虑解决作为配音演员的创始人的个人产能问题。该创始人的个人音色和播讲风格是其粉丝认同的核心，因此，该工作室希望通过高拟真的语音合成（TTS）技术实现该创始人的个人TTS模型定制，并利用TTS实现高效高质量的旁白播讲，将该创始人的时间精力从旁白播讲中释放出来，从而更好地投入到主角的表演以及工作室人员的培训和管理中。为实现上述目标，该工作室开始在主流语音合成技术提供商中进行选型，考察范围包括老牌厂商、各大互联网公司以及灵伴智能。

灵伴智能（即北京灵伴即时智能科技有限公司）是一家专注于人工智能基础技术研发以及智能技术产业落地的公司。公司核心智能技术包括语音合成、语音识别、语言理解等。基于其领先的语音合成技术，灵伴智能推出了长音频制作领域首个深度融合AI技术的数字内容生产开放平台——呱呱有声。

呱呱有声利用智能技术彻底重构有声书制作流程，突破了传统剧组面临的多种效率瓶颈，实现数倍的颠覆性生产效率提升。呱呱有声以AI旁白+真人对白的形式，在保证产品质量的前提下，将传统剧组平均1本书1年的制作周期降低到1个月；在画本、录制、后期、审听阶段，引入智能语音、语言理解等AI技术，大幅降低使用门槛，提高制作效率。呱呱有声平台广泛赋能了众多音频内容平台、小说阅读平台以及有声制作工作室。

鉴于此，该工作室在对长音频数字内容服务商进行选型考察时，在充分考虑长音频数字内容行业Know-How、AI技术自主与先进性、SaaS产品成熟度与易用性等多种因素后，最终选择灵伴智能作为本次项目的合作伙伴。

图6：灵伴智能呱呱有声AIGC长音频数字内容生产平台界面示意

二、领先技术+深厚行业Know-How，灵伴智能助力该工作室完成蜕变升级

随着该工作室的核心诉求的演进，在灵伴智能的协助与配合下，双方整体按照“工具导入-整体方案导入”两个阶段展开合作。

该工作室创始人与灵伴智能有过多次研讨及前期的业务调研与沟通。在双方合作早期，鉴于其核心诉求是定制音色，灵伴智能通过领先的自研TTS技术，为该工作室创始人打造了一个拟真度很高，并且具有丰富的情感表现力的合成声音，以提升其音频内容产出效率。

随着双方沟通、合作的深入，该工作室经过一段时间的探索后发现，单纯引入TTS工具，无法从根本上解决其规模化过程中遇到的生产效率瓶颈、管理问题和产品质量问题。因此，在灵伴智能的建议下，该工作室进一步拥抱呱呱有声开放平台提供的智能化人机结合生产模式，彻底放弃传统生产模式，从“作坊式”生产走向“工厂式”生产，极大提升了数字内容产出效能，极大降低了成本，有效控制了版权内容经营风险，取得了出色的项目成效。

图7：该工作室数字内容生产项目合作步骤示意

具体过程如下：

阶段一：单点工具导入

在传统内容制作模式下，由于作为配音演员的创始人自身配音工作产出有限，该工作室每年最多完成5部长篇作品的改编制作。该工作室通过分析，决定抓住“旁白”这一占用创始人配音工作时间最多的卡点，希望通过AI技术，让机器人模仿创始人的音色和风格，代替创始人配音，释放创始人的时间和精力，让创始人可以分配更多的时间给重要角色进行配音，以及进行工作室人员的培训和管理，从而拉高工作室整体产能。

灵伴智能运用自身成熟的TTS技术，结合该工作室创始人对旁白音色的具体需求，基于自身独创的语音建模体系、高自然度的韵律模型和音色学习方法，仅通过该工作室提供的少量样本语料库进行训练，便快速为该工作室定制出了优质的合成声音。

该工作室创始人认为定制的合成声音十分自然流畅，贴近该创始人真人发音，语气、语调、情感等方面也十分出众，超出了自身的心理预期。其后，该工作室迅速利用灵伴智能提供的技术平台，用定制的AI声音进行旁白的演绎配音，在保证旁白效果的前提下，大幅提升了配音环节的作业效率。

这一过程中，虽然灵伴智能也全面介绍了呱呱有声数字内容生产开放平台，但由于该工作室初期需求明确而直接，因此并未完全理解和接受呱呱有声数字内容生产开放平台的核心价值。

阶段二：整体方案导入

在传统模式下，当旁白配音环节产能拉高后，一方面并行开展工作的剧组数量增加，工作室管理与合作的人数大幅增加，另一方面剧组内部的工作节奏也大幅加快。这两方面的变化导致传统模式的劣势快速凸显，工作室创始人明显感觉到管理难度和人员成本的提升带来的新瓶颈，工作室整体产能并未能像预想中一样和旁白产能同比例提高。经过大概2-3个月的探索与磨合，在灵伴智能持续的深度服务与沟通下，该工作室终于意识到，先进生产力工具与传统作业方式不匹配，才是当前阶段的问题关键。

于是，该工作室创始人带领团队再次赴灵伴智能的数字内容生产工作环境进行实地考察。当时灵伴智能已经依托呱呱有声数字内容生产开放平台建立了按照全新人机结合模式运作的、成熟的自营导演团队，团队年产能超过100部长篇作品。通过现场观摩灵伴智能自营导演团队的工作方法，以及多次深入的技术和业务交流，该工作室创始人最终完全理解了新模式的价值，决定将制作业务全部切换到呱呱有声数字内容生产开放平台。这一切换过程主要包括以下步骤：“全员培训-流程切换-陪跑优化”。

图8：呱呱有声数字内容生产开放平台项目合作主要步骤示意

1. 全员培训。灵伴智能自营导演团队拥有非常丰富的行业经验，已经运用自身呱呱有声数字内容生产开放平台产出了大量内容，且已发布至国内知名的大型音频内容平台。在成长过程中，灵伴智能自营导演团队开展了大量的新员工和兼职合作人员培训，积累了非常丰富的业务培训经验，具备系统的客户培训能力，也形成了完备的培训课程体系。

1) 技术培训：由灵伴智能产品研发团队对该工作室进行呱呱有声数字内容生产开放平台的具体功能使用培训，用时约半天。

2) 业务培训：由灵伴智能自营导演团队以及商务销售团队，结合灵伴智能自身数字内容生产与内容运营过程积累的经验，对该工作室进行智能化时代长音频数字内容行业新玩法的全面培训。例如，在新模式下团队人员的组织结构应当如何调整、如何基于呱呱有声平台实现自有团队和外部兼职团队之间的高效协作、如何利用平台提供的业务数据分析和可视化功能实现精细化的项目进度管理和财务管理以及在更高的整体产能下，如何调整各流量平台的合作玩法及运营策略等。

3) 管理辅导：由灵伴智能的创始人团队结合自身的行业洞察、行业经验，与该工作室的创始人进行深度沟通，帮助其进一步梳理清楚战略定位、经营策略，并且对业务切换到呱呱有声数字内容生产开放平台后的工作室产能、成本、利润建立基本的预测模型。

2. 业务切换。经过业务培训后，在灵伴智能团队辅助下，该工作室逐步将制作业务切换到基于呱呱有声数字内容生产开放平台的智能化生产流程上。

1) 业务流程切换：由灵伴智能自营导演团队以及商务销售团队负责，详细梳理原有业务流程和新业务流程的区别，给出详细的业务流程切换方案，同时辅助该工作室重构人员组织结构，对于暂时紧缺的新业务角色，采用灵伴智能自营团队已有良好合作的外部兼职人员及时补充，使得该工作室可以快速切换到新的业务流程。

2) 数据切换：由灵伴智能技术团队负责，与该工作室一道，将该工作室常用的素材、现有在产的内容数据上传并同步到对应功能模块，从而实现工作平台的平稳、完整切换。

3) 后台辅助功能切换：由灵伴智能技术团队负责，协助该工作室将现有自有配音演员、合作配音演员的工作时长、结算标准、已结算情况等财务数据以及该工作室自有人员、兼职配音演员的基本信息等财务与人力后台数据进行上传和功能切换。

3. 陪跑优化。灵伴智能团队将各环节及整体的最优人员配比、月产能等模型和经验数据分享给该工作室后，对该工作室针对新模式的应用、运营进行持续的跟进、陪跑。同时，该工作室结合当地的人才供给、人员成本实际情况进行业务模型优化，灵伴智能团队提供相应的建议，协助该工作室在当地跑通整个新模式。

三、全流程多角色实时在线协作，AI技术赋能内容高效生成，该工作室快速进入稳定运营状态

灵伴智能帮助该工作室重塑了整个业务流程，以“AI+生产模式”的系统升级，颠覆了传统版权内容的数字化制作过程，激活了该工作室的产能，使得生产过程标准化、平台化，可以实现长音频内容的高效生成，大幅降低了运营风险。该工作室经过一段时间的运作，规模已由最初的几个人，扩张至几十人并持续稳定运营。

1. 在新技术、新模式之下，该工作室不仅可以基于呱呱有声数字内容生产开放平台这个SaaS产品，实现全流程、多角色在同一平台上的在线高效协作，还可以让主播与导演在线实时沟通对戏；

2. 该工作室通过AI技术，可智能判断版权内容并生成角色列表及角色关系，智能生成旁白并内置相关音效或给出后期音乐及音效使用建议，大幅缩短了后期制作时间；同时，还可利用AI技术，进行智能审听；

3. 最后，基于协作过程数据，进行智能可视化分析，让该工作室的导演对剧情、各参与方工作量与工作进度、效率情况一目了然，便于强化对内管理、快捷计算人工成本。此外，呱呱有声数字内容生产开放平台还纳入了各大平台播放与订阅数据、舆情数据，可为该工作室提供运营决策参考。

灵伴智能的AIGC长音频数字内容生产开放平台，不仅注入了灵伴智能领先的语音合成、自然语言处理等人工智能技术，更重要的是内化了灵伴智能调研抽象出来的行业业务Know-How，并通过自有团队的实践进行了第一视角的迭代和优化，因此产品技术领先、行业适用性、实用性极强，为长音频数字内容的生产提供了强有力的AI工具和新生产模式。

未来，灵伴智能基于呱呱有声数字内容生产开放平台的出色体验，有望赋能更多的长音频数字内容生产者，构建起一个大型音频内容平台和长音频数字内容生态，可提供多版本、个性化的长音频数字内容，为终端消费者提供更优质、更多元的数字内容体验。

03 AIGC+客户服务

3.1 客户服务领域的技术发展及应用现状

客户服务是组织与客户进行联络交互的重要窗口，业界在客户服务方面也在不断探索，从最开始的纯人工客服到后来进入智能客服+人工客服的组合服务模式，以寻求服务成本、服务效率的最大平衡。在大模型爆发前，智能客服主要是小模型为主，以短文本处理、单轮对话、简单多轮对话见长，能够应对特定行业的有限业务问题，容易引起“答非所问”、“选项有限并且答案死板不变通”等众多“不够智能”的问题，客户体验天花板较低，近年来逐步进入技术瓶颈期。

我们认为，大模型在生成自然语言文本内容时，更加准确、流畅和自然，将会给智能客服为代表的客户服务领域带来以下主要变化：1）在服务前的坐席培训方面，有望结合原有行业专业知识库，实现更灵活更真实地交互，提升培训效果；2）在服务中的智能机器人环节，可以提供更加准确、流畅、个性化的交互能力，以强大的翻译能力赋能跨语言客服；在智能辅助方面，有望打破原有单轮、有限轮对话的局限，真正实现多轮对话，提供高效精准的话术引导、优化，提升辅助效果、效率；3）在知识库管理方面，利用大模型优势，替代人工标注，协助某些行业智能客服进行冷启动，或进行行业知识的快速抽取和结构化，甚至辅助生成大量近似问法，破除原来人工拆解、构建和维护知识图谱的模式效率效果难题，加速知识图谱的构建，降低知识图谱构建成本等。

然而，大模型要真正的在各行业智能客服领域进行落地，也面临诸多问题。首先，必要性角度，原有的智能客服+人工模式已运行多年，对人工成本的优化已经达到一定程度，大模型的接入所带来的体验提升能否与其成本相对应、是否有合理的ROI，目前尚不确定。其次，可行性角度，ChatGPT由于政策原因，在未来可预见的相当长的时间内，可能无法直接进行商用。即使接入国内的通用大模型，想要在客服领域有比较好的结果表现和可控性，势必需要进行模型的再训练，而再训练的关键在于垂直领域数据，但客户服务数据多在甲方企业侧，智能客服厂商难以说服甲方企业“共享”自身数据去训练一个面向整个特定行业的行业模型，而私有化部署又会带来成本的大幅提升，对于大部分企业而言，项目ROI难以平衡。据爱分析调研，目前国内智能客服领域，甲方侧依旧在初步尝试和观望，厂商侧还在进行内部测试，寻求如何融合大模型能力并实现模式突破。因此，单纯的大模型，短期内很难对现有智能客服体系实现完全替代和颠覆。

但面对技术“革命”，客户服务领域需认真思考，如何利用大模型为代表的人工智能技术去进行自身产品、服务的迭代升级，为客户提供更高价值，为用户提供更好使用体验。

本次研究，我们选取了客户服务领域的核心载体——客户联络中心，进行研究。

3.2 客户联络中心的功能及定位发展演进

整体来看，客户联络中心发展至今，已经发生了多个版本和形态的迭代。

从最开始的以人工坐席+电话为典型特征的初始形态，到后来接入全渠道客户服务订单，其后通过融合CTI与云计算技术，将智能路由、工单协同等常见功能进一步整合和云化。近几年，客户联络中心开始逐步引入AI技术，落地形成诸如外呼机器人、文本对话机器人、智能质检、智能辅助等具体工具形态。与此同时，随着数据的持续沉淀和数据技术的引入，在AI技术和数据技术的合力驱动下，通过AI算法将数据汇聚成数据集，并据此进行大数据分析，形成客户的标签画像，进而在企业与客户取得联络和沟通时，能够基于客户画像、需求画像，进行更加精准的服务。

图9：国内客户联络中心发展的主要节点回顾

首先，传统呼叫中心，主要是企业被动响应客户咨询、投诉等服务需求的一种纯成本化企业职能部门。发展初期，主要目的是为客户提供7*24小时的不间断服务，采用的也是传统的电话机或有排队功能的小型交换机。这一阶段主要是人力和经验驱动，企业对客服人员的培训以及客服人员处理复杂问题的经验都十分关键，客服水平层次不齐、整体效率低下。传统呼叫中心通过引入IVR等技术、CRM等软件系统，帮助实现客户分流、有限场景的交互应答及信息补充等功能，降低了坐席的工作强度，大幅提升了整体服务效率和坐席人员的服务能力。

其次，智能手机的出现，使得企业的触客渠道与形式也日趋多元化，客户通过电话、线上渠道等多种方式，以图片甚至是视频等富媒体形式与企业进行交互联络，业界开始引入CTI（计算机电话集成）技术，来对呼叫中心进行升级，综合电话与计算机各自的优势，并充分发挥计算机强大的信息控制、存储和处理能力，通过整合各类软硬件资源及信息，实现多渠道信息同步、在线与语音的无缝切换。同时，呼叫中心开始逐步“软件化”甚至“云化”。

再次，伴随云计算技术在国内进入快速发展阶段，业界开始出现大量云呼叫中心服务商，通过融合CTI与云计算技术，将智能路由、语音导航、工单协同等常见功能进一步整合和云化，向企业提供SaaS服务，作为企业人工坐席的一站式工作台，赋能企业人工坐席与客户联络的全流程。例如，智能化的IVR导航技术，可以基于坐席的过往服务表现以及客户优先级、客户问题的复杂程度，自动智能匹配最佳接待人员，确保客户服务满意度。

最后，人工智能与大数据技术的交汇融合，以及客户对服务预期的不断提升、客服人力成本的持续攀升，使得业界在客户画像、智能化服务等方面进行持续探索。尤其是随着自然语言理解（NLU）、语音识别（ASR）、知识图谱等技术的发展，一方面使得智能客服机器人的应用场景越发广泛；另一方面，也在智能辅助、智能质检等方面，发挥了重要作用。例如，智能化坐席辅助工具，不仅可以在客服人员上岗前辅助新员工快速掌握标准话术，实现快速上岗，还可以为坐席人员拉取客户画像、分析客户意图，进而基于知识图谱和标准作业流程，给出流程引导和最佳话术建议，提升服务效率的同时，最大程度的提升客户联络过程中的客户满意度。

3.3 客户联络中心的发展趋势

回顾国内客户联络中心的发展历程，不难看出，其背后主要有“两明一暗”三条线在推动行业持续向前演进发展。“两明”：分别指技术方向的数智化程度、功能定位方向的价值贡献度，而背后的“暗线”，则反映的是企业在客户联络问题上经营理念的转变，从原来“以产品为中心”逐步向“以客户为中心”转变。

图10：国内客户联络中心演变逻辑维度示意

近年来，企业也越来越意识到，原本单纯作为客户联络与服务的客户联络中心，在与客户大量、持续的沟通、交互过程中，有大量接触到最前沿、最真实的客户反馈的机会，也有大量向客户推荐自身产品及服务的场景和机会，通过提升客户满意度及客户体验，推动客户进行增购、复购，进而对企业的业绩增长做出贡献。因此，客户联络中心绝不是单纯的成本中心和“救火队长”，随着企业内部对于客户联络职能定位的重新思考，在企业的具体实践中，客户联络中心已逐步由成本中心向“价值创造中心”方向去过渡，在客户联络与服务过程中，逐步去扩展营销的一些职能。因此，“服务营销一体化”得到越来越多企业的重视，并成为客户联络中心在功能定位维度上的新发展方向。

在数智化维度上，大模型的爆发为客户联络中心的智能化升级提供了强大助力，有助于大幅提升现有客户联络中心的智能化程度，进而在坐席辅助、智能质检、智能客服多轮对话等客户联络全生命周期场景中，提供相较于原来更强大的技术助力和智能化交互体验。

典型案例2：AI助力，某大型车企实现客户联络能力的换代跃升

一、传统架构无法适应业务发展需要，某车企亟需客户联络中心智能化升级

国内某大型车企（以下简称“该车企”），经过20余年发展，目前该车企拥有3个生产基地、3座整车工厂，年产能力超过百万辆，员工总数超万人。作为中国汽车市场的主流车企，该车企销售及售后服务网络遍布全国，可为消费者提供最优质的购车和售后服务。截止目前，该车企共计推出车型达三十余款，在售车型十余款，涵盖了A0级、A级、B级、SUV、新能源等主流细分市场，已累计实现整车产销超千万辆。

2017年后，人工智能技术在中国开始进入快速发展期，智慧城市、智能音箱、刷脸及指纹支付等应用场景持续爆发。然而，随着业务的快速发展，至2018-2019年前后，该车企原有的呼叫中心整体上还相对传统，主要还是数百名坐席通过传统的电话接入方式来进行客户接待，投入产出比、服务效能不高，客户联络中心的功能已经明显滞后于业务发展速度。

相比之下，已有部分国内同类汽车主机厂在尝试探索对话机器人、智能语音机器人等AI技术在汽车领域的应用，率先采用智能化方式进行服务与营销，提升服务与营销效能。因此，该车企的IT部门经过调研和评估，认为对系统的改造升级势在必行。具体来看，该车企的主要需求痛点如下：

图11：该车企的主要需求痛点

1. 客户联络中心现有系统架构老旧，拓展性、兼容性较差。该车企现有的系统架构是非常传统的呼叫中心架构，无法融入最新的AI及大数据等技术和功能、无法与周边相关业务系统进行很好的兼容打通，致使该车企的客户联络与服务的很多流程是出现断点、碎片化，工单无法顺利及时地被传递给产品研发、营销等部门，致使客户联络中心整体服务效率不高，客户体验也受到影响。

2. 客户智能化运营能力偏弱。该车企的客户触达仍旧以人工方式为主，缺乏用户画像，客户运营流程并非基于客户全生命周期进行了打通与贯穿，因此，无论是系统架构能力还是业务知识及流程，该车企尚未构建起客户智能化运营的支撑体系，客户运营效率、精准性不高。

3. 客户服务与营销脱节。该车企客户联络中心一直以来主要以售后服务为主，客户触达手段以传统的短信、问卷调研为主，主动、智能化触客工具缺乏，致使该车企的客户联络中心的营销功能偏弱，服务与营销功能脱节，在营销服趋于一体化的大背景下，单纯的售后服务，无法及时把控营销机会。

针对以上业务需求痛点，该车企决定顺应技术演化、行业客户联络及服务模式升级的大趋势，于2018年底-2019年初启动智能客户联络中心项目。

在对客户联络中心服务商进行选型考察时，经过严格的招投标程序，经过对容联云产品的体验、关键技术的验证，在充分考虑行业Know-how、AI技术自主与先进性、产品关键功能体验、行业应用情况及服务能力等多重因素后，最终选择容联云作为本次项目的合作伙伴。值得一提的是，2019年底，该车企宣布容联云中标后，由于恰逢国内新冠疫情突发，致使容联云项目组无法到场实施，期间双方保持密切沟通，至2021年，疫情相对稳定时，项目才得以重启并于2021年完成交付上线。

北京容联易通信息技术有限公司（以下简称“容联云”），是全球智能通讯云服务商，致力于为全球客户提供领先的智能通讯与营销科技服务。依托自主创新且行业领先的人工智能、云计算、大数据技术和深度行业Know-How，容联云整合自身“通讯+智能+数据”的核心能力，打造了全面且高效的数智化产品矩阵，实现了从生产和管理、到市场营销、运营服务等完整业务数智化转型的能力闭环，为全球多个国家和地区的政府机构、企业组织和开发者，提供安全、可靠、可信、高效的数智化解决方案和企业服务，助力各行业组织营销与服务数智化转型。

经过容联云售前团队与该车企IT部门、客户联络中心等部门的多次现场调研、沟通，针对该车企的核心需求痛点，在容联云的建议下，该车企决定引入整合了容联云核心AI技术、云原生技术、全信创的智能联络中心平台——“容犀联络云·AICC”一体化解决方案，实现与周边业务系统的功能和数据贯通，实现了全渠道智能化服务、工单流程再造、服务效能改善、规范化管理、客户感知、营销拓展等典型业务应用，在功能扩展和运维管理方面也表现优异，大幅提升了该车企基于客户全生命周期的智能化客户运营服务效能。

图12：智能联络中心系统架构示意

二、架构升级+流程重塑+AI赋能，容联云助力该车企完成服务与营销的智能化、一体化升级

经详细沟通评估，结合自身的项目实施与质量控制流程，在容联云的建议下，该车企的智能客户联络中心项目按照“业务需求调研-项目规划设计-项目实施与集成-试运行-正式割接”五大步骤，递进实施。最终成功上线“容犀联络云·AICC”一体化解决方案，并取得了显著的业务成效。

图13：该车企智能联络中心项目合作步骤示意

具体过程如下：

1. 业务需求调研：此类大型项目，在标前阶段并非所有需求、接口都会表述的特别明确。国内疫情平稳后，项目重启，容联云的交付团队深入该车企业务一线，同该车企的IT部门、客服等部门进行高频次会议及沟通，对该车企本次项目的业务需求、技术需求进行了进一步的明确，同时结合汽车行业的特点、该车企当下的技术现状以及项目周期和时间要求等要素，协助该车企完善了部分项目功能规划，给出合理且可行的技术方案建议，产出了技术规格书、集成和与设计方案等文件，便于双方就项目目标、范围、方案达成一致。容联云项目实施团队还就整个实施过程向该车企IT、客服部门负责人做了汇报，容联云严格按照公司项目实施的标准流程，对重点大客户项目，还有项目管理条线、项目技术条线的“双线”支持和监督，针对重大资源协调、关键问题进行牵头保障，以便进行项目实施、质量控制。

图14：容联云项目管理及质量控制机制示意

2. 项目规划设计：首先，基于上一步达成的项目目标、范围及方案，容联云以拟交付的项目成果为导向，形成明确的WBS（Work Breakdown Structure）；其次，基于全渠道、全生命周期客户触达与运营、营销服一体化的理念，结合汽车行业业务场景特征，容联云帮助该车企进行了客户服务、营销业务的流程梳理、优化与重塑；最后，针对新流程要求及该车企比如坐席工作台、数据报表等相关业务场景要求，进行部分定制功能的开发、配置，以便下一步的项目现场实施。容联云的低代码坐席工作台，使得项目交付团队不用改变底层代码，就可以快速帮助客户配置好个性化的坐席工作台。

3. 项目实施与集成：准备工作就绪后，容联云项目交付团队赴该车企的工作现场进行项目实施。

图15：该车企客户联络中心项目实施与集成阶段主要工作示意

1）系统架构升级。容联云帮助该车企引入软交换、基于云原生技术的微服务架构，从系统架构层面帮助该车企实现了一个大的一个飞跃。新的架构更开放，可以去完美融入最新的AI技术、大数据技术，便于该车企具备长期的客户联络中心的功能演化及生长能力，也便于其智能化功能的上线。此外，微服务架构，对 IT部门而言，也更容易去运维和管理。

2）流程适配。容联云基于前述阶段所梳理、重塑的流程以及开发的功能，结合现场工作需要，进行细分场景功能模块设计、通信接口定义、模块间接口配置、模块间调用及逻辑关系、数据结构、人机界面等的系统梳理和适配，完成对新流程下所有业务环节、场景的功能覆盖。

3） AI智能化。容联云结合自身的AI核心技术能力和对该车企业务流程、业务场景的理解，将各种智能化的应用穿插在整个AICC 的服务流程和解决方案当中。

a）业务知识梳理。凭借容联云多年服务各行业客户积累起来的一套针对大客户的智能化服务和运营优化体系，与该车企一道快速构建起面向智能咨询、智能营销、智能化客户运营等环节场景的领域知识库和知识图谱、行业文档知识，用以支撑主要场景下的智能化服务。

b）数据挖掘。运用大数据分析及智能化方式，帮助该车企去识别不同客户的身份、标签特征、生命周期阶段，通过上述智能化手段帮助该车企判断特定客户的购买意向、会员等级与权益等。并根据交互内容，持续进行数据沉淀与闭环更新。

c）多渠道智能交互。容联云一直在智能对话算法前沿进行探索和尝试，比如基于pre-training大模型的自动语料扩展、小样本数据训练、分布式机器学习、强化学习、利用模型能力的数据聚类、智能纠错、主题抽取、知识图谱、文档生成等很多AI核心技术的研究。

在上述触达和会话过程中，基于客户标签，依赖容联云多年来经过验证的AI核心算法、模型调优方法、出色的语音技术和语义理解技术来进行用户意图理解、用户情感判断，实时抽取用户画像、领域知识库和知识图谱、行业文档知识，帮助该车企自动生成针对不同场景的互动内容，并针对不同生命周期阶段客户，实时生成更加富有个性化的业务话术推荐以及深度结合用户需求的业务推荐，通过外呼机器人、智能语音、在线智能客服等多个渠道，进行调研关怀、活动邀约、产品推广、复购营销等系列服务营销一体化动作，大幅提升了该车企客户触达渠道丰富性、触达精准性、触达效率，提升智能对话的体验和效果。

图16：容联云智能服务核心能力示意

4）周边系统融合与功能贯通。基于本次项目所要达到的全渠道、全生命周期、营销服一体化的项目目标，容联云将新升级的系统架构与该车企的工单系统、CRM系统等周边系统进行打通对接，实现多系统协同作业、客户信息收集和客户感知、客户标签画像、工单流转等功能，提升服务效率。

5）测试环境、灰度环境搭建。在主体功能开发配置完成后，容联云快速结合该车企的实际情况，搭建了测试环境、灰度测试环境、生产环境，便于“容犀联络云·AICC”一体化解决方案后期进行功能测试、小范围上线、整体上线。

4. 试运行。考虑到该车企有大量的存量客户需要服务，为确保客户联络中心的平稳运行，容联云采取同步运行的方式进行过渡。一方面，保持该车企之前的客户联络中心 7* 24H正常运行；另一方面，对客户联络中心的各项功能，按照使用频次排序，在测试环境、灰度测试环境下进行逐项测试和试运行，并对通过测试和验收的功能，逐项进行功能割接。

5. 正式割接。待所有关键功能测试、验收完毕后，容联云协助该车企将“容犀联络云·AICC”一体化解决方案整体在生产环境中完成部署，实现从现有传统架构向新架构的整体跃迁，客户联络中心的所有功能正式上线。

三、云通讯技术与AI深度融合，该车企客户联络中心实现智能化能力的突破跃升

该车企的智能联络中心项目重启后，容联云按照预定的产品方案和流程，如期快速实现了交付，目前系统运行平稳，智能化应用也都达到了预期效果，满足该车企当初所制定的各项项目目标，实现了一体化、智能化客户联络能力的跃升。比如，由于智能化工具的接入，坐席方面至少降低了了40%-50%的人工坐席成本。

在智能化应用的模型训练方面，容联云采用了很多大模型的算法能力，如语料扩展和低样本训练、半监督学习，数据聚类、智能纠错等，取得了不错的效果。同时，通过该车企智能联络中心的项目实践，容联云也进行了产品的一些功能迭代，可以说取得了双赢的效果。

稳定、可靠、智能的企业云通讯应用，是容联云始终坚持的方向，容联云将结合核心产品功能和客户行业，重点投入一些更实用、更贴合项目实战的算法研究。面向垂直行业领域的模型的建立、算力资源优化、精调将是容联云后续会强化投入的地方，目前，基于容联云正在与多家银行共同探索大模型在智能客服场景中的落地应用。此外，容联云也非常重视和高校/创新型组织/开发者社区之间的生态合作，借助伙伴的力量更快速迭代。未来，容联自研大模型将会不断融入到容整个产品架构中，赋能客户更多业务场景及应用。

04 结语

爱分析认为，尚处于发展初期的生成式AI，其当前发展的重心在于“落地生根”，需要厂商、甲方、生态合作伙伴等多方的深度协作，以实现产业供需的良性循环，加速产业落地。

具体来看：

4.1 自B端切入，在C端蓄势，以超级入口方式变现

从目前国内的大模型厂商公布的公测产品来看，主要面向B/G端市场，在预算、应用场景的共同驱动下，将通过大模型与传媒、金融、能源、制造等领域企业应用场景的深度融合，来促进大模型的进一步落地，目前也主要是集中在文字处理、文档生成、文生图的相关场景。

不同于国外的订阅模式，B端市场在经过大模型赋能后，其价值创新或效能提升最终反应在C端也需要一个过程，且不同行业进程不尽相同，因此，国内在C端市场上的刚需应用场景需要持续探索，最终很可能会通过超级入口的方式实现变现，比如智能家居中的某些入口级硬件，或者个人办公方向的入口级软件。同时，C端用户对于大模型相关付费所对应的产品及服务的预期可能更高，互联网乃至移动互联网时代的免费习惯的扭转和教育需要较长时间。

4.2 MaaS将成标配，融合了大模型能力的SaaS将是小微企业首选

人工智能，尤其是通用人工智能对各行业、各类型组织的智能化改造，将是未来各行业和各类型组织数字化转型的主旋律。但各行业、各类型组织的数字化需求、数字化资源与程度各不相同，加之底层大模型能力是一个极高壁垒的领域，从资源可行性、必要性、ROI等角度看，“运用好”大模型较“拥有”大模型对企业而言更为重要，因此，便捷调用大模型能力进行自身应用的开发，将成为众多中大型企业的首选。而长尾企业，则更希望能够直接应用融入了大模型能力的SaaS服务去直接解决业务及管理问题，以便用最低的成本享受技术红利。

4.3 生态化，将是大模型时代商业模式的核心特征

无论是行业、场景的碎片化，还是大模型的应用本身的较高壁垒特性，抑或是商业化落地所需的各种资源，我们认为，大模型时代仍将具有云计算时代的生态化特征，并且生态化特征将被进一步强化，甚至成为核心特征。一方面，从底层基础层到中间的模型层再到上层应用层，本身就是一套生态体系；另一方面，大模型作为工具，其安身立命的关键在于实现价值落地。而大模型的落地，至少有prompt+调优、大场景的进一步细分、SaaS等潜在路径，这些显然都需要更加贴近客户侧的专业团队来帮助大模型去实现“场景”赋能，因此，大模型价值落地的过程势必是一个生态协作的过程。