萤石算法服务原理及信息处理情况说明

根据《互联网信息服务算法推荐管理规定》、《生成式人工智能服务管理暂行办法》等相关法律法规，为依法保障用户对萤石算法服务的基本原理、目的意图和主要运行机制的知情权、自主选择权，我们特制定本文件，帮助用户充分了解在萤石算法服务的相关情况，以更好地作出服务选择。

本文件适用于链接或援引至本文件的，萤石通过萤石智能硬件设备、网站、客户端、小程序等形式向您提供的各项产品或服务。需注意的是，萤石产品和服务下可能会使用到其他第三方的算法，其运行机制等须参阅相关第三方的说明。

1. 算法名称：萤石语音合成算法

算法基本原理：萤石语音合成算法的作用对象是文本和语音数据。当用户输入文本，并依据算法内置的模板指定音色后，本算法可将用户文本内容以指定音色进行语音播报。

算法运行机制：萤石语音合成算法整体由前端模块、声学模块及声码器组成。其中前端对输入文本进行音素转换，这其中包括了正则化、多音字分歧、转音素等模块，目的是将输入文本尽可能准确地转成音素；前端模块输出的音素作为声学模块的输入进入该模块，从而生成声学特征；最后，声码器将声学特征转换成最终的语音。

算法应用场景：萤石智能家居硬件设备（智能安防、智能入户、智能控制、智能机器人、智能穿戴）及移动互联网应用程序（APP、小程序）在语音交互、语音播报、迎宾词、语音备忘录等业务场景中使用。

算法目的意图：为用户实现相应场景下的文本转语音功能，提升用户使用体验。

备案编号：网信算备330108156993201240021号

2. 算法名称：萤石图像视觉算法

算法基本原理：萤石图像视觉算法的作用对象是文本或图像数据。根据用户输入的文本和图像，本算法按照用户需求，利用扩散模型的能力，生成对应的用户所需的图像。

算法运行机制：萤石图像视觉算法将用户输入的文本或图像分别输入文字编码器和图像编码器进行编码，提取到文本特征和图像特征后输入到扩散模型中生成潜在特征，利用图像解码器对输出的特征进行解码，重建成像素级图像。

算法应用场景：萤石智能家居硬件设备（智能安防、智能入户、智能控制、智能机器人、智能穿戴）及移动互联网应用程序（APP、小程序）在AI图像风格化、AI背景移除、AI扩展、AI除杂、AI局部重绘等业务场景中使用。

算法目的意图：萤石图像视觉算法的目的是简化图像处理方式，将复杂的图像处理操作简化为端到端的实现方式，为用户提供广泛和便捷的图像处理服务。

备案编号：网信算备330108156993201240039号

3. 算法名称：萤石图像生成算法

算法基本原理：萤石图像生成算法作用对象是文本或图像数据。通过调用三方API接口，根据用户输入的文本和图像，本算法按照用户输入文本（包括文字及语音转化后的文字）和图像，输出符合用户需求的结果图像。所调用的三方API包括：1）阿里云-通义万象大模型API，生成式人工智能服务备案号：ZheJiang-TongYiQianWen-20230901号，网信算法备案号：330110507206401230027号；2）抖音火山-云雀大模型API，生成式人工智能服务备案号：Beijing-YunQue-20230821号，网信算法备案号：110108823483901230073号。

算法运行机制：萤石图像生成算法首先对用户输入的文本或图像进行内容安全审核；通过内容安全审核的输入内容进入到生成模块，此模块将对用户的生成需求进行分配，通过不同的生成方案对用户输入的文本或图像信息进行图像生成；结果图像通过内容安全审核后向用户输出展示。

算法应用场景：萤石智能家居硬件设备（智能安防、智能入户、智能控制、智能机器人、智能穿戴）及移动互联网应用程序（APP、小程序）图像在处理服务、图像修改或生成等业务场景中使用。

算法目的意图：为用户实现相应场景下的图像服务，提升用户使用体验。

备案编号：网信算备330108156993201240047号

4. 算法名称：萤石文本生成算法

算法基本原理：萤石文本生成算法作用对象是文本数据。通过调用三方API接口，根据用户输入的文本（包括文字及语音转化后的文字），输出符合用户需求的自然语言赋睿文本结果。所调用的三方API包括：1）阿里云-通义万象大模型API，生成式人工智能服务备案号：ZheJiang-TongYiQianWen-20230901号，网信算法备案号：网信算备330110507206401230027号；2）抖音火山-云雀大模型API，生成式人工智能服务备案号：Beijing-YunQue-20230821号，网信算法备案号：网信算备110108823483901230065号；3）DeepSeek大模型API，生成式人工智能服务备案号：Beijing-DeepseekChat-202404280016，网信算法备案号：网信算备110108970550101240011。

算法运行机制：萤石文本生成算法首先对用户输入的文本进行内容安全审核。通过内容安全审核后，用户输入文本会进入到思考模块，此模块将用户的问题进行分配，通过直接生成、工具调用、知识库搜索等完成汇总。汇总后的数据最终再经过与第一步类似的内容安全审核后输出。

算法应用场景：萤石智能家居硬件设备（智能安防、智能入户、智能控制、智能机器人、智能穿戴）及移动互联网应用程序（APP、小程序）在智能对话客服、智能设备语音互动、智能设备联动、智能检索、智能告警消息生成等业务场景中使用。

算法目的意图：通过生成可靠的自然语言输出，为用户提供相应场景下的服务，提升用户使用体验。

备案编号：网信算备330108156993201240055号

5. 算法名称：萤石图生文算法

算法基本原理：萤石图生文算法作用对象是文本、图像数据。根据用户输入的文本（包括文字及语音转化后的文字）和图像数据输出符合用户需求的自然语言的文本数据，实现与用户的自然语言交互。

算法运行机制：萤石图生文算法支持文本和图像数据的输入及处理。算法流程主要分为敏感过滤、数据处理和数据输出三个阶段。第一阶段：用户输入的文本数据或图像数据首先会经过内容安全审核。第二阶段：算法对用户输入的文本数据和图像数据分开处理。用户输入的文本数据会进入思考模块。该模块对输入问题进行分类，采用直接生成、工具调用、知识库搜索等方式完成文本生成。用户输入的图像数据会先进入图像编码模块，此模块对图像进行编码，随后经过生成模块生成得到图像的描述文本。第三阶段：在完成上述数据处理后，算法模型生成的文本会再次经过与第一阶段类似的内容安全审核后输出。

算法目的意图：萤石图生文算法目的意图是生成可靠的自然语言输出，实现与用户的自然语言交互，提升用户使用体验。

备案编号：网信算备330108156993201240063号

6. 算法名称：萤石音乐生成算法

算法基本原理：萤石音乐成算法的作用对象是文本和语音数据。根据用户输入的文本描述和歌词，本算法将通过分析文本及对应语音数据之间的映射关系，输出指定音乐。

算法运行机制：萤石音乐成算法主要由歌声合成模块和旋律合成模块组成。歌声合成模块可以根据用户输入的歌词合成相对应的歌声音频；旋律合成模块则是根据用户输入的文本描述生成想要的旋律音频，将二者结合则可得到合成的音乐音频。

算法应用场景：萤石智能家居硬件设备（智能安防、智能入户、智能控制、智能机器人、智能穿戴）及移动互联网应用程序（APP、小程序）在旋律合成、歌声合成、音乐合成等业务场景中使用。

算法目的意图：萤石音乐生成算法的目的意图是通过根据文本信息生成音乐，增加用户与智能家居设备间的趣味互动，提升用户使用体验。

备案编号：网信算备330108156993201240089号

7. 算法名称：萤石虚拟数字人算法

算法基本原理：萤石虚拟数字人算法的作用对象是多模态信息。根据用户输入的内容与服务需求，通过图像生成模型、音频-口型同步检测专家模型实现。图像生成模型包含音频特征提取模块和图像生成模块。音频-口型同步检测专家模型包含音频特征提取模块和同步判别模块。

算法运行机制：萤石虚拟数字人算法具备多模态数据处理能力，算法的输入端含文本、图像、音频、视频数据，算法的输出端为虚拟数字人，运行机制如下。第一步：原始多模态数据输入。第二步：图像、视频数据预处理。第三步：语音合成。第四步：音频特征提取。第五步：数字人合成模型生成。第六步：图像融合。第七步：结果后处理，输出虚拟数字人。

算法应用场景：萤石智能家居硬件设备（智能安防、智能入户、智能控制、智能机器人、智能穿戴）及移动互联网应用程序（APP、小程序）在数字人客服、数字人助手、互动机器人等业务场景中使用。

算法目的意图：萤石虚拟数字人算法的主要目的是理解用户输入的文本、图像、音频、视频内容及意图来生成虚拟数字人，为用户实现相应的业务服务。

备案编号：网信算备330108156993201240071号

8. 算法名称：萤石蓝海大模型算法

基本原理：萤石蓝海大模型算法为多模态算法，算法的作用对象是多模态信息，包含文本、图像、音频内容。该算法包含文本生成算法、图像生成算法和音频合成算法，在确保基础模型稳定可控的前提下，萤石通过二次训练、SFT指令微调、强化学习等，实现了多模态算法自研。

运行机制：萤石蓝海大模型算法具备文本、图像、音频的多模态内容生成能力，算法的输入端和输出端包含文本、图像、音频多模态数据。实现步骤具体描述如下。第一步，原始数据输入层处理。第二步，算法路由层处理。第三步，文本生成、图像生成、音频合成算法处理。第四步，最终结果输出。

应用场景：萤石智能家居硬件设备（智能安防、智能入户、智能控制、智能机器人、智能穿戴）及移动互联网应用程序（APP、小程序）在智能机器人对话、智能客服、虚拟数字人、智能图像处理、动图生成、表情跟踪、魔法照片等业务场景中使用。

目的意图：本算法的目的意图是理解用户输入意图生成多模态信息，实现文本生成、图像生成、音频合成的能力，为用户实现相应的业务服务。

备案编号：网信算备330108156993201250105号

隐私政策：https://service.ezviz.com/policy?id=752