在线咨询
专属客服在线解答,提供专业解决方案
声网 AI 助手
您的专属 AI 伙伴,开启全新搜索体验
首页 / 博客 / 正文

什么是TEN框架?

什么是 TEN 框架?

TEN(Transformative Extensions Network)框架是一个开源的实时多模态 AI Agent 开发框架。它旨在让开发者能够快速构建支持语音、视频、数据流、图像和文本等多种模态的对话式 AI 智能体。通过 TEN 框架,开发者可以方便地集成大语言模型(LLM)并创建可重用的扩展模块,以极少的代码实现复杂的对话功能。简单来说,TEN 提供了一系列工具和组件,让 AI 代理拥有“”(视觉)、“”(语音)、“”(文本/语音)以及实时互动的能力,从而打造出能够像人类一样实时交流的下一代智能体。

 

 

TEN框架的优势是什么?

实时多模态交互: TEN 原生支持语音、视频、数据流、图像和文本等多种输入输出方式,特别针对实时对话场景进行了深度优化。它提供高性能、超低延迟的交互能力,能够在语音或视频交互中实现即时响应。例如,TEN 通过优化不同扩展组件之间的数据传输,使端到端音视频交互几乎无缝感知。这些特性使得 TEN 在实时翻译、语音助手等需要快速反馈的应用中具有明显优势。

模块化架构、多语言支持: TEN 框架采用插件式设计,扩展组件完全模块化,允许开发者使用 C++、Go、Python 等多种语言(未来还将支持 JavaScript/TypeScript)开发功能模块。所有扩展组件跨语言调用互通,同时框架本身可在 Windows、Mac、Linux 及移动设备等主流平台运行。这种多语言、多平台支持使开发者能够灵活选型开发工具,克服了仅限 Python 的框架局限,可构建更复杂、跨平台的应用。

边缘-云协同: TEN 支持边缘与云端协同部署。开发者可在本地(边缘)部署小型模型进行敏感数据处理和低延迟决策,同时与云端的大模型结合,以达到最佳成本与性能平衡。例如,在隐私敏感的场景中,可利用边缘计算降低延迟和带宽成本,并在需要更高计算力时调用云端模型,这种混合部署方式增强了系统的灵活性和可扩展性。

实时状态管理与高并发: TEN 优先保证实时响应、工作流同步与状态管理,使得构建的智能体更具交互性和“类人”体验。框架内置对并发用户、网络抖动等特性的支持(如可调节媒体质量、网络弹性等),能够在多用户会话场景下维持低延迟性能。相比于一般只能串行处理请求的对话框架,TEN 的设计能在多用户、多线程环境中快速处理音视频流并保持同步,是构建高并发实时服务的理想选择。

开放可扩展: TEN 架构灵活,支持与各种 AI 服务和工具集成,包括大型语言模型、语音识别(STT)、语音合成(TTS)、视觉识别以及知识库检索等。其开放 API 和可视化拖拽的开发界面让开发者可以轻松“拖放”组件、快速拼装功能模块,甚至用低代码方式搭建 Agent。这种开放性使得开发者可随时为系统添加新功能、新模型或第三方服务,不受底层技术的限制,远超只针对单一模型设计的框架。

 

 

TEN框架的架构设计

TEN 框架的设计重点是实现超低延迟的多模态交互,并采用模块化架构。它支持使用 Golang、C++、Python 等多种语言来开发可插拔的功能扩展,为开发者提供灵活高效的开发环境。TEN 的运行时核心使用 Rust 和 C 语言实现,通过内置的内存、线程、消息等管理模块来保障高并发和低延迟的性能。整个框架的关键构成如下。

TEN Manager

TEN Manager 是框架的命令行管理工具,内置包管理器,用于创建、安装、发布 TEN 包(应用、扩展、协议等)。它负责解析扩展及其依赖关系、从云端下载所需组件并自动安装,简化了扩展的管理流程。开发者通过它可方便地初始化新项目、上传扩展、从云端商店拉取共享模块,实现一站式包管理。

TEN Runtime

专为 TEN 框架设计的应用程序运行平台,可以无缝集成用多种编程语言开发的扩展,如支持 C++、Go、Python 等多种编程语言的扩展模块共同运行,并处理各种类型的数据流。通过对扩展的生命周期、数据流向和线程进行统一管理,为开发者能够高效构建多样化的应用和服务

Graph Designer

TEN 提供可视化图形设计器(Graph Designer),允许开发者通过拖拽节点和连线来编排扩展工作流。Graph Designer 为低代码开发提供界面,开发者无需手动编写复杂流程代码,就能定义语音到文本、文本到模型、模型到语音等多种链路,便捷设计 AI 代理的对话流程和数据流转

Extension Store

TEN 提供类似应用商店的云端商店,供开发者发布和共享扩展模块。商店中聚合了社区贡献的语音识别、文本生成、数据检索等各类扩展,用户可以一键下载所需插件并集成到自己的应用中,实现模块的即插即用,灵活替换或添加代理的新能力。

上述模块各司其职又紧密配合:开发者可以通过 Graph Designer 将语音识别、语义理解、对话逻辑、语音合成等不同扩展模块像搭积木一样连接起来,由 TEN Manager 和 Runtime 在底层高效地管理它们之间的数据传输和状态同步。这种架构使 TEN 能够在实时场景下稳定地支持音视频、多轮对话等高强度交互,并方便地接入不同厂商的 AI 服务(如多种语音识别/合成服务或不同的大语言模型)。总体而言,TEN 框架以其低延迟、多语言、多模态、易扩展的架构设计,为开发下一代对话式 AI 应用提供了强大的基础

微信公众号
400 632 6626
微信公众号
400 632 6626

亲爱的市民朋友,上海警方反诈劝阻电话“962110”系专门针对避免您财产被骗受损而设,请您一旦收到来电,立即接听。

亲爱的市民朋友,上海警方反诈劝阻电话“962110”系专门针对避免您财产被骗受损而设,请您一旦收到来电,立即接听。