IndexTTS2 - B站语音团队开源的免费文本转语音模型

IndexTTS2是B站语音团队推出的新型开源文本转语音(TTS)模型,模型在情感表达和时长控制方面实现了重大突破,首个支持精确时长控制的自回归TTS模型。支持零...

MiniMax Music 1.5 - MiniMax推出的新一代音乐生成模型

MiniMax Music 1.5 是MiniMax推出的强大 AI 音乐生成模型,能根据用户输入的风格、情绪和场景等自然语言描述,生成长达4分钟的高质量音乐作品。

HuMo - 清华和字节共同开源的多模态视频生成框架

HuMo是清华大学联合字节跳动智能创作实验室推出的开源多模态视频生成框架,专注于人类中心的视频生成。能从文本、图像和音频等多种模态输入中生成高质量、精...

AnyI2V - 复旦联合阿里达摩院等推出的图像到视频生成框架

AnyI2V是复旦大学联合阿里巴巴达摩院等机构推出的创新图像动画生成框架,能将静态图像(如网格、点云)转化为动态视频,无需大量训练数据,支持用户自定义运...

SRPO - 腾讯混元开源的先进文生图模型

SRPO是腾讯混元推出的先进的文本到图像生成模型,模型用语义相对偏好优化技术,将奖励信号与文本条件相结合,支持动态调整奖励信号,能更好地适应不同任务需...

Qwen3-Next - 阿里通义推出的新一代混合架构大模型

Qwen3-Next是阿里通义推出的新一代混合架构大模型,具有强大的长文本处理能力和高效的推理速度。模型融合Gated DeltaNet和Gated Attention技术,能快速处理长...

FireRedASR - 小红书开源的工业级语音识别模型系列

FireRedASR 是小红书 FireRed 团队开源的工业级自动语音识别(ASR)模型家族。包含两种核心结构:FireRedASR-LLM 和 FireRedASR-AED。前者采用 Encoder-Adapt...

文心大模型X1.1 - 百度最新推出的深度思考模型

文心大模型X1.1是百度推出的先进的人工智能语言模型。模型基于深度学习和混合强化学习技术,具备强大的语言理解与生成能力。

混元图像2.1 - 腾讯开源的高质量文生图模型

混元图像2.1是腾讯推出的开源文生图模型,基于先进的技术实现高质量的图像生成。模型支持原生2K分辨率,能精准呈现复杂的场景细节、人物表情和动作,展现出极...

UnifiedTTS - 免费的一站式文本转语音API服务平台

UnifiedTTS 是提供一站式文本转语音(TTS)服务,统一的 API 接口平台。整合多种主流的 TTS 服务,包括 Microsoft Azure、MiniMax、阿里云和 ElevenLabs 等。...

AntSK FileChunk - 免费AI文档切片工具,确保上下文连贯

AntSK FileChunk 是智能文档切片工具,专为 RAG(检索增强生成)应用设计。以语义为核心,将文档智能切分为语义完整、连贯的片段,支持多语言,可动态调整切...

WeKnora - 微信团队开源的文档理解与语义检索框架

WeKnora 是腾讯微信团队开源的文档理解与语义检索框架,基于大语言模型(LLM)。专为处理结构复杂、内容异构的文档而设计,采用模块化架构,融合多模态预处理...
1 2 3 11