gpt-realtime - OpenAI推出的语音转语音模型

gpt-realtime是 OpenAI 最新推出的语音模型,具有强大的语音处理和生成能力。模型能直接处理音频,生成自然、高质量的语音,且支持多种语言和语音风格。

Youtu-agent - 腾讯优图实验室开源的Agent框架

Youtu-agent 是腾讯优图实验室推出的开源智能体框架,支持构建和运行自主智能体。Youtu-agent 在 WebWalkerQA 和 GAIA 基准测试中表现优异,准确率分别达到 7...

HunyuanVideo-Foley - 腾讯混元开源的视频音效生成AI模型

HunyuanVideo-Foley 是腾讯混元团队开源的端到端视频音效生成模型,能为无声视频添加沉浸式的音效。模型通过大规模数据集训练,结合多模态扩散变换器架构,能...

PixVerse V5 - 爱诗科技推出的AI视频模型,一致性保持更自然

PixVerse V5是爱诗科技推出的先进AI视频生成模型,能依据用户提供的文字描述或图片生成逼真且自然的视频内容,支持动漫、科幻、国风等多种风格。

问小白5 - 问小白推出的全新AI旗舰模型

问小白5是问小白推出的'All in One'旗舰大模型,,在诸多权威评测中,都取得优异成绩,如在AA - Index综合评估中得分64.7分,STEM能力评测更是拿下86分,与全...

MiniCPM-V 4.5 - 面壁智能开源的多模态模型

MiniCPM-V 4.5 是面壁智能开源的多模态模型,基于 Qwen3-8B 和 SigLIP2-400M 构建,具备高效处理图像和视频的能力。在视觉 Token 消耗上表现出色,处理 180 ...

Gemini 2.5 Flash Image - 谷歌推出的先进AI模型

Gemini 2.5 Flash Image (代号Nano Banana )是谷歌 AI Studio 推出的创新图像生成与编辑模型。模型具备多项先进功能,如保持角色在不同场景中的视觉一致性...

Wan2.2-S2V - 阿里开源的电影级视频生成模型

Wan2.2-S2V 是阿里通义开源的多模态视频生成模型,能用一张静态图片和一段音频生成高质量的数字人视频,视频时长可达分钟级。模型支持多种图片类型和画幅,包...

SpatialGen - 群核科技开源的空间生成模型

SpatialGen 是群核科技发布开源的空间生成模型。基于扩散模型架构,能根据文字描述、参考图像和3D空间布局生成具有时空一致性的多视角图像,支持进一步得到3D...

VibeVoice - 微软研究院开源的文本转语音模型

VibeVoice是微软研究院开源的文本转语音模型,专注于生成长篇、富有表现力的多说话人对话音频,例如播客。有效解决了传统TTS系统在可扩展性、说话人一致性和...

EchoMimicV3 - 蚂蚁技术开源的多模态数字人生成系统

EchoMimicV3 是蚂蚁集团支付宝终端技术部推出的多模态人类动画生成系统。基于紧凑型视频扩散模型(CVDM),通过创新的“任务融合”和“模态融合”设计,能根据音...

Prompt Optimizer - 免费开源的AI提示词优化工具

Prompt Optimizer 是开源的 AI 提示词优化工具,能帮助用户快速生成高质量的提示词,提升 AI 输出内容的准确性和相关性。
1 4 5 6 7 8 13