学习博客 | 第 6 页

Meeseeks - 美团开源的评测集，评估模型的指令遵循能力

Meeseeks 是美团 M17 团队开源的大模型评测集，能评估模型的指令遵循能力，通过三级评测框架，从宏观到微观全面衡量模型是否能严格按照用户指令生成回答，不...

学习AI

9个月前

gpt-realtime - OpenAI推出的语音转语音模型

gpt-realtime是 OpenAI 最新推出的语音模型，具有强大的语音处理和生成能力。模型能直接处理音频，生成自然、高质量的语音，且支持多种语言和语音风格。

学习AI

9个月前

Youtu-agent - 腾讯优图实验室开源的Agent框架

Youtu-agent 是腾讯优图实验室推出的开源智能体框架，支持构建和运行自主智能体。Youtu-agent 在 WebWalkerQA 和 GAIA 基准测试中表现优异，准确率分别达到 7...

学习AI

9个月前

HunyuanVideo-Foley - 腾讯混元开源的视频音效生成AI模型

HunyuanVideo-Foley 是腾讯混元团队开源的端到端视频音效生成模型，能为无声视频添加沉浸式的音效。模型通过大规模数据集训练，结合多模态扩散变换器架构，能...

学习AI

9个月前

PixVerse V5 - 爱诗科技推出的AI视频模型，一致性保持更自然

PixVerse V5是爱诗科技推出的先进AI视频生成模型，能依据用户提供的文字描述或图片生成逼真且自然的视频内容，支持动漫、科幻、国风等多种风格。

学习AI

9个月前

问小白5 - 问小白推出的全新AI旗舰模型

问小白5是问小白推出的'All in One'旗舰大模型，，在诸多权威评测中，都取得优异成绩，如在AA - Index综合评估中得分64.7分，STEM能力评测更是拿下86分，与全...

学习AI

9个月前

MiniCPM-V 4.5 - 面壁智能开源的多模态模型

MiniCPM-V 4.5 是面壁智能开源的多模态模型，基于 Qwen3-8B 和 SigLIP2-400M 构建，具备高效处理图像和视频的能力。在视觉 Token 消耗上表现出色，处理 180 ...

学习AI

10个月前

Gemini 2.5 Flash Image - 谷歌推出的先进AI模型

Gemini 2.5 Flash Image （代号Nano Banana ）是谷歌 AI Studio 推出的创新图像生成与编辑模型。模型具备多项先进功能，如保持角色在不同场景中的视觉一致性...

学习AI

10个月前

Wan2.2-S2V - 阿里开源的电影级视频生成模型

Wan2.2-S2V 是阿里通义开源的多模态视频生成模型，能用一张静态图片和一段音频生成高质量的数字人视频，视频时长可达分钟级。模型支持多种图片类型和画幅，包...

学习AI

10个月前

SpatialGen - 群核科技开源的空间生成模型

SpatialGen 是群核科技发布开源的空间生成模型。基于扩散模型架构，能根据文字描述、参考图像和3D空间布局生成具有时空一致性的多视角图像，支持进一步得到3D...

学习AI

10个月前

VibeVoice - 微软研究院开源的文本转语音模型

VibeVoice是微软研究院开源的文本转语音模型，专注于生成长篇、富有表现力的多说话人对话音频，例如播客。有效解决了传统TTS系统在可扩展性、说话人一致性和...

学习AI

10个月前

EchoMimicV3 - 蚂蚁技术开源的多模态数字人生成系统

EchoMimicV3 是蚂蚁集团支付宝终端技术部推出的多模态人类动画生成系统。基于紧凑型视频扩散模型（CVDM），通过创新的“任务融合”和“模态融合”设计，能根据音...

学习AI

10个月前

Meeseeks - 美团开源的评测集，评估模型的指令遵循能力

gpt-realtime - OpenAI推出的语音转语音模型

Youtu-agent - 腾讯优图实验室开源的Agent框架

HunyuanVideo-Foley - 腾讯混元开源的视频音效生成AI模型

PixVerse V5 - 爱诗科技推出的AI视频模型，一致性保持更自然

问小白5 - 问小白推出的全新AI旗舰模型

MiniCPM-V 4.5 - 面壁智能开源的多模态模型

Gemini 2.5 Flash Image - 谷歌推出的先进AI模型

Wan2.2-S2V - 阿里开源的电影级视频生成模型

SpatialGen - 群核科技开源的空间生成模型

VibeVoice - 微软研究院开源的文本转语音模型

EchoMimicV3 - 蚂蚁技术开源的多模态数字人生成系统

最新文章

随机推荐