学习博客 | 第 9 页

MoE-TTS - 昆仑万维推出的先进语音合成框架

MoE-TTS 是昆仑万维语音团队推出的先进的语音合成框架，专门用在提升开放域文本描述的语音生成能力。MoE-TTS 基于混合专家（MoE）架构，将预训练的大型语言模...

学习AI

10个月前

Mureka V7.5 - 昆仑万维推出的全新AI音乐生成大模型

Mureka V7.5 是昆仑万维推出的 AI 音乐生成模型，擅长创作高质量的中文歌曲。模型基于优化的 ASR 技术，精准分析唱词和演唱细节，生成自然且富有情感的歌声。...

学习AI

10个月前

DINOv3 - Meta AI开源的视觉基础模型

DINOv3 是 Meta AI 推出的自监督视觉基础模型，采用自监督学习范式，无需标注数据即可学习图像特征。通过改进数据准备和引入 Gram anchoring 解决了特征退化...

学习AI

10个月前

Skywork Deep Research Agent v2 - 昆仑万维重磅升级的深度研究智能体

Skywork Deep Research Agent v2 是昆仑万维推出的先进的深度研究智能体，集成多模态信息处理能力，能够同时处理文本、图片和视频等多种数据形式。Skywork De...

学习AI

10个月前

Hunyuan-GameCraft - 腾讯混元开源的游戏AI视频生成框架

Hunyuan-GameCraft 是腾讯 Hunyuan 团队开源的交互式游戏视频生成框架。框架支持从单张图片和提示生成高动态的游戏视频，支持用户通过键盘和鼠标实时控制。

学习AI

10个月前

Skywork UniPic 2.0 - 昆仑万维开源的多模态融合模型

Skywork UniPic 2.0 是昆仑万维开源的高效多模态模型，专注于图像生成、编辑与理解。模型基于 2B 参数的 SD3.5-Medium 架构，通过大规模高质量数据预训练，结...

学习AI

10个月前

RynnRCP - 阿里开源的机器人上下文协议

RynnRCP 是阿里达摩院开源的机器人上下文协议，能降低具身智能开发门槛，打通从数据采集到动作执行的全流程。RynnRCP包含 RCP 框架和 RobotMotion 两大模块。

学习AI

10个月前

RynnEC - 阿里达摩院推出的多模态交互世界理解模型

RynnEC是阿里巴巴达摩院推出的世界理解模型，专注于具身智能领域。模型能够通过视频序列和自然语言指令，从多个维度解析场景中的物体，包括位置、功能和数量...

学习AI

10个月前

Matrix-3D - 昆仑万维最新推出的全景3D世界生成框架

Matrix-3D 是昆仑万维 Skywork AI 团队推出的一款开源框架，专注于生成可探索的全景 3D 世界。框架结合全景视频生成和 3D 重建技术，支持用单张图像或文本提...

学习AI

10个月前

GLM-4.5V - 智谱开源的多模态视觉推理模型

GLM-4.5V是智谱推出的视觉推理模型。模型基于106B参数规模构建，拥有12B激活能力，是目前领先的视觉语言模型（VLM）。模型在视觉理解、推理以及多模态交互方...

学习AI

10个月前

Matrix-Game 2.0 - 昆仑万维SkyWork AI自研的世界模型

Matrix-Game 2.0 是昆仑万维 SkyWork AI 推出的自研世界模型。是业内首个开源的通用场景实时长序列交互式生成模型，采用视觉驱动的交互方案，通过 3D 因果变...

学习AI

10个月前

MiDashengLM-7B - 小米开源的声音理解大模型

MiDashengLM-7B 是小米发布的开源声音理解大模型，参数规模为 70 亿。模型基于 Xiaomi Dasheng 音频编码器和 Qwen2.5-Omni-7B Thinker 解码器，采用创新的通...

学习AI

10个月前

MoE-TTS - 昆仑万维推出的先进语音合成框架

Mureka V7.5 - 昆仑万维推出的全新AI音乐生成大模型

DINOv3 - Meta AI开源的视觉基础模型

Skywork Deep Research Agent v2 - 昆仑万维重磅升级的深度研究智能体

Hunyuan-GameCraft - 腾讯混元开源的游戏AI视频生成框架

Skywork UniPic 2.0 - 昆仑万维开源的多模态融合模型

RynnRCP - 阿里开源的机器人上下文协议

RynnEC - 阿里达摩院推出的多模态交互世界理解模型

Matrix-3D - 昆仑万维最新推出的全景3D世界生成框架

GLM-4.5V - 智谱开源的多模态视觉推理模型

Matrix-Game 2.0 - 昆仑万维SkyWork AI自研的世界模型

MiDashengLM-7B - 小米开源的声音理解大模型

最新文章

随机推荐