Mureka V7.5 - 昆仑万维推出的全新AI音乐生成大模型

Mureka V7.5 是昆仑万维推出的 AI 音乐生成模型,擅长创作高质量的中文歌曲。模型基于优化的 ASR 技术,精准分析唱词和演唱细节,生成自然且富有情感的歌声。...

DINOv3 - Meta AI开源的视觉基础模型

DINOv3 是 Meta AI 推出的自监督视觉基础模型,采用自监督学习范式,无需标注数据即可学习图像特征。通过改进数据准备和引入 Gram anchoring 解决了特征退化...

Skywork Deep Research Agent v2 - 昆仑万维重磅升级的深度研究智能体

Skywork Deep Research Agent v2 是昆仑万维推出的先进的深度研究智能体,集成多模态信息处理能力,能够同时处理文本、图片和视频等多种数据形式。Skywork De...

Hunyuan-GameCraft - 腾讯混元开源的游戏AI视频生成框架

Hunyuan-GameCraft 是腾讯 Hunyuan 团队开源的交互式游戏视频生成框架。框架支持从单张图片和提示生成高动态的游戏视频,支持用户通过键盘和鼠标实时控制。

Skywork UniPic 2.0 - 昆仑万维开源的多模态融合模型

Skywork UniPic 2.0 是昆仑万维开源的高效多模态模型,专注于图像生成、编辑与理解。模型基于 2B 参数的 SD3.5-Medium 架构,通过大规模高质量数据预训练,结...

RynnRCP - 阿里开源的机器人上下文协议

RynnRCP 是阿里达摩院开源的机器人上下文协议,能降低具身智能开发门槛,打通从数据采集到动作执行的全流程。RynnRCP包含 RCP 框架和 RobotMotion 两大模块。

RynnEC - 阿里达摩院推出的多模态交互世界理解模型

RynnEC是阿里巴巴达摩院推出的世界理解模型,专注于具身智能领域。模型能够通过视频序列和自然语言指令,从多个维度解析场景中的物体,包括位置、功能和数量...

Matrix-3D - 昆仑万维最新推出的全景3D世界生成框架

Matrix-3D 是昆仑万维 Skywork AI 团队推出的一款开源框架,专注于生成可探索的全景 3D 世界。框架结合全景视频生成和 3D 重建技术,支持用单张图像或文本提...

GLM-4.5V - 智谱开源的多模态视觉推理模型

GLM-4.5V是智谱推出的视觉推理模型。模型基于106B参数规模构建,拥有12B激活能力,是目前领先的视觉语言模型(VLM)。模型在视觉理解、推理以及多模态交互方...

Matrix-Game 2.0 - 昆仑万维SkyWork AI自研的世界模型

Matrix-Game 2.0 是昆仑万维 SkyWork AI 推出的自研世界模型。是业内首个开源的通用场景实时长序列交互式生成模型,采用视觉驱动的交互方案,通过 3D 因果变...

MiDashengLM-7B - 小米开源的声音理解大模型

MiDashengLM-7B 是小米发布的开源声音理解大模型,参数规模为 70 亿。模型基于 Xiaomi Dasheng 音频编码器和 Qwen2.5-Omni-7B Thinker 解码器,采用创新的通...

AudioGen-Omni - 中矿联合快手推出的多模态音频生成模型

AudioGen-Omni 是中国矿业大学和快手科技联合开发的先进的多模态音频生成模型,基于多模态扩散变换器(MMDit)架构,能根据输入的视频、文本或两者的结合,生...
1 7 8 9 10 11 13