Skywork MindLink - 昆仑万维推出的开源推理大模型
Skywork MindLink 是昆仑万维推出的开源推理大模型,基于创新的Plan-based Reasoning范式,通过动态路径选择和自适应推理,显著降低推理成本,提升多轮对话体...
dots.ocr - 小红书hi lab开源的文档解析模型
dots.ocr 是小红书 hi lab 开源的多语言文档解析模型,基于 1.7 亿参数的视觉语言模型(VLM)。能高效地进行文档布局检测和内容识别,保持良好的阅读顺序。do...
Genie Envisioner - 智元机器人开源的通用机器人平台
Genie Envisioner(GE)是智元机器人团队联合新加坡国立大学、北京航空航天大学等机构开发的机器人操作统一平台。通过“先想象,后行动”的方式,让机器人更好...
MoE-TTS - 昆仑万维推出的先进语音合成框架
MoE-TTS 是昆仑万维语音团队推出的先进的语音合成框架,专门用在提升开放域文本描述的语音生成能力。MoE-TTS 基于混合专家(MoE)架构,将预训练的大型语言模...
Mureka V7.5 - 昆仑万维推出的全新AI音乐生成大模型
Mureka V7.5 是昆仑万维推出的 AI 音乐生成模型,擅长创作高质量的中文歌曲。模型基于优化的 ASR 技术,精准分析唱词和演唱细节,生成自然且富有情感的歌声。...
DINOv3 - Meta AI开源的视觉基础模型
DINOv3 是 Meta AI 推出的自监督视觉基础模型,采用自监督学习范式,无需标注数据即可学习图像特征。通过改进数据准备和引入 Gram anchoring 解决了特征退化...
Skywork Deep Research Agent v2 - 昆仑万维重磅升级的深度研究智能体
Skywork Deep Research Agent v2 是昆仑万维推出的先进的深度研究智能体,集成多模态信息处理能力,能够同时处理文本、图片和视频等多种数据形式。Skywork De...
Hunyuan-GameCraft - 腾讯混元开源的游戏AI视频生成框架
Hunyuan-GameCraft 是腾讯 Hunyuan 团队开源的交互式游戏视频生成框架。框架支持从单张图片和提示生成高动态的游戏视频,支持用户通过键盘和鼠标实时控制。
Skywork UniPic 2.0 - 昆仑万维开源的多模态融合模型
Skywork UniPic 2.0 是昆仑万维开源的高效多模态模型,专注于图像生成、编辑与理解。模型基于 2B 参数的 SD3.5-Medium 架构,通过大规模高质量数据预训练,结...
RynnRCP - 阿里开源的机器人上下文协议
RynnRCP 是阿里达摩院开源的机器人上下文协议,能降低具身智能开发门槛,打通从数据采集到动作执行的全流程。RynnRCP包含 RCP 框架和 RobotMotion 两大模块。
RynnEC - 阿里达摩院推出的多模态交互世界理解模型
RynnEC是阿里巴巴达摩院推出的世界理解模型,专注于具身智能领域。模型能够通过视频序列和自然语言指令,从多个维度解析场景中的物体,包括位置、功能和数量...
Matrix-3D - 昆仑万维最新推出的全景3D世界生成框架
Matrix-3D 是昆仑万维 Skywork AI 团队推出的一款开源框架,专注于生成可探索的全景 3D 世界。框架结合全景视频生成和 3D 重建技术,支持用单张图像或文本提...