GLM-4.5V - 智谱开源的多模态视觉推理模型

GLM-4.5V是智谱推出的视觉推理模型。模型基于106B参数规模构建,拥有12B激活能力,是目前领先的视觉语言模型(VLM)。模型在视觉理解、推理以及多模态交互方...

Matrix-Game 2.0 - 昆仑万维SkyWork AI自研的世界模型

Matrix-Game 2.0 是昆仑万维 SkyWork AI 推出的自研世界模型。是业内首个开源的通用场景实时长序列交互式生成模型,采用视觉驱动的交互方案,通过 3D 因果变...

MiDashengLM-7B - 小米开源的声音理解大模型

MiDashengLM-7B 是小米发布的开源声音理解大模型,参数规模为 70 亿。模型基于 Xiaomi Dasheng 音频编码器和 Qwen2.5-Omni-7B Thinker 解码器,采用创新的通...

AudioGen-Omni - 中矿联合快手推出的多模态音频生成模型

AudioGen-Omni 是中国矿业大学和快手科技联合开发的先进的多模态音频生成模型,基于多模态扩散变换器(MMDit)架构,能根据输入的视频、文本或两者的结合,生...

WeKnora - 腾讯开源基于LLM的文档理解与语义检索框架

WeKnora 是腾讯开源的基于大语言模型(LLM)的文档理解与语义检索框架。专为处理复杂、异构文档场景设计,支持 PDF、Word、图片等多种格式,能精准解析图文混...

Baichuan-M2 - 百川智能开源的医疗增强大模型

Baichuan-M2 是百川智能开源的医疗增强大模型。在医疗领域表现卓越,于HealthBench评测中以60.1分超越OpenAI的gpt-oss120b等众多开源模型,登顶世界第一。通...

Qwen-Image - 通义千问开源的图像生成基础模型

Qwen-Image 是阿里巴巴通义千问团队发布的开源图像生成基础模型,拥有200亿参数,基于Apache 2.0协议开源。采用MMDiT多模态扩散变换器架构,专为中文文本渲染...

Qwen-Flash - 阿里通义千问系列推出的高性能语言模型

Qwen-Flash 是阿里巴巴通义千问系列推出的高性能语言模型,专为速度和成本优化设计,适合处理简单任务。基于 Mixture-of-Experts (MoE) 架构,通过稀疏专家网...

SkyReels-A3 - 昆仑万维推出音频驱动的数字人视频生成模型

SkyReels-A3 是昆仑万维发布的音频驱动数字人视频生成工具。通过简单的输入(如人像图片和语音)生成高质量的动态视频内容,让静态照片“活”起来,可以为现有...

Awesome AI Agents - 最全AI Agents资源合集仓库

Awesome AI Agents 是 e2b-dev 推出的GitHub项目,汇集和展示各种人工智能代理(AI Agents)相关的开源项目、闭源项目及相关公司。Awesome AI Agents 将内容...

Speech 2.5 - MiniMax稀宇科技推出的新语音生成模型

Speech 2.5 是 MiniMax 团队开发的先进语音生成模型。在语音合成领域取得显著进步,尤其在多语种表现力、音色复刻精度和语种覆盖范围上。模型支持 40 种语言...

GPT-5 - OpenAI最新推出的AI模型,ChatGPT中直接可用

GPT-5是OpenAI最新推出的AI模型,是一个统一智能系统,内置实时路由器,能根据问题复杂度自动切换高效模式与深度思考模式,实现快速响应与精准解答。GPT-5有...
1 5 6 7 8 9 11