GLM-4.5V - 智谱开源的多模态视觉推理模型
GLM-4.5V是智谱推出的视觉推理模型。模型基于106B参数规模构建,拥有12B激活能力,是目前领先的视觉语言模型(VLM)。模型在视觉理解、推理以及多模态交互方...
Matrix-Game 2.0 - 昆仑万维SkyWork AI自研的世界模型
Matrix-Game 2.0 是昆仑万维 SkyWork AI 推出的自研世界模型。是业内首个开源的通用场景实时长序列交互式生成模型,采用视觉驱动的交互方案,通过 3D 因果变...
MiDashengLM-7B - 小米开源的声音理解大模型
MiDashengLM-7B 是小米发布的开源声音理解大模型,参数规模为 70 亿。模型基于 Xiaomi Dasheng 音频编码器和 Qwen2.5-Omni-7B Thinker 解码器,采用创新的通...
AudioGen-Omni - 中矿联合快手推出的多模态音频生成模型
AudioGen-Omni 是中国矿业大学和快手科技联合开发的先进的多模态音频生成模型,基于多模态扩散变换器(MMDit)架构,能根据输入的视频、文本或两者的结合,生...
WeKnora - 腾讯开源基于LLM的文档理解与语义检索框架
WeKnora 是腾讯开源的基于大语言模型(LLM)的文档理解与语义检索框架。专为处理复杂、异构文档场景设计,支持 PDF、Word、图片等多种格式,能精准解析图文混...
Baichuan-M2 - 百川智能开源的医疗增强大模型
Baichuan-M2 是百川智能开源的医疗增强大模型。在医疗领域表现卓越,于HealthBench评测中以60.1分超越OpenAI的gpt-oss120b等众多开源模型,登顶世界第一。通...
Qwen-Image - 通义千问开源的图像生成基础模型
Qwen-Image 是阿里巴巴通义千问团队发布的开源图像生成基础模型,拥有200亿参数,基于Apache 2.0协议开源。采用MMDiT多模态扩散变换器架构,专为中文文本渲染...
Qwen-Flash - 阿里通义千问系列推出的高性能语言模型
Qwen-Flash 是阿里巴巴通义千问系列推出的高性能语言模型,专为速度和成本优化设计,适合处理简单任务。基于 Mixture-of-Experts (MoE) 架构,通过稀疏专家网...
SkyReels-A3 - 昆仑万维推出音频驱动的数字人视频生成模型
SkyReels-A3 是昆仑万维发布的音频驱动数字人视频生成工具。通过简单的输入(如人像图片和语音)生成高质量的动态视频内容,让静态照片“活”起来,可以为现有...
Awesome AI Agents - 最全AI Agents资源合集仓库
Awesome AI Agents 是 e2b-dev 推出的GitHub项目,汇集和展示各种人工智能代理(AI Agents)相关的开源项目、闭源项目及相关公司。Awesome AI Agents 将内容...
Speech 2.5 - MiniMax稀宇科技推出的新语音生成模型
Speech 2.5 是 MiniMax 团队开发的先进语音生成模型。在语音合成领域取得显著进步,尤其在多语种表现力、音色复刻精度和语种覆盖范围上。模型支持 40 种语言...
GPT-5 - OpenAI最新推出的AI模型,ChatGPT中直接可用
GPT-5是OpenAI最新推出的AI模型,是一个统一智能系统,内置实时路由器,能根据问题复杂度自动切换高效模式与深度思考模式,实现快速响应与精准解答。GPT-5有...