学习AI

MiDashengLM-7B - 小米开源的声音理解大模型

MiDashengLM-7B 是小米发布的开源声音理解大模型，参数规模为 70 亿。模型基于 Xiaomi Dasheng 音频编码器和 Qwen2.5-Omni-7B Thinker 解码器，采用创新的通...

学习AI

11个月前

AudioGen-Omni - 中矿联合快手推出的多模态音频生成模型

AudioGen-Omni 是中国矿业大学和快手科技联合开发的先进的多模态音频生成模型，基于多模态扩散变换器（MMDit）架构，能根据输入的视频、文本或两者的结合，生...

学习AI

11个月前

WeKnora - 腾讯开源基于LLM的文档理解与语义检索框架

WeKnora 是腾讯开源的基于大语言模型（LLM）的文档理解与语义检索框架。专为处理复杂、异构文档场景设计，支持 PDF、Word、图片等多种格式，能精准解析图文混...

学习AI

11个月前

Baichuan-M2 - 百川智能开源的医疗增强大模型

Baichuan-M2 是百川智能开源的医疗增强大模型。在医疗领域表现卓越，于HealthBench评测中以60.1分超越OpenAI的gpt-oss120b等众多开源模型，登顶世界第一。通...

学习AI

11个月前

Qwen-Image - 通义千问开源的图像生成基础模型

Qwen-Image 是阿里巴巴通义千问团队发布的开源图像生成基础模型，拥有200亿参数，基于Apache 2.0协议开源。采用MMDiT多模态扩散变换器架构，专为中文文本渲染...

学习AI

11个月前

Qwen-Flash - 阿里通义千问系列推出的高性能语言模型

Qwen-Flash 是阿里巴巴通义千问系列推出的高性能语言模型，专为速度和成本优化设计，适合处理简单任务。基于 Mixture-of-Experts (MoE) 架构，通过稀疏专家网...

学习AI

11个月前

SkyReels-A3 - 昆仑万维推出音频驱动的数字人视频生成模型

SkyReels-A3 是昆仑万维发布的音频驱动数字人视频生成工具。通过简单的输入（如人像图片和语音）生成高质量的动态视频内容，让静态照片“活”起来，可以为现有...

学习AI

11个月前

Awesome AI Agents - 最全AI Agents资源合集仓库

Awesome AI Agents 是 e2b-dev 推出的GitHub项目，汇集和展示各种人工智能代理（AI Agents）相关的开源项目、闭源项目及相关公司。Awesome AI Agents 将内容...

学习AI

11个月前

Speech 2.5 - MiniMax稀宇科技推出的新语音生成模型

Speech 2.5 是 MiniMax 团队开发的先进语音生成模型。在语音合成领域取得显著进步，尤其在多语种表现力、音色复刻精度和语种覆盖范围上。模型支持 40 种语言...

学习AI

11个月前

GPT-5 - OpenAI最新推出的AI模型，ChatGPT中直接可用

GPT-5是OpenAI最新推出的AI模型，是一个统一智能系统，内置实时路由器，能根据问题复杂度自动切换高效模式与深度思考模式，实现快速响应与精准解答。GPT-5有...

学习AI

11个月前

dots.vlm1 - 小红书hi lab开源的多模态大模型

dots.vlm1 是小红书 hi lab 开源的首个多模态大模型，模型基于12亿参数的 NaViT 视觉编码器和 DeepSeek V3 大语言模型构建。核心亮点包括从零训练的 NaViT 视...

学习AI

11个月前

MiDashengLM-7B - 小米开源的声音理解大模型

AudioGen-Omni - 中矿联合快手推出的多模态音频生成模型

WeKnora - 腾讯开源基于LLM的文档理解与语义检索框架

Baichuan-M2 - 百川智能开源的医疗增强大模型

Qwen-Image - 通义千问开源的图像生成基础模型

Qwen-Flash - 阿里通义千问系列推出的高性能语言模型

SkyReels-A3 - 昆仑万维推出音频驱动的数字人视频生成模型

Awesome AI Agents - 最全AI Agents资源合集仓库

Speech 2.5 - MiniMax稀宇科技推出的新语音生成模型

GPT-5 - OpenAI最新推出的AI模型，ChatGPT中直接可用

dots.vlm1 - 小红书hi lab开源的多模态大模型

热门网站

最新文章