Step-Audio 2 mini - 阶跃星辰开源的端到端语音模型

Step-Audio 2 mini是阶跃星辰推出的开源端到端语音模型。突破传统语音模型结构,采用真端到端多模态架构,直接将原始音频输入转化为语音响应输出,时延更低,...

MobileCLIP2 - 苹果开源的端侧多模态模型

MobileCLIP2是苹果公司推出的开源高效端侧多模态模型,在多模态强化训练方面进行了优化,通过在DFN数据集上训练性能更优的CLIP教师模型集成和改进的图文生成...

InternVL3.5 - 上海AI Lab推出的开源多模态大模型

 InternVL3.5(书生·万象3.5)是上海AI Lab开源的多模态大模型。模型在通用能力、推理能力和部署效率上全面升级,提供从10亿到2410亿参数的九种尺寸版本,覆...

FastVLM - 苹果开源的视觉语言模型

FastVLM(Fast Vision Language Model)是苹果公司推出的视觉语言模型。以FastViTHD混合视觉编码器为核心,融合了卷积和Transformer架构,可显著减少视觉toke...

Meeseeks - 美团开源的评测集,评估模型的指令遵循能力

Meeseeks 是美团 M17 团队开源的大模型评测集,能评估模型的指令遵循能力,通过三级评测框架,从宏观到微观全面衡量模型是否能严格按照用户指令生成回答,不...

gpt-realtime - OpenAI推出的语音转语音模型

gpt-realtime是 OpenAI 最新推出的语音模型,具有强大的语音处理和生成能力。模型能直接处理音频,生成自然、高质量的语音,且支持多种语言和语音风格。

Youtu-agent - 腾讯优图实验室开源的Agent框架

Youtu-agent 是腾讯优图实验室推出的开源智能体框架,支持构建和运行自主智能体。Youtu-agent 在 WebWalkerQA 和 GAIA 基准测试中表现优异,准确率分别达到 7...

HunyuanVideo-Foley - 腾讯混元开源的视频音效生成AI模型

HunyuanVideo-Foley 是腾讯混元团队开源的端到端视频音效生成模型,能为无声视频添加沉浸式的音效。模型通过大规模数据集训练,结合多模态扩散变换器架构,能...

PixVerse V5 - 爱诗科技推出的AI视频模型,一致性保持更自然

PixVerse V5是爱诗科技推出的先进AI视频生成模型,能依据用户提供的文字描述或图片生成逼真且自然的视频内容,支持动漫、科幻、国风等多种风格。

问小白5 - 问小白推出的全新AI旗舰模型

问小白5是问小白推出的'All in One'旗舰大模型,,在诸多权威评测中,都取得优异成绩,如在AA - Index综合评估中得分64.7分,STEM能力评测更是拿下86分,与全...

MiniCPM-V 4.5 - 面壁智能开源的多模态模型

MiniCPM-V 4.5 是面壁智能开源的多模态模型,基于 Qwen3-8B 和 SigLIP2-400M 构建,具备高效处理图像和视频的能力。在视觉 Token 消耗上表现出色,处理 180 ...

Gemini 2.5 Flash Image - 谷歌推出的先进AI模型

Gemini 2.5 Flash Image (代号Nano Banana )是谷歌 AI Studio 推出的创新图像生成与编辑模型。模型具备多项先进功能,如保持角色在不同场景中的视觉一致性...
1 2 3 9