CombatVLA - 淘天集团推出的3D游戏专用视觉-语言-动作模型

CombatVLA是淘天集团未来生活实验室团队推出的专为3D动作角色扮演游戏(ARPG)设计的视觉-语言-动作(VLA)模型。模型用3B参数规模,通过动作追踪器收集数据...

DeepSeek V3.1 - DeepSeek开源的基础AI模型

DeepSeek V3.1是DeepSeek推出的最新模型版本,引入混合推理架构,支持在思考模式和非思考模式之间自由切换,显著提高思考效率。模型在编程和搜索智能体任务中...

Qwen-Image-Edit - 阿里通义开源的全能图像编辑模型

Qwen-Image-Edit 是阿里通义推出的全能图像编辑模型,基于 200 亿参数的 Qwen-Image 架构构建而成。模型具备强大的语义与外观编辑能力,能进行低层次的视觉外...

Claude Opus 4.1 - Anthropic公司推出的大型编程语言模型

Claude Opus 4.1是Anthropic公司推出的大型语言模型,是Claude Opus 4的升级版本。在编程能力上实现了重大突破,在SWE-bench Verified基准测试中得分达到74.5...

RedOne - 小红书推出的首个社交领域大模型

RedOne是小红书推出的首个面向社交网络服务(SNS)领域的定制化大语言模型(LLM),突破单一任务基线模型的性能瓶颈,构建全面覆盖SNS任务的基座模型。模型采...

gpt-oss - OpenAI开源的两款推理模型

gpt-oss是OpenAI开源的两款推理模型,分别为gpt-oss-120B和gpt-oss-20B。基于MoE Transformer架构,通过细节优化提升性能并降低复杂度,如改进激活函数、交替...

Genie 3 - 谷歌DeepMind推出的第三代通用世界模型

Genie 3 是谷歌 DeepMind 发布的第三代通用世界模型。能根据简单文本提示实时生成可交互的 3D 虚拟环境,以 720p 分辨率、24 帧每秒的速度持续数分钟。Genie ...

LangExtract - 谷歌开源的结构化信息提取Python库

LangExtract 是谷歌开源的 Python 库,基于大型语言模型(如 Gemini)从非结构化文本中提取结构化信息。通过自然语言指令和示例数据定义提取任务,能将自由格...

Skywork MindLink - 昆仑万维推出的开源推理大模型

Skywork MindLink 是昆仑万维推出的开源推理大模型,基于创新的Plan-based Reasoning范式,通过动态路径选择和自适应推理,显著降低推理成本,提升多轮对话体...

dots.ocr - 小红书hi lab开源的文档解析模型

dots.ocr 是小红书 hi lab 开源的多语言文档解析模型,基于 1.7 亿参数的视觉语言模型(VLM)。能高效地进行文档布局检测和内容识别,保持良好的阅读顺序。do...

Genie Envisioner - 智元机器人开源的通用机器人平台

Genie Envisioner(GE)是智元机器人团队联合新加坡国立大学、北京航空航天大学等机构开发的机器人操作统一平台。通过“先想象,后行动”的方式,让机器人更好...

MoE-TTS - 昆仑万维推出的先进语音合成框架

MoE-TTS 是昆仑万维语音团队推出的先进的语音合成框架,专门用在提升开放域文本描述的语音生成能力。MoE-TTS 基于混合专家(MoE)架构,将预训练的大型语言模...
1 6 7 8 9 10 13