CombatVLA - 淘天集团推出的3D游戏专用视觉-语言-动作模型
CombatVLA是淘天集团未来生活实验室团队推出的专为3D动作角色扮演游戏(ARPG)设计的视觉-语言-动作(VLA)模型。模型用3B参数规模,通过动作追踪器收集数据...
DeepSeek V3.1 - DeepSeek开源的基础AI模型
DeepSeek V3.1是DeepSeek推出的最新模型版本,引入混合推理架构,支持在思考模式和非思考模式之间自由切换,显著提高思考效率。模型在编程和搜索智能体任务中...
Qwen-Image-Edit - 阿里通义开源的全能图像编辑模型
Qwen-Image-Edit 是阿里通义推出的全能图像编辑模型,基于 200 亿参数的 Qwen-Image 架构构建而成。模型具备强大的语义与外观编辑能力,能进行低层次的视觉外...
Claude Opus 4.1 - Anthropic公司推出的大型编程语言模型
Claude Opus 4.1是Anthropic公司推出的大型语言模型,是Claude Opus 4的升级版本。在编程能力上实现了重大突破,在SWE-bench Verified基准测试中得分达到74.5...
RedOne - 小红书推出的首个社交领域大模型
RedOne是小红书推出的首个面向社交网络服务(SNS)领域的定制化大语言模型(LLM),突破单一任务基线模型的性能瓶颈,构建全面覆盖SNS任务的基座模型。模型采...
gpt-oss - OpenAI开源的两款推理模型
gpt-oss是OpenAI开源的两款推理模型,分别为gpt-oss-120B和gpt-oss-20B。基于MoE Transformer架构,通过细节优化提升性能并降低复杂度,如改进激活函数、交替...
Genie 3 - 谷歌DeepMind推出的第三代通用世界模型
Genie 3 是谷歌 DeepMind 发布的第三代通用世界模型。能根据简单文本提示实时生成可交互的 3D 虚拟环境,以 720p 分辨率、24 帧每秒的速度持续数分钟。Genie ...
LangExtract - 谷歌开源的结构化信息提取Python库
LangExtract 是谷歌开源的 Python 库,基于大型语言模型(如 Gemini)从非结构化文本中提取结构化信息。通过自然语言指令和示例数据定义提取任务,能将自由格...
Skywork MindLink - 昆仑万维推出的开源推理大模型
Skywork MindLink 是昆仑万维推出的开源推理大模型,基于创新的Plan-based Reasoning范式,通过动态路径选择和自适应推理,显著降低推理成本,提升多轮对话体...
dots.ocr - 小红书hi lab开源的文档解析模型
dots.ocr 是小红书 hi lab 开源的多语言文档解析模型,基于 1.7 亿参数的视觉语言模型(VLM)。能高效地进行文档布局检测和内容识别,保持良好的阅读顺序。do...
Genie Envisioner - 智元机器人开源的通用机器人平台
Genie Envisioner(GE)是智元机器人团队联合新加坡国立大学、北京航空航天大学等机构开发的机器人操作统一平台。通过“先想象,后行动”的方式,让机器人更好...
MoE-TTS - 昆仑万维推出的先进语音合成框架
MoE-TTS 是昆仑万维语音团队推出的先进的语音合成框架,专门用在提升开放域文本描述的语音生成能力。MoE-TTS 基于混合专家(MoE)架构,将预训练的大型语言模...