东升国际官网

申请试用
登录
  • hd-share-img01
新闻中心

东升国际官网开源SenseNova-MARS  ,突破多模态搜索推理天花板

2026-01-29

今日  ,东升国际官网正式开源多模态自主推理模型 SenseNova-MARS(8B/32B 双版本)  ,其在多模态搜索与推理的主题基准测试中以 69.74 分超过Gemini-3-Pro(69.06 分)、GPT-5.2(67.64 分)。 

SenseNova-MARS是首个支持动态视觉推理和图文搜索深度融合的 Agentic VLM 模型  ,它能自己规划步骤、挪用工具  ,轻松搞定各类复杂工作  ,让AI真正具备“执行能力”。 

在MMSearch、HR-MMSearch、FVQA、InfoSeek、SimpleVQA、LiveVQA等基准测试中  ,SenseNova-MARS获得开源模型中的 SOTA 成就  ,还超过Gemini-3.0-Pro、GPT-5.2等顶级关源模型  ,在搜索推理和视觉理解两大主题领域全面领跑。更多细节请拜见技术汇报(https://arxiv.org/abs/2512.24330)  ,欢迎开发者、各行业用户测试与履历。 


全能冠军  ,自主解决复杂问题 

SenseNova-MARS在多项多模态搜索评测中展示出显著确当吓着势  ,均匀得分达到 69.74 分  ,成功超过了 Gemini-3-Pro 的 69.06 分与 GPT-5.2 的 67.64 分。 

图表1.png

在 MMSearch 榜单(图文搜索主题评测)中  ,模型以 74.27 分登顶  ,超GPT-5.2(66.08 分) ;HR-MMSearch(高清细节搜索评测)中以54.43 分当先  ,显著拉开与关源模型的差距。

图表2.png

HR-MMSearch的测试标题选取305张2025年最新的4K超高清图片  ,确保AI无法依赖旧知识“舞弊” ;所有问题都针对图片中占比不到5%的细节  ,好比幼标志、幼字、微幼物体  ,必须用图像裁剪工具能力看清 ;覆盖体育、娱乐文化、科学技术、贸易金融、游戏、学术钻延注地理观光等八大领域  ,60%的问题都必要至少使用三种工具能力解答。 

单一说  ,无论是必要“查遍全网”的知始集型工作  ,还是必要“火眼金睛”的细粒度视觉分析  ,它都是当前的“全能冠军”。 


用组合拳  ,解决真实场景问题 

SenseNova-MARS还能实切其实落地到我们生涯和工作的场景  ,解决必要“多步骤推理+多工具合作”的问题。 

通常AI的工具挪用  ,要么只能搜文字  ,要么只能看图片  ,遇到必要“先放大细节、再鉴别物体、最后查布景”的复杂工作就束手无策。 

图片2.jpg

面对鉴别赛车服微幼 Logo + 查问公司成立年份 + 匹配车手诞生年月 + 推算差值’的复杂工作  ,SenseNova-MARS 可自主挪用图像裁剪、文本 / 图像搜索工具  ,无需人为过问实现关环解答。 

图片3.jpg

SenseNova-MARS能从产品和行业峰会的照片中  ,鉴别企业的标志  ,急剧网络产品、企业的信息  ,以及功夫、数量、参数等细节身分  ,辅助分析行业情况和格局。 

图片4.jpg

SenseNova-MARS能从赛事照片中鉴别画面中的Logo、人物等信息  ,追忆角逐某人员布景信息  ,援手急剧补充沉要细节。 

图片1.jpg

SenseNova-MARS甚至可能轻松处置  ,这类超长步骤的多模态推理  ,和超过三种工具挪用  ,自动裁剪分析细节、搜索有关钻研数据  ,急剧验证如果  ,得出关键判断。 

占有这种“自主思虑+多工具合作”的能力  ,SenseNova-MARS可能自动解决“细节鉴别 + 信息检索 + 逻辑推理”复杂工作  ,援手实现工作效能提升。 

(1)图像裁剪:能精准聚焦图片上的微幼细节  ,哪怕是占比不到5%的细节——好角逐车手衣服上的微幼Logo、赛事照片里观多席的标语  ,都可通过裁剪放大清澈分析。 

(2)图像搜索:能在看到物体、人物或场景  ,的瞬间自动匹配有关信息——好比鉴别出赛车手的身份  ,或是某款冷门设备的型号。 

(3)文本搜索:能急剧抓取精准信息——无论是公司成立年份、人物诞生年月  ,还是最新的行业数据  ,都能秒级获取。 


从练中学  , 形成"直觉"和"经验" 

SenseNova-MARS选取了“因材施教”的训练步骤。 

第一阶段:打基础。针对跨模态多跳搜索推理训练数据稀缺的痛点  ,创新性的提出了基于多模智能体的自动化数据合成引擎  ,选取细粒度视觉锚点 + 多跳深度关联检索的机造  ,动态挖掘并关联跨网页实体的逻辑  ,自动化构建高复杂度的多跳推理链路  ,同时引入关环自洽性校验往来除幻觉数据  ,机关出具备缜密逻辑链条与高知始度的多跳搜索问答数据。用精心筛选的“高难度案例”做教材  ,每个案例都标注了“该用什么工具、步骤是什么”  ,让AI先学会根基的“破案逻辑”。这些案例都是从海量数据中挑出的“硬骨头”  ,确保AI一路头就接触真实复杂场景。 

第二阶段:练实战。选取“强化进建”——就像侦探在一次次破案中堆集经验  ,AI每做对一次决策(好比选对工具、步骤合理)就会获得嘉奖  ,做错了就调整战术。为了预防AI“学偏”  ,钻研团队还加了个“不变器”——BN-GSPO算法  ,让它在处置单一题和复杂题时都能维持不变进取  ,不会出现“偏科”。 这种基于双阶段归一化的优雅机造有效滑润了动态工具挪用返回散布多样性带来的优化颠簸并确保了进建信号散布的一致性  ,从而成功解决了跨模态多步多工具智能体训练过程中的收敛性难题。 

经过这样的训练  ,AI不仅学会了用工具  ,更造就"工具使用直觉"——知路在什么情况下应该使用哪些工具  ,以及若何将分歧工具的了局有机结合起来。


模型、代码、数据全开源 

东升国际官网日日新SenseNova-MARS模型、代码、数据集全开源  ,支持 Hugging Face 直接下载。 

Github 仓库: https://github.com/OpenSenseNova/SenseNova-MARS

模型仓库: 

32B: https://huggingface.co/sensenova/SenseNova-MARS-32B

8B:https://huggingface.co/sensenova/SenseNova-MARS-8B

技术汇报: https://arxiv.org/abs/2512.24330

产品试用
填写此单一表格  ,我们将尽快联系您!
商务合作
400 900 5986
周一至周五 9:00-12:00  ,13:00-18:00
合作同伴招募
【网站地图】