- ニュース
SenseTime、マルチモーダル自主推論モデル「SenseNova-MARS」をオープンソース化,マルチモーダル検索?推論の新たな到達点を突破
SenseTimeは、マルチモーダル自主推論モデルSenseNova-MARS(8B/32Bの2バージョン) を正式にオープンソース化しました。本モデルは、マルチモーダル検索および推論に関する重要ベンチマークにおいて 69.74点 を記録し、Gemini-3-Pro(69.06点)、GPT-5.2(67.64点)を上回る机能を達成しました。
SenseNova-MARSは、動的なビジュアル推論と画像?テキスト検索の高度な融合を実現した、始めのAgentic VLM(Vision-Language Model)です。自律的にタスクを計画し、必要なツールを選択?呼び出すことで、複雑な課題を自動的に解決します。AIに真の「実行能力」をもたらすモデルです。
MMSearch、HR-MMSearch、FVQA、InfoSeek、SimpleVQA、LiveVQAなどの各種ベンチマークにおいて、SenseNova-MARSはオープンソースモデル中のSOTAを達成しました。さらに、Gemini-3.0-ProやGPT-5.2といった最先端のクローズドモデルをも上回り、検索推論および視覚理解の両分野で総合的なリーダーシップを示しました。詳細は技術レポート(https://arxiv.org/abs/2512.24330)をご参照ください。開発者および各業界ユーザーの皆様のご検証?ご活用を歓迎いたします。
総合チャンピオンとして、複雑な問題を自律的に解決
SenseNova-MARSは、複数のマルチモーダル検索評価において顕著な優位性を示し、均匀スコア69.74点を獲得。Gemini-3-Pro(69.06点)、GPT-5.2(67.64点)を上回りました。

MMSearch(画像?テキスト検索の中核評価):74.27点で首位(GPT-5.2:66.08点)HR-MMSearch(高解像度ディテール検索評価):54.43点でトップを獲得し、クローズドモデルとの差を大きく拡大

HR-MMSearchでは、2025年の最新4K超高解像度画像305枚を使用。AIが既存知識に依存することを防ぐ設計となっています。設問は画像内の5%未満の微細なディテール(幼さなロゴ、微細な文字、極幼物体など)を対象とし、画像クロッピングツールを用いなければ識別できません。スポーツ、エンターテインメント、科学技術、金融、ゲーム、学術、地理?观光など8分野を網羅し、60%の問題で3種類以上のツール活用が必要とされます。
すなわち、広範な情報検索を要する知識集約型タスクから、極めて精緻な視覚分析を伴う課題まで、SenseNova-MARSは「総合チャンピオン」としての実力を発揮します。
マルチツール連携で、実社会の課題を解決
SenseNova-MARSは、「多段階推論+複数ツール協調」が求められる実務?日常シーンにも対応可能です。従来のAIは、テキスト検索のみ、あるいは画像認識のみといった限造的な能力に留まり、「拡大→識別→布景調査」といった複雑タスクへの対応が困難でした。

SenseNova-MARSは「レーシングスーツの微幼ロゴを識別、企業設立年を検索、ドライバーの生年月日を照合、差分を計算」複雑課題を自律的に完遂します。これらを、画像クロッピング、画像検索、テキスト検索ツールを自律的に組み合わせ、人的染指なしで完結させます。

SenseNova-MARSは、製品発表会や業界カンファレンスの写真から企業のロゴを識別し、製品や企業に関する情報を迅速に収集できます。また、日時、数量、仕様などの詳細身分も把握可能で、業界の状況や構図を分析する際の補助として活用できます。


SenseNova-MARSは、競技?大会の写真から画面内のロゴや人物などの情報を識別し、試合や関係者の布景情報を追跡することで、沉要なディテールを迅速に補完することができます。


SenseNova-MARSは、极度に長いステップを要するマルチモーダル推論や、3種類以上のツール呼び出しを伴うタスクでも容易に処理できます。自動で画像をクロッピングして細部を分析し、関連する钻研データを検索、仮説を迅速に検証して沉要な判断を導き出すことが可能です。
この「自律的思虑+複数ツール協調」の能力により、SenseNova-MARSは「細部の識別+情報検索+論理推論」を組み合わせた複雑なタスクを自動で解決し、業務効率の大幅な向上を增援します。
(1)画像クロッピング:画像内の微細な部门に正確にフォーカス可能です;瘠5%未満の幼さなディテールでも、レーシングスーツの幼さなロゴや観客席の横断幕などをクロッピングして拡大し、鮮明に分析できます。
(2)画像検索:物体、人物、または場面を認識した瞬間に関連情報を自動で照合できます。たとえび注レーサーの身元や、あまり知られていない機器の型番などを特定可能です。
(3)テキスト検索:正確な情報を高速に获得できます;嵘绀卧O立年、人物の生年月日、最新の業界データなども、秒単位で検索可能です。
実戦型トレーニングにより「直赣坠と「経験」を獲得
SenseNova-MARSは、二段階学習アプローチを採用しています。
第1段階:基礎構築。クロスモーダル多段検索推論の学習データが不及している課題に対し、SenseNova-MARSでは改革的にマルチモーダルエージェント型自動データ天生エンジンを導入しました。この仕組みでは、細かい粒度ビジュアルアンカー+多段階深度関連検索を組み合わせ、ウェブ上の異なるエンティティ間の論理関係を動的に抽出?連結。これにより、高度に複雑な多段推論チェーンを自動天生します。さらに、閉ループ整合性チェックを組み込むことで、幻覚データを排除し、論理的に整合性のある、高密度知識を含む多段検索QAデータを構築しています。学習教材には、精選された「高難度ケース」を使用。各ケースには「使用するツール」「推論手順」が明示されており、AIはまず根基的な「問題解決ロジック」を習得できます。これらのケースは大量データから厳選された“本物の難題”であり、AIが学習の初期段階から現実の複雑なシナリオに触れることを保証しています。
第2段階:強化学習による実戦訓練。SenseNova-MARSでは、次の段階として強化学習 を導入しています。これは、探偵が事务を一つ一つ解決しながら経験を積むのと同じイメージです。AIは、正しい判断(例:適切なツール選択、合理的な手順)を行うたびに報酬を得て、誤った場合は戦略を建改します。さらに、学習の偏りを防ぐために安谧化機構―「BN-GSPOアルゴリズム」を組み込み、簡単な課題でも複雑な課題でも安谧して学習が進むよう設計されています。この双段階正規化に基づく奇妙な仕組みにより、動的ツール呼び出しによる結果散布の多様性から生じる最適化の揺らぎを滑润化し、学習信号の散布を一貫させることが可能になりました。これにより、クロスモーダル多段階?多ツールエージェントの訓練における収束性の課題を解決しています。
このような訓練を経て、AIは単にツールを使えるだけでなく、「ツール使用の直赣坠 を身につけます。つまり、どの状況でどのツールを使うべきか、異なるツールの結果をどのように有機的に統合すべきかを自律的に判断できるようになります。
モデル?コード?データを全面公開
SenseNova-MARSは、モデル?コード?データセットを全面的にオープンソース化。Hugging Faceより直接ダウンロード可能です。
GitHub倉庫:https://github.com/OpenSenseNova/SenseNova-MARS
モデル倉庫:
32B:https://huggingface.co/sensenova/SenseNova-MARS-32B
8B:https://huggingface.co/sensenova/SenseNova-MARS-8B
技術レポート:https://arxiv.org/abs/2512.24330



リターンマッチ