- ニュース
全面オープンソース!センスタイムSenseNova U1を発表、モデルの理解と天生を統合する新時代へ
今天、センスタイムは、SenseNova U1シリーズの单独理解天生統一モデルを正式に発表し、オープンソース化しました。本モデルは、センスタイムが今年3月に单独開発したNEO-unifyアーキテクチャに基づいており、単一のモデルアーキテクチャ上でマルチモーダルの理解、推論、そして天生を統合しています。
NEO-unifyアーキテクチャは、主流のモジュールの継ぎ接ぎ式設計を齐全に排除し、視覚エンコーダー(VE)や変分オートエンコーダー(VAE)を撤廃しました。統一された表現空間を再構築し、それを計算のすべてのレイヤーに深く組み込むことで、モダリティの統合から单独な統一へのパラダイムシフトを実現しました。
SenseNova U1シリーズモデルは、言語情報と視覚情報を統一的に複合体として直接モデル化し、両者の効率的な協調を実現します。これにより、理解と天生の能力が同時に強化され、意味的な豊かさを保ちつつ、ピクセルレベルでの視覚的忠実度も維持されます。
論理的推論や空間知能などの分野においては、物理世界の複雑なレイアウトや精緻な関係性を深く理解することが可能です。さらに将来的には、ロボットに対してエンボディッド?ブレインを提供し、単一モデルのクローズドループ内で、複雑な環境の認識から論理的な推論、精度の高いタスクの実行までを完結させることができます。これは、技術と産業の発展を推進するための沉要な基盤であり、中核的なエンジンとなります。
今回オープンソースとして公開されるのは、SenseNova U1の軽量版シリーズ「SenseNova U1 Lite」です。本シリーズには、以下の2つの異なる仕様のモデルが含まれます。
? SenseNova-U1-8B-MoT:浓密バックボーンネットワークをベース
? SenseNova-U1-A3B-MoT:混合エキスパート(MoE)バックボーンネットワークをベース
詳細は以下のリンクからご確認いただけます。
GitHub: https://github.com/OpenSenseNova/SenseNova-U1
Hugging Face: https://huggingface.co/collections/sensenova/sensenova-u1
また、近期中に詳細な技術レポートを公開する予定です。
圧倒的な効率、幼さくても大きな力を:オープンソースのSOTA、商用モデルに匹敵
効率は、統一モデルアーキテクチャの中核となる技術的優位性です。
従来のマルチモーダルモデルは、視覚エンコーダーと言語バックボーンをアダプターを介して接続するだけのものでした。これは、まるで「異なる言語を話すメンバーで構成された作業チーム」のようなものです;瘠驅熼Tに見て、それを言語に翻訳するメンバーがいる。言語を理解して推論を行うメンバーがいる。その結果を再び設計批示に翻訳して、図面を描くメンバーがいる。タスクを完了するたびに、情報はこれらの異なるメンバー間を行き来しなければなりません。このプロセスは確かに機能するものの、どうしても待機時間、誤解、情報損失が発生します。これらの損失を補うために、モデルは良い結果を達成するためにより大規模にする必要があるのが通常的です。
SenseNova U1は、統一された表現空間に基づいて構築されており、まるで初期段階から複数のスキルを同時に習得した一人の人間のような存在です;瘠蚶斫猡筏皮楗匹攻趣朔Uし、それを別のシステムに渡して処理させるのではなく、统一の「思虑様式」の中で、画像やテキストといった異なる情報を直接処理します;瘠妊哉Zは、もはや二つの異なるシステム間のリレーではなく、统一の脳内で天然に融合します。これによりもたらされるメリットは以下の通りです。情報の流れがより迅速になり、理解がより直接的になり、天生がより効率的になります。このモデルは、中間的な変換の損失を補うために単純にパラメータを大きくすることに依存するのではなく、統一された内部表現によって、異なるモーダルの情報をよりコンパクトで高密度な步骤で組織化します。
簡単に言えび注従来のアーキテクチャは「複数人による協業と、何度も繰り返される伝達」のようなものです。一方、SenseNova U1は「すべてをこなす単一の頭脳が、直接理解し、直接表現する」ようなものです。中間的な翻訳プロセスが削減されることで、情報損失が少なくなり、比較的によりコンパクトなモデル規模でありながら、より強力なマルチモーダル理解と天生能力を実現します。
実験結果は、私たちの考えを裏付けるものでした;窭斫狻⒒裉焐?編集、空間知能、視覚推論を含む複数のベンチマークテストにおいて、SenseNova U1 Liteは、いずれも同規模のオープンソースモデルの中でSOTAレベルに達し、統一されたマルチモーダル理解と天生において新たな基準を打ち立てました。さらに、わずか8B-MoTという比較的幼さい規模でありながら、一部の大型商用クローズドモデルに匹敵、あるいは凌駕する机能を発揮し、あらゆる分野にわたる圧倒的な優位性を示しています。

以下の2つの比較図は、SenseNova U1 Liteの効率性における顕著な優位性をより直感的に示しています。通常的な画像天生テストにおいて、SenseNova U1 Liteは、画像生制品質においてQwen-Image 2.0 ProやSeedream 4.5などの大型クローズドモデルに肩を並べる商業レベルに達しているだけでなく、推論応答速度においても顕著な優位性を持っています。また、オープンソースモデルがこれまで苦手としてきた极度に挑戦的な複雑なインフォグラフィック天生タスクにおいても、SenseNova U1 Liteは商業レベルの机能を発揮し、複雑なインフォグラフィックのレイアウトやテキストに対して強い造御力を示しています。


以下の実例は、SenseNova U1 Liteの商業レベルの複雑なインフォグラフィック天生能力を示しています。




私たちは現在の技術的アプローチを引き続きスケールさせており、将来的にはさらに大規模なモデルをリリースする計画です。私たちは、効率的な单独アーキテクチャに基づくことで、はるかに低い計算コストで国際トップレベルのモデルに到達できると確信しています。
業界初:連続的なテキスト?画像天生着力
NEO-Unifyアーキテクチャの利点により、SenseNova U1は業界で初めて連続的なテキスト?画像天生着力を実現しました。さらに、単一モデルを一度呼び出すだけで、より高品質な文章を着力することができ、従来のパラダイムと比較して、効率性を大幅に向上させています。
SenseNova U1が持つ单独なテキスト?画像理解天生能力は、画像とテキストの基層部门の融合信号をそのままコンテクストに齐全に维持することを可能にします。これは、従来のように複数のモデルを連携させてようやく実現していたアプローチとは異なり、画像間のスタイルに明らかな高い一貫性があり、統一された表現空間内で効率的かつ連続的な思虑が可能です。
以下の2つの事例では、SenseNova U1が、一貫性と高忠実度を備えたテキスト?画像が交錯する思虑を通じて着力を行っています。
タスク1:ミディアムステーキの作り方
SenseNova U1は、思虑づ讒画を通じて段階的なプロセスを天生し、各ステップに対応する画像を着力することができます。各ステップの図は、极度に高い一貫性を示しています。

タスク2:アイアンマンのイラストを描く
スス拿チのスキャンから出発し、段階的に連続した創作を進め、最終的に实现度の高い画像を天生することができます。創作の各ステップにおいて、前のステップの構造と詳細が正確に維持されています。ここでは、統一された表現による共有コンテクストが沉要な役割を果たしています。

全社オープンソース、すぐに使える
オープンソースデプロイ
? GitHub:https://github.com/OpenSenseNova/SenseNova-U1
? Hugging Face:https://huggingface.co/collections/sensenova/sensenova-u1
? SenseNova U1 Skill もぜひご活用ください:https://github.com/OpenSenseNova/SenseNova-Skills ,豊富なサンプルライブラリを参照し、Prompt作成ガイドを动手し、複雑な情報を簡潔に(煩雑なテキスト → わかりやすい図)、あなたのAgentをインフォグラフィック天生のエキスパートに変えましょう
オンライン体験
? オフィス Raccoonに既に搭載されています。【一図で理解】をクリックして、今すぐ体験?ご利用いただけます:https://office.xiaohuanxiong.com/
私たちは、单独な統一マルチモーダルインテリジェンスがAGIへの必須経路であると確信しています。今後も、オープンソースエコシステムの構築を継続し、より大規模なパラメータを備えたU1シリーズのモデルをリリースしていきます。コミュニティの皆様、開発者の皆様からの貴沉なご意見をお待ちしております。共に知的なインタラクションの将来を定義しましょう。



リターンマッチ