- テキスト、画像、オーディオ、ビデオ、リアルタイム ストリーミングを備えたネイティブ オムニモーダル モデル。
- 22/36 オーディオ/ビデオ ベンチマークおよび多言語 (119/19/10 言語) での SOTA。
- MoE、低レイテンシ、システムプロンプト制御を備えた Thinker-Talker アーキテクチャ。
- vLLM/Transformers、Docker、公式ユーティリティを使用したデプロイメントをお勧めします。

Qwen3-Omniの登場により、AIボードに動きが起こりました。 テキスト、画像、音声、ビデオを理解し、応答できる単一のネイティブモデル、即座に書面と口頭の両方で応答します。ここで言うのはマルチモーダルな「パッチ」ではなく、モダリティを統合するためにゼロから設計されたアーキテクチャです。 低遅延と細かい動作制御.
ほぼすべての人がチャットボットやアシスタントを試している今、Qwen3-Omni は野心を持って登場します。 テキストは119言語に対応し、19言語で音声を認識し、10言語で話すことができます。は、最大30分の長時間音声を理解し、数十のベンチマークで基準値を誇ります。さらに、Thinker-Talker設計とMixture of Expertsアプローチにより、 応答速度と推論の質 現実のシナリオでは。
Qwen3-Omni とは何ですか? 何を提供しますか?
Qwen3-Omniは、エンドツーエンドの「オムニモーダル」かつ多言語対応の基礎モデルファミリーです。 テキスト、画像、音声、ビデオを処理するように設計されている テキストと自然音声の両方で出力されます。重要なのは、入力と出力の多様性だけでなく、それらがどのように機能するかです。 流れるような会話でストリーミング すぐに応答できる能力。
チームは、パフォーマンスと効率性を向上させるために、いくつかのアーキテクチャ上の改善を導入しました。 初期の「テキストファースト」事前トレーニング 混合マルチモーダルトレーニングと、音声と視聴覚を強化しながらテキストと画像の文字を維持するMoE(Mixture of Experts)設計を組み合わせた。これにより、モデルは 36のオーディオ/ビデオベンチマークのうち22でSOTAを達成 また、36 のうち 32 で SOTA オープンソースが採用され、ASR、オーディオ理解、音声会話の分野では Gemini 2.5 Pro に匹敵する結果が得られました。

主な機能とモダリティ
Qwen3-Omni は、幅広い多言語サポートを備え、実際のオーディオ、ビジョン、オーディオビジュアルのユースケースに対応しています。 119 のテキスト読み上げ言語、19 の音声読み上げ入力言語、10 の音声読み上げ出力言語音声入力言語には、英語、中国語、韓国語、日本語、ドイツ語、ロシア語、イタリア語、フランス語、スペイン語、ポルトガル語、マレー語、オランダ語、インドネシア語、トルコ語、ベトナム語、広東語、アラビア語、ウルドゥー語が含まれ、出力言語には、英語、中国語、フランス語、ドイツ語、ロシア語、イタリア語、スペイン語、ポルトガル語、日本語、韓国語が含まれます。
公式クックブックスイートは、その幅広い用途を説明しています。オーディオ版では、 多言語および長時間音声の音声認識(ASR)音声テキスト翻訳、音声音声翻訳、音楽分析(スタイル、リズム、ジャンル)、効果音の説明など あらゆる音声の字幕音声、音楽、アンビエンスが混在するトラックの分析もサポートします。
ビジョンでは複雑な画像に対応する「ハード」OCRがあり、 物体検出と接地、画像に関するQA、 数学の解答 画像(思考モデルが輝く部分)、ビデオの説明、一人称視点のビデオベースのナビゲーション、 シーン遷移分析オーディオビジュアルシナリオでは、時間調整によるオーディオビデオQAを実演します。 AV入力によるガイド付きインタラクション アシスタントの動作との対話。
エージェントとして、彼はその能力で際立っています オーディオからの関数呼び出し、ツールを起動する音声ワークフローを開き、派生タスクには オムニキャプション 基礎の一般化能力を示す詳細な字幕を付けます。
MoEによる思考・対話型建築とデザイン
差別化を図るアイデアの一つは、責任を分離することです。 思考者はテキストを生成する (思考の連鎖を明示的に示すバリエーションを含む)、そして 話者は音声を発する リアルタイムで。この分離により、システムは自然な音声会話を維持しながら、 高いレベルの理解と計画 テキストで。
MoEベースは、専門家間で負荷を分散し、強力な一般表現のためにAuT事前学習に依存しています。さらに、 マルチコードコーディング オーディオチャンネルの遅延を最小限に抑えます。これは、通話やアシスタントにとって重要です。 100分の1秒 アカウント
パフォーマンスとベンチマーク: テキスト、ビジョン、オーディオ、オーディオビジュアル
Qwen3-Omniは、単一モードに焦点を合わせた同じサイズのQwenモデルと比較しても、劣化することなく最先端のテキストと画像のパフォーマンスを維持し、オーディオとオーディオビジュアルでは ほとんどのテストでペースを決める36のオーディオおよびオーディオビジュアルベンチマークで、オープンソースSOTAを32で達成し、合計SOTAを22で達成し、いくつかのポイントを上回りました。 Gemini 2.5 ProとGPT-4o.
本文中のハイライト: エイム25 フラッシュ命令バリアントは約65,9です。 ゼブラロジック 指示レベルが90に達すると、 複数 GPT-4oと比較して競争力のある数値を達成しています。IFEvalやWritingBenchなどのアライメントタスクでは、 指導と思考のモデル 一貫して高いスコアを示します。
音声では、中国語と英語のASR結果は非常に良好です。 ウェネットスピーチ y Libriスピーチ 単語エラー率を大幅に削減し、LibriSpeech clean/otherでは1,22/2,48に近い数値となり、 フラワーズ (多言語対応)は非常に低い料金設定となっています。VoiceBenchでは、 AlpacaEval、CommonEval、WildVoice Qwen3-Omniはクローズドリファレンスシステムと同等であり、音声推論では際立っています。 MMAU v05.15.25.
オーディオビジュアル分野で最も引用されているデータは ワールドセンス≈54,1、ジェミニ2.5フラッシュの上。また、次のようなセットでも。 デイリーオムニ y ビデオホームズ Thinkingバリアントは、従来のオープンソースSOTAよりも優れた改善を実現しています。純粋なビジョンにおいては、 MMMU、MathVista、MathVision ドキュメント理解(AI2D、ChartQA)では、非常に良い数字が出た。 カウント (CountBench) およびビデオ理解 (Video‑MME、MLVU) の分野でも使用されています。
ゼロショット音声生成も測定されます。CosyVoiceやSeed-TTSなどのファミリーと比較して、Qwen3-Omniレコードは コンテンツの一貫性の向上 複数の言語で 話者の類似性が高い多言語セクションの「コンテンツの一貫性」および「話者の類似性」表を見ると、Qwen3-Omni 30B-A3B は中国語と英語で非常に競争力があり、ドイツ語、イタリア語、ポルトガル語、スペイン語、日本語、韓国語、フランス語、ロシア語でも優れた性能を発揮することが示されています。 クロスリンガルTTSは、CosyVoice 2/3 と比較して、複数のペア (例: zh→en、ja→en、ko→zh) で優れた WER/一貫性を実現します。
利用可能なモデルとそれぞれの用途
Qwen3-Omni ラインには 3 つの主要部分が含まれており、それぞれが特定の用途向けに設計されています。 指示する, 考え y キャプション作成者これらはすべて同じコアから来ていますが、特定のタスクに合わせて有効化または微調整されたさまざまな機能が備わっています。
Qwen3‑Omni‑30B‑A3B‑指示する 考える人と話す人を含み、受け入れる 音声、ビデオ、テキスト テキストと音声を返します。完全なインタラクションとリアルタイムの音声結果を求めるなら、これが最適で、 デモに推奨 音声またはビデオ付き。
Qwen3‑Omni‑30B‑A3B‑考え 考える人に焦点を当てる 連鎖推論は、音声、動画、テキスト出力をサポートします。詳細な分析、複雑な問題解決、画像ベースの計算、あるいは以下のようなワークフローに役立ちます。 音声出力は必要ありません しかし、最も構造化された思考です。
Qwen3‑Omni‑30B‑A3B‑キャプション作成者 は、 音声字幕 高精度、低幻覚性。オープンソースであり、任意のオーディオを非常に詳細にカバーし、オープンソースエコシステムにおける歴史的なギャップを埋めます。 信頼性が高く豊富なキャプション 一般的なオーディオ用。
レイテンシー、リアルタイム、行動制御
このシステムは即時のインタラクションに最適化されており、 オーディオでは約211ミリ秒、オーディオビデオでは約507ミリ秒ストリーミングに加えて、自然な話し方と声の出し方の安定性にも重点が置かれており、 考える人(テキスト)と話す人(音声).
髪を分割するには、スタイルをカスタマイズできます システムプロンプト映像音声が質問の役割を果たすAVシナリオでは、チームは思考者の推論を維持し、より読みやすく会話的なテキストを提供するシステムプロンプトを提案し、思考者が 話者は流暢に発声するパラメータを一定に保つことも推奨される。 ビデオでオーディオを使用する 複数ターンの会話全体を通して。
評価には具体的なガイドラインがあります。 システムプロンプト、各ベンチマークの ChatML 形式に従い、プロンプトが表示されない場合は、デフォルトで以下を使用します: 中国語 ASR (「请将この段中文语音转换は纯文本。」)、その他の言語 ASR (「転記する 音声をテキストに変換する」)、S2TT(提供されたスピーチ…」、歌詞(「転記する 歌詞には「…句読点は無く、行は改行で区切られている」とある。
展開、要件、ツール
完全な地元体験のために、チームは以下を推奨します フェイストランスフォーマーを抱き締める を確認します ソフトウェアエンジニアリングの段階ただし、MoEアーキテクチャであるため、推論時にHFを使用すると遅くなる可能性があります。 低遅延、彼らは使用を勧めている vLLM または DashScope API両方の環境を含むDockerイメージも提供されています。Transformersのコードはすでにマージされていますが、PyPIパッケージは まだ公開されていません ソースからインストールする必要があります。
オーディオや画像/ビデオ(base64、URL、埋め込み入力)を扱うためのユーティリティを提供し、 フラッシュアテンション2 Transformersを使用すると、ロードするたびにGPUメモリを削減できます float16 o bfloat16vLLMにはFlashAttn2が含まれており、次のようなパラメータがあります。 プロンプトあたりの制限mm (GPUにメモリを事前割り当てする)および 最大シーケンス数 並列処理のため、またアップロード テンソル並列サイズ マルチ GPU 推論を可能にします。
リソースを節約するための便利な詳細があります。音声が必要ない場合は、 Talkerを無効にする 初期化後、約10GBのVRAMを節約できます。より高速なテキスト結果が必要な場合は、 return_audio=False 世代で。BF16のFlashAttn2搭載時の理論上の最小メモリ値も提供されています。例えば、Instruct 30B-A3Bは、FlashAttn2搭載時で約78,9GBです。 15秒のビデオ そして 120 秒で ~144,8 GB になります。Thinking はそれぞれ ~68,7 GB と ~131,7 GB に低下します。
持ち上げる デモウェブ ローカルでは、vLLM環境(または遅いTransformers)を準備することをお勧めします。 ffmpeg 彼らのスクリプトを使用することができます。GPU対応のDockerイメージ「qwenllm/qwen3-omni」が提供されています。 NVIDIA コンテナ ツールキットポートマッピング(例:ホスト8901 → コンテナ80)、および0.0.0.0でサービスを提供する指定。コンテナはいつでも再参加または削除できます。
デモ、API、エコシステム
ローカルにデプロイしたくない場合は、 Hugging Face SpacesとModelScope StudioのデモQwen3-Omni-Realtime、Instruct、Thinking、Captionerの体験版もご用意しています。 Qwen チャット リアルタイムストリーミング:オプションを選択するだけ 音声/ビデオ通話 インターフェースで。
大規模かつ低遅延で統合するには、次のルートが推奨されます。 ダッシュスコープAPIは、最も予測可能なパフォーマンスを提供します。さらに、コミュニティは以下のようなチャネルを通じて調整されています。 DiscordとWeChatプロンプトやモデルを変更することで結果を再現できる、実際の実行ログを含むクックブックを公開します。
ロードマップと継続的な改善
チームは次のような追加機能の開発に取り組んでいます。 複数話者音声認識、ビデオへのOCRの適用、視聴覚によるプロアクティブ学習の改善、 エージェントフロー 彼らはまた、 InstructモデルのvLLMでのオーディオ出力 まもなく到着し、そのバックエンドからのリアルタイム展開のループが閉じられます。
FAQ: ランタイムサポートと量子化
一部のユーザーからは、「いつもの容疑者」でもQwen3-Omniを実行できない、また、 ハギング・フェイスのクオンツさらに、ネイティブ16ビットフォーマットは約70GBと、中程度のコンピュータでは扱いにくいサイズです。プロジェクト自体が、Transformersが既に マージされましたが、PyPIパッケージは含まれていませんはソースからインストールする必要があり、vLLMは推論に推奨される選択肢ですが、vLLMのInstructオーディオサポートは 短期間でリリースされる予定.
量子化に関しては、Qwen3-Omni 30B-A3BにはまだHF対応のプレースホルダーがリストされていないため、 MoEとマルチモーダル llama.cppのようなランタイムとの互換性が複雑になります。今すぐ試す必要がある場合は、公式の推奨は以下を使用することです。 ソースからのDocker + Transformers/vLLM Oラ API、サポートと将来のPRのためにリポジトリを監視します クオンツ 準備ができたら。
優れた評価の実践と促進
数値を再現するために、ガイドラインが詳細に定められている。ほとんどのベンチマークでは、 Instructにおける貪欲デコード サンプリングなしで、そしてパラメータを考えるために 世代構成.json。ビデオも fps=2 評価中であり、ユーザープロンプトが マルチモーダルデータ後 セットで別途指定がない限り。
ベンチマークにプロンプトが含まれていない場合は、デフォルトのプロンプト(中国語/その他のASR、S2TT、歌詞)を使用できます。また、プロンプトは設定しないでください。 システムプロンプト システムと実行間で結果を比較できるように評価中です。
Qwen3-Omniは、レイテンシを抑え、幅広い多言語対応を実現した真のオムニモーダルプラットフォームとして位置付けられています。 オーディオとオーディオビジュアルの最先端の成果 Transformers、vLLM、Dockerを使った明確なデプロイメントパスも用意されています。テキストと画像の両方で推論しながらも、勢いを失うことなく、単一のモデルを探している方のために、 ビデオを聞いて、話し、理解するは、今日では匹敵することが難しい提案です。
