- Native omnimodaal model met tekst, afbeeldingen, audio, video en realtime streaming.
- SOTA in 22/36 audio/video benchmarks en meertalig (119/19/10 talen).
- Thinker-Talker-architectuur met MoE, lage latentie en systeempromptbesturing.
- Aanbevolen implementatie met vLLM/Transformers, Docker en officiële hulpprogramma's.

De komst van Qwen3-Omni heeft een zet gedaan op het AI-bord: een enkel native model dat in staat is om tekst, afbeeldingen, audio en video te begrijpen en erop te reageren, met directe, schriftelijke en gesproken reacties. We hebben het hier niet over multimodale 'patches', maar eerder over een architectuur die vanaf de grond af is ontworpen om modaliteiten te integreren met lage latentie en nauwkeurige controle van gedrag.
In een tijd waarin bijna iedereen chatbots en assistenten uitprobeert, komt Qwen3-Omni met ambitie: Ondersteunt 119 talen voor tekst, herkent stem in 19 en spreekt in 10, begrijpt lange audio (tot 30 minuten) en beschikt over referentiemetingen in tientallen benchmarks. Bovendien zijn het Thinker-Talker-ontwerp en de Mixture of Experts-aanpak gericht op reactiesnelheid en kwaliteit van de redenering in realistische scenario's.
Wat is Qwen3-Omni en wat biedt het?
Qwen3‑Omni is een familie van end-to-end “omnimodale” en meertalige fundamentele modellen, ontworpen om tekst, afbeeldingen, audio en video te verwerken met uitvoer in zowel tekst als natuurlijke stem. De sleutel is niet alleen de verscheidenheid aan invoer- en uitvoermogelijkheden, maar ook hoe ze werken in Streamen met vloeiende gesprekswendingen en de mogelijkheid om onmiddellijk te reageren.
Het team heeft diverse architectuurverbeteringen doorgevoerd ten behoeve van de prestaties en efficiëntie: vroege “tekst-eerst” pretraining gecombineerd met een gemengde multimodale training en een ontwerp met MoE (Mixture of Experts) dat het type in tekst en beeld behoudt en tegelijkertijd de audiovisuele en audiovisuele aspecten versterkt. behaalt SOTA in 22 van de 36 audio/video benchmarks en SOTA open‑source in 32 van de 36, met resultaten die vergelijkbaar zijn met Gemini 2.5 Pro op het gebied van ASR, audiobegrip en spraakconversatie.

Belangrijkste mogelijkheden en modaliteiten
Qwen3‑Omni is voorbereid op real-life audio-, beeld- en audiovisuele toepassingen, met uitgebreide meertalige ondersteuning: 119 tekst-naar-spraak-talen, 19 spraak-naar-spraak-invoertalen en 10 spraak-naar-spraak-uitvoertalenDe beschikbare talen voor spraakinvoer zijn onder andere Engels, Chinees, Koreaans, Japans, Duits, Russisch, Italiaans, Frans, Spaans, Portugees, Maleis, Nederlands, Indonesisch, Turks, Vietnamees, Kantonees, Arabisch en Urdu. De beschikbare talen voor spraakinvoer zijn onder andere Engels, Chinees, Frans, Duits, Russisch, Italiaans, Spaans, Portugees, Japans en Koreaans.
De officiële kookboeksuite illustreert de veelzijdigheid van het gebruik. De audioversie toont Meertalige en lange audio spraakherkenning (ASR), stem-naar-tekst en stem-naar-stem vertaling, muziekanalyse (stijl, ritme, genres), beschrijving van geluidseffecten en ondertiteling van alle audioHet ondersteunt ook gemengde analyse van tracks met stem, muziek en sfeer.
In het zicht bestaat er ‘harde’ OCR voor complexe beelden, objectdetectie en aarding, Kwaliteitsborging van afbeeldingen, wiskundige oplossing in beeld (waar het Thinking-model schittert), videobeschrijving, navigatie op basis van video in de eerste persoon en scène-overgangsanalyse. In audiovisuele scenario's demonstreert audio-video-kwaliteitsborging met tijdsafstemming, begeleide interactie met AV-ingangen en dialogen met assistentgedrag.
Als agent valt hij op door zijn vermogen om functieaanroep vanuit audio, die spraakworkflows opent die hulpmiddelen activeren, en in afgeleide taken is er een Omni-ondertiteling om zeer gedetailleerd te ondertitelen, wat het generalisatievermogen van de fundamentele aantoont.
Thinker-Palker Architectuur en Design met MoE
Een van de onderscheidende ideeën is het scheiden van verantwoordelijkheden: de Denker genereert de tekst (met varianten met expliciete gedachteketenredeneringen), en de Talker produceert audio in realtime. Deze ontkoppeling zorgt voor natuurlijke spraakconversaties terwijl het systeem een hoog niveau van begrip en planning in de tekst.
De MoE-basis verdeelt de werklast over experts en vertrouwt op AuT-pre-training voor krachtige algemene representaties. Daarnaast wordt gebruik gemaakt van een multicode-codering in het audiokanaal wordt de latentie tot een minimum beperkt, iets wat belangrijk is voor oproepen of assistenten waarbij elke honderdste van een seconde -account.
Prestaties en benchmarks: tekst, visie, audio en audiovisueel
Qwen3-Omni behoudt de geavanceerde tekst- en beeldprestaties zonder dat dit ten koste gaat van Qwen-modellen van dezelfde grootte die op één modus zijn gericht, terwijl in audio en audiovisuele bepaalt het tempo in de meeste testsIn de batterij van 36 audio- en audiovisuele benchmarks behaalt het een open-source SOTA in 32 en een totale SOTA in 22, waarmee het meerdere punten overtreft Gemini 2.5 Pro en GPT‑4o.
Enkele hoogtepunten in de tekst: in DOEL25 De Flash-Instruct-variant is ongeveer 65,9; in ZebraLogic de Instruct bereikt 90, en in Meervoudig Het behaalt concurrerende cijfers ten opzichte van GPT-4o. Bij afstemmingstaken zoals IFEval en WritingBench, de Instruct- en Thinking-modellen hoge en consistente scores laten zien.
In audio zijn de ASR-resultaten voor Chinees en Engels uitstekend: in WenetSpeech y LibriSpraak vermindert het foutenpercentage voor woorden aanzienlijk, met cijfers dichtbij 1,22/2,48 in LibriSpeech clean/other en in sets zoals BLOEMEN (meertalig) biedt zeer lage tarieven. In VoiceBench worden statistieken zoals AlpacaEval, CommonEval en WildVoice zet Qwen3-Omni op gelijke hoogte met gesloten referentiesystemen, en in audioredeneringen onderscheidt het zich in MMAU v05.15.25.
In de audiovisuele sector zijn de meest geciteerde gegevens: Wereldzin≈54,1, boven Gemini‑2.5‑Flash; ook in sets zoals DailyOmni y VideoHolmes De Thinking-variant biedt verbeteringen ten opzichte van eerdere open-source SOTA's. Qua visuele prestaties blinkt hij uit in MMMU, MathVista, MathVision en documentbegrip (AI2D, ChartQA), met zeer goede cijfers in telling (CountBench) en in videobegrip (Video‑MME, MLVU).
Ook de zero-shot-stemgeneratie wordt gemeten: vergeleken met families zoals CosyVoice en Seed-TTS, Qwen3-Omni-records betere consistentie van de inhoud in meerdere talen en hoge sprekersgelijkenisIn de meertalige sectie laten de tabellen 'Consistentie van de inhoud' en 'Sprekerovereenkomst' zien dat de Qwen3‑Omni 30B‑A3B zeer competitief is in het Chinees en Engels, en solide in het Duits, Italiaans, Portugees, Spaans, Japans, Koreaans, Frans en Russisch. cross-linguale TTS, behaalt betere WER/consistenties op meerdere paren (bijv. zh→en, ja→en, ko→zh) vergeleken met CosyVoice 2/3.
Beschikbare modellen en waarvoor elk model wordt gebruikt
De Qwen3-Omni-lijn bestaat uit drie hoofdonderdelen, die elk zijn ontworpen voor een specifiek type gebruik: Instrueren, het denken y OndertitelaarZe komen allemaal voort uit dezelfde kern, maar met verschillende mogelijkheden die voor specifieke taken zijn geactiveerd of nauwkeurig zijn afgestemd.
Qwen3‑Omni‑30B‑A3B‑Instrueren bevat Denker en Prater, accepteert audio, video en tekst en geeft tekst en audio terug. Het is dé oplossing als je volledige interactie en realtime gesproken resultaten wilt, en het is dé oplossing die... aanbevolen voor demo's met stem of video.
Qwen3‑Omni‑30B‑A3B‑het denken richt zich op de Denker met ketenredenering, ondersteunt audio, video en tekst met tekstuele uitvoer. Het is handig voor diepgaande analyses, complexe probleemoplossing, beeldgebaseerde wiskunde of workflows waarbij je hebt geen spraakuitvoer nodig maar het beste gestructureerde denken.
Qwen3‑Omni‑30B‑A3B‑Ondertitelaar Het is een verfijnd derivaat in audio-ondertiteling Hoge precisie, weinig hallucinaties. Het is open source, behandelt willekeurige audio tot in detail en dicht een historische leemte in het open source-ecosysteem: betrouwbare en rijke ondertitels voor algemene audio.
Latentie, realtime en gedragscontrole
Het systeem is geoptimaliseerd voor directe interactie, met cijfers van ≈211 ms in audio en ≈507 ms in audio-videoNaast streaming wordt de nadruk gelegd op natuurlijkheid in spreekbeurten en stabiliteit in stemoverdracht, iets waar de duidelijke rol tussen Denker (tekst) en Spreker (stem).
Om het nog chiquer te maken, kunt u de stijl aanpassen met systeempromptsIn AV-scenario's waarin de video-audio als een vraag fungeert, stelt het team een systeemprompt voor die de redenering van de Denker vasthoudt en een beter leesbare en conversatiegerichte tekst, waardoor het voor de Denker gemakkelijker wordt om Prater vocaliseert vloeiendHet wordt ook voorgesteld om de parameter consistent te houden gebruik_audio_in_video tijdens een gesprek dat meerdere beurten duurde.
Bij de evaluatie zijn er specifieke richtlijnen: stel geen systeemprompt, volgt u het ChatML-formaat van elke benchmark en gebruikt u, als er geen prompt is, standaard het volgende: Chinese ASR (“请将这段中文语音转换为纯文本。”), andere taal ASR (“overschrijven de audio in tekst.”), S2TT (“Luister naar de meegeleverde toespraak …”), en songteksten (“overschrijven de songtekst “…geen leestekens, regels gescheiden door onderbrekingen”).
Implementatie, vereisten en tools
Voor een complete lokale ervaring raadt het team aan Face Transformers knuffelen en bekijk het Fases van software engineering, maar wees voorzichtig: omdat het een MoE-architectuur is, kan het traag zijn met HF in inferentie; voor productie of lage latentie, adviseren zij het gebruik van vLLM of de DashScope API, en ze bieden zelfs een Docker-image met omgevingen voor beide. De Transformers-code is al samengevoegd, maar het PyPI-pakket nog niet gepubliceerd en je moet het vanaf de bron installeren.
Ze bieden hulpprogramma's voor het verwerken van audio en afbeeldingen/video (base64, URL's, ingebedde invoer) en bevelen aan FlashAttention 2 met Transformers om het GPU-geheugen te verminderen wanneer u laadt drijven 16 o bfloat16Met vLLM is FlashAttn2 inbegrepen en parameters zoals limiet_mm_per_prompt (wijst vooraf geheugen toe op de GPU) en max_num_seqs voor parallelisme; upload ook tensor_parallelle_grootte maakt multi-GPU-inferentie mogelijk.
Er zijn nuttige details om bronnen te besparen: als u geen audio nodig hebt, kunt u schakel de Talker uit na initialisatie, wat ongeveer 10 GB VRAM bespaart. En als u snellere tekstresultaten wilt, gebruik dan return_audio=Onwaar in generatie. Minimale theoretische geheugenwaarden worden ook gegeven voor BF16 met FlashAttn2: bijvoorbeeld Instruct 30B-A3B is ongeveer ~78,9 GB met 15 seconden video en ~144,8 GB bij 120 s; het denken daalt respectievelijk naar ~68,7 GB en ~131,7 GB.
Om een demo-web lokaal, raden ze aan de vLLM-omgeving (of Transformers, langzamer) voor te bereiden en ervoor te zorgen dat je ffmpeg en gebruik hun scripts. Ze bieden GPU-ready Docker-images aan "qwenllm/qwen3‑omni" met NVIDIA-containertoolkit, poorttoewijzing (bijv. host 8901 → container 80) en de indicatie om te serveren op 0.0.0.0. De container kan op elk moment opnieuw worden geopend of verwijderd.
Demo's, API's en ecosysteem
Als u niet lokaal wilt implementeren, kunt u het volgende proberen: demo's in Hugging Face Spaces en ModelScope Studio, met ervaringen voor Qwen3‑Omni‑Realtime, Instruct, Thinking en de Captioner. Ook beschikbaar Qwen-chat met realtime streaming: kies gewoon de optie spraak-/videogesprek in de interface.
Om op schaal en met lage latentie te integreren, is de aanbevolen route: DashScope API, wat de meest voorspelbare prestaties biedt. Bovendien wordt de community gecoördineerd via kanalen zoals Discord en WeChaten publiceer kookboeken met echte uitvoeringslogboeken waarmee u resultaten kunt reproduceren door prompts of modellen te wijzigen.
Routekaart en doorlopende verbeteringen
Het team werkt aan extra functies zoals spraakherkenning met meerdere sprekers, OCR toegepast op video, verbeteringen in audiovisueel proactief leren en agentstromen rijker. Zij hebben ook aangegeven dat de steun van Audio-uitvoer in vLLM voor het Instruct-model zal binnenkort beschikbaar zijn, waarmee de cirkel rond is wat betreft realtime-implementatie vanaf die backend.
FAQ: Runtime-ondersteuning en kwantificering
Sommige gebruikers hebben opgemerkt dat ze Qwen3‑Omni niet kunnen draaien, zelfs niet met de “gebruikelijke verdachten” en dat ze geen quants in Hugging Face; bovendien is het oorspronkelijke 16-bits formaat ongeveer 70 GB groot, een gecompliceerde grootte voor bescheiden computers. Het project zelf maakt duidelijk dat Transformers al samengevoegd maar zonder PyPI-pakket, die vanuit de bron moet worden geïnstalleerd, en dat vLLM de voorkeurskeuze is voor inferentie, hoewel Instruct-audio-ondersteuning in vLLM zal op korte termijn worden vrijgegeven.
Wat betreft kwantificering zijn er nog geen HF-voorbereide tijdelijke aanduidingen vermeld voor Qwen3‑Omni 30B‑A3B, en het is de moeite waard om te onthouden dat de aard MoE en multimodaal bemoeilijkt de directe compatibiliteit met runtimes zoals llama.cpp. Voor degenen die het nu willen proberen, is de officiële aanbeveling om Docker + Transformers/vLLM van bron of de APIen houd de repository in de gaten voor ondersteuning en toekomstige PR's kwantiteiten als ze er klaar voor zijn.
Goede evaluatiepraktijken en -aanwijzingen
Om de cijfers te reproduceren, worden gedetailleerde richtlijnen gegeven: in de meeste benchmarks wordt gebruik gemaakt van hebzuchtige decodering in Instruct zonder bemonstering, en voor het denken aan de parameters van de generation_config.jsonDe video is ook ingesteld op fps=2 onder evaluatie, en er wordt aangegeven dat de gebruikersprompt moet gaan na multimodale gegevens tenzij de set anders aangeeft.
Wanneer een benchmark geen prompt bevat, kunnen de standaardprompts worden gebruikt (Chinees/andere ASR, S2TT, songteksten). Daarnaast mag er geen prompt worden ingesteld. systeemprompt worden geëvalueerd, zodat de resultaten tussen systemen en uitvoeringen vergelijkbaar zijn.
Qwen3‑Omni wordt gepositioneerd als een echt omnimodaal platform, met beperkte latentie, brede meertalige dekking, baanbrekende resultaten op het gebied van audio en audiovisueel en een duidelijk implementatiepad met Transformers, vLLM en Docker. Voor wie op zoek is naar één model dat goed redeneert in tekst en beeld zonder zijn kracht te verliezen, en dat ook Video horen, spreken en begrijpen, is een voorstel dat vandaag de dag moeilijk te evenaren is.
Inhoud
- Wat is Qwen3-Omni en wat biedt het?
- Belangrijkste mogelijkheden en modaliteiten
- Thinker-Palker Architectuur en Design met MoE
- Prestaties en benchmarks: tekst, visie, audio en audiovisueel
- Beschikbare modellen en waarvoor elk model wordt gebruikt
- Latentie, realtime en gedragscontrole
- Implementatie, vereisten en tools
- Demo's, API's en ecosysteem
- Routekaart en doorlopende verbeteringen
- FAQ: Runtime-ondersteuning en kwantificering
- Goede evaluatiepraktijken en -aanwijzingen
