MAI-Voice-1 en MAI-1-preview: dit zijn de eerste AI-modellen van Microsoft AI.

Laatste update: 2 september 2025
  • MAI-Voice-1 genereert expressieve stemmen met een hoge getrouwheid en een extreem lage latentie met behulp van één GPU.
  • MAI-1-preview is een MoE-model dat is getraind met ~15.000 H100's en dat zich richt op het volgen van instructies.
  • Beide worden geleidelijk geïntegreerd in Copilot en kunnen worden getest in Labs en LMArena.
  • Strategie: Gespecialiseerde modellen orkestreren en tegelijkertijd met OpenAI's laten samenwerken.

Microsoft AI-spraakmodel
Uitstekend beeld

Microsoft heeft een stap gezet met de lancering van zijn eerste eigen modellen voor kunstmatige intelligentie onder de Microsoft AI-paraplu: MAI-Voice-1 en MAI-1-previewMet deze stap wil het bedrijf een productstrategie ontwikkelen waarbij de assistenten en diensten profiteren van gespecialiseerde modellen, waarbij de nadruk ligt op zowel spraak als tekst.

De ambitie van het technologiebedrijf is om AI om te zetten in “de poort naar een universum van kennis”, waarbij een set betrouwbare systemen wordt georkestreerd die elke gebruiker begrijpen. Dit vertaalt zich in twee belangrijke innovaties: een zeer snel en expressief spraakmodel en een tekstachtig model. mix van experts gericht op het dagelijks volgen van instructies en het geven van bruikbare antwoorden.

Wat is MAI en waarom nu?

MAI is het acroniem voor Microsoft-AI, het zegel waarmee de mensen uit Redmond hun eigen oprichtingsmodellen omarmen. De context is van belang: de relatie met OpenAI blijft bestaan, maar de concurrentie is steeds groter, tot het punt dat Microsoft... OpenAI op zijn lijst met concurrentenToch benadrukt het bedrijf dat het, waar zinvol, gebruik zal blijven maken van de beste partner- en open communitymodellen.

Achter deze releases zit Mustafa Suleman, CEO van Microsoft AI en medeoprichter van DeepMind, die het doel duidelijk heeft gemaakt: het creëren van “toegepaste AI als platform voor producten.” Met andere woorden, gespecialiseerde modellen die geïntegreerd worden in Copilot en andere ervaringen, en zo zeer efficiënt voldoen aan specifieke spraak- en tekstbehoeften.

MAI-Voice-1: het stemmodel dat snelheid en expressiviteit prioriteit geeft

De eerste die op het podium komt is MAI-Stem-1, een spraaksynthesesysteem dat in staat is om expressieve, hifi-audio te genereren met extreem lage latentie. De grote belofte is dat het... één minuut audio produceren in minder dan één seconde, waarbij de natuurlijkheid en de variatie in intonatie behouden blijven.

Naast de snelheid is een van de sterke punten de expressiviteit: het model ondersteunt verschillende stijlen, tonen en nuances in de voice-over, ontworpen om vertelling of gesproken gidsenIn scenario's met één of meerdere sprekers is het resultaat wat Microsoft omschrijft als een "zeer expressieve en natuurlijke" stem.

Efficiëntie is ook een sleutelfactor: MAI-Voice-1 werkt met een enkele GPU in inferentie, een cijfer dat het tot de meest efficiënte spraaksystemen op de markt brengt. In een ecosysteem waar computerkosten een factor zijn, is deze optimalisatie essentieel voor het opschalen van functionaliteit naar consumentenproducten.

Wat betreft de beschikbaarheid is MAI-Voice-1 al geïntegreerd in Copilot Daily en Podcasts, en wordt ook aangeboden als een nieuwe ervaring binnen Copiloot LabsDaar kun je binnen de beslotenheid van het lab experimenteren met storytelling en expressieve spraak, stijlen aanpassen en verschillende stemmen verkennen.

Hoe het klinkt en wat je er vandaag mee kunt doen

Degenen die het hebben geprobeerd, zeggen dat de audio heel natuurlijk, met een goede beheersing van intonatie en ritme. Opgemerkt dient echter te worden dat voor het moment Het is alleen beschikbaar in het EngelsMicrosoft geeft typische voorbeelden: vragen om ‘een verhaal over dinosaurussen’ en snel een verhaal van een minuut terugkrijgen met passende stemvariaties en tonen.

Binnen Copilot Labs is de “Audio-expressies" stelt u in staat om audio uit een script te genereren en de vertelstijl aan te passen. Modi zoals een Emotionele modus (om de toonhoogte en het ritme aan te passen, of om verschillende stemmen toe te wijzen) en een Verhaalmodus Meer gericht op expressieve storytelling. Het idee is om testen en prototypen te vergemakkelijken voor diegenen die mogelijkheden willen verkennen zonder een complexe omgeving op te zetten.

  Claude Sonnet 4.5: Agenten die programmeren, computers gebruiken en op het goede spoor blijven

Onder de gebruiksscenario's noemt Microsoft van verhalen en vertellingen tot begeleide meditaties, plus potentieel voor virtuele assistenten met realtime conversatie. Verminderde latentie, gecombineerd met expressiviteit, opent de deur naar vloeiendere ervaringen in spraakinterfaces waar natuurlijkheid is doorslaggevend.

  • Dynamische vertelling voor verhalen, podcasts of educatie.
  • geleide meditaties en wellness-inhoud met toonvariaties.
  • Conversatieassistenten in (bijna) realtime, contextgevoelig.
  • Snelle prototyping in Copilot Labs met aanpassingen voor stijl en stem.

Rekenefficiëntie: één minuut audio in minder dan één seconde

Om audio met een hoge getrouwheid en expressieve kwaliteit te produceren, heb je technisch talent nodig, maar MAI-Voice-1 is er trots op dit te kunnen waarmaken. met een enkele GPU, en bij extreem lage snelheden. Het getal is resonant: één minuut audio in minder dan een secondeVoor consumentenproducten is deze combinatie van lage latentie en lage kosten cruciaal voor het leveren van continue en schaalbare ervaringen.

In het huidige landschap, waar spraakmodellen concurreren om kwaliteit en snelheid, plaatst Microsoft MAI-Voice-1 onder de efficiëntere systemen Deze efficiëntie betekent niet alleen besparingen, maar maakt ook toepassingen mogelijk die voorheen onhaalbaar waren vanwege de kosten of de opgebouwde latentie.

Waar MAI-Voice-1 te proberen

Tegenwoordig ligt het testen van MAI-Voice-1 in de handen van gebruikers via Copiloot Dagelijks (nieuwssamenvattingen) en Copilot-podcasts, naast het laboratorium Copiloot LabsIn Labs kunt u met demonstraties van expressief spreken en vertellen zien in hoeverre u de stijl, het tempo en de toon beheerst, en dat alles met de belofte van zeer betrouwbaar bij de uitgang.

Als u geïnteresseerd bent in experimenteren, is de meest directe manier om Copilot Labs te openen en toegang te krijgen tot de stemsectie om met de vertelwijzenHoewel de verwachtingen hooggespannen zijn, is het goed om te onthouden dat dit slechts de eerste lichting is. Microsoft zal blijven innoveren op basis van feedback uit de community, parameters aanpassen en de mogelijkheden in de loop van de tijd uitbreiden.

MAI-1-preview: het grootschalige getrainde tekstmodel

Samen met het stemmodel komt MAI-1-preview, Microsofts eerste gepatenteerde AI-taalmodel, gericht op het volgen van instructies en het op een nuttige manier beantwoorden van alledaagse vragen. De gekozen architectuur is mix van experts (MoE), een strategie waarbij meerdere experts zich specialiseren en selectief worden ingeschakeld op basis van de taak, waardoor de efficiëntie en prestaties.

Wat de training betreft, geeft Microsoft aan dat MAI-1-preview is voor- en nagetraind met behulp van ongeveer 15.000 Nvidia H100-GPUDeze schaal geeft u een goede basis voor het afstemmen op instructies en voor het aanbieden van praktische antwoorden in gemeenschappelijke chat- en productiviteitsgebieden.

De aanpak van het Ministerie van Onderwijs doet denken aan recente trends in geavanceerde modellen: het systeem opsplitsen in gespecialiseerde componenten en alleen activeren wat per query nodig is. Deze aanpak is terug te zien in projecten zoals Diepzoeken of Qwenwaarbij efficiëntie tijdens de inferentie een onderscheidend kenmerk wordt in vergelijking met traditionele dichte architecturen.

Beschikbaarheid, openbare evaluatie en geleidelijke implementatie

MAI-1-preview is nu beschikbaar voor testen op het community-evaluatieplatform. LMArenaOm dit te doen, hoeft u alleen maar de modus in te voeren en te kiezen Directe chat en selecteer “mai-1-preview”, zodat iedereen kan hun gedrag testen in echte gesprekken en vergelijk het met andere modellen.

Microsoft is ook begonnen met MAI-1-preview implementeren in Copilot voor bepaalde tekstuele use cases. Het doel is tweeledig: gebruikersfeedback verzamelen en het model verder verfijnen in een praktijkomgeving, waarbij het samenwerkt met andere systemen die momenteel belangrijke ankers van de assistent van het bedrijf ondersteunen.

  Hoe drones werken

Tegelijkertijd heeft het bedrijf toegang mogelijk gemaakt via API voor vertrouwde testers en ontwikkelaars in early access. Deze gecontroleerde fase stelt ons in staat signalen te verzamelen over robuustheid en prestaties voordat we de kraan openzetten voor een breder publiek, met speciale aandacht voor de kwaliteit van de reacties en naleving van instructies.

Is het een vervanging voor de modellen van OpenAI? Coëxistentie en zijn eigen ambitie

Microsoft heeft duidelijk gemaakt dat het voorlopig zijn modellen zal blijven combineren met die van partners en community-innovaties. In de praktijk betekent dit MAI-1-preview. komt niet ter vervanging plotseling naar de systemen die vandaag de dag Copilot tot leven brengen. Sterker nog, het bedrijf is van plan ze te gebruiken in specifieke taken, het meten van resultaten en het aanpassen van de inzet op basis van feedback.

Sommige rapporten geven aan dat het geen vervanging zal zijn voor geavanceerdere versies van de GPT-familie in Copilot; in ieder geval is de belangrijke nuance dat Microsoft op weg is naar grotere technologische onafhankelijkheidDe samenwerking met OpenAI wordt voortgezet, maar verloopt genuanceerder: beide partijen erkennen elkaar nu als concurrenten op de AI-markt.

Dit hoofdstuk maakt deel uit van een complexe relatie met OpenAI. Microsoft heeft fors geïnvesteerd en de samenwerking was een tijdlang de hoeksteen van hun strategie, maar vorig jaar OpenAI als concurrent opgenomen naast Amazon, Apple, Google en Meta. Tegelijkertijd heeft OpenAI zijn terughoudendheid geuit om toekomstige grensverleggende technologieën zoals een hypothetische AGI te delen, wat de noodzaak voor Microsoft onderstreept om eigen mogelijkheden.

Ontwerpfilosofie: nuttige AI, geen ‘digitale persona’

Naast statistieken en benchmarks heeft Microsoft AI een standpunt ingenomen over de ervaring die conversationele AI zou moeten bieden. Suleyman waarschuwde voor het risico van het bouwen van systemen die ogenschijnlijk... gevoelens of doelen iets dat ongewenste verwachtingen of verwarring kan creëren.

De routekaart omvat het elimineren van kenmerken die het systeem antropomorfiseren, en het versterken van een AI die handig hulpmiddel en verantwoordelijk, zonder de bijwerkingen van een gewetensvolle indruk. In het geval van MAI-Stem-1 betekent dit dat er gekozen wordt voor expressiviteit en natuurlijkheid in de stem zonder die grens te overschrijden. menselijke emoties simuleren op een misleidende manier.

Strategie: orkestreer gespecialiseerde modellen met een productfocus

Microsoft benadrukt dat het zijn doel is een ecosysteem orkestreren van modellen die zijn ontworpen voor specifieke intenties en contexten. In de praktijk behandelt MAI-Voice-1 de gesproken interface met snelheid en kwaliteit, terwijl MAI-1-preview zich richt op teksttaken waarbij het volgen van instructies en direct gebruikersgemak centraal staan.

Deze modulariteit maakt het mogelijk dat Copilot en andere diensten het beste van elk model kunnen combineren, afhankelijk van het geval, een samenvatting vertellen nieuwslezer met een overtuigende stem, beantwoord nauwkeurig een alledaagse vraag of optimaliseer de stijl van een gesproken tekst voor een podcast of meditatiegids.

Gebruiksscenario's en kansen voor gebruikers en ontwikkelaars

Voor de eindgebruiker vertaalt het voorstel zich in nuttiger antwoorden en verbeterde spraakervaringen in producten die je al gebruikt. Voor content- of podcastteams betekent een high-fidelity voice engine met lage latentie dat ze meer en beter produceren, met minder technische problemen.

Voor ontwikkelaars is er vroege toegang via MAI-1-preview API opent de deur naar prototypes en gecontroleerde tests, waarbij wordt beoordeeld waar dit model voordelen biedt ten opzichte van andere. De fase in LMArena maakt ook contextuele vergelijkingen mogelijk en het verzamelen van echte statistieken over de kwaliteit van de reacties en de vermogen om instructies op te volgen.

  • Gebruikers: Verbeterde stem in Copilot Daily en Podcasts; natuurlijkere interactie.
  • Scheppers: Vertellingen en scripts met controle over stijl en ritme.
  • Bedrijf: spraakassistenten met een zeer lage latentie en een hoge expressiviteit.
  • ontwikkelaars: LMArena-testen en vroege API-toegang voor snelle iteratie.
  Bluetooth: de technologie die de draadloze wereld verbindt

Wat u op korte termijn kunt verwachten

Op korte termijn zullen we zien MAI-1-preview co-existeren met andere modellen in Copilot voor geselecteerde tekstuele use cases, terwijl Microsoft feedback analyseert en verbeteringen implementeert. Deze stapsgewijze implementatie maakt impactmeting en -analyse mogelijk. fine-tuning optimaliseren zonder dat dit ten koste gaat van de algehele gebruikerservaring.

Tegelijkertijd wordt verwacht dat het bedrijf zich verder zal verdiepen in MAI-Voice-1 binnen Copilot Labs en de producten waar het al aanwezig is. Door spraakscenario's en meer voorbeelden: Microsoft kan de respons van het model op diverse stijlen en echte productie-uitdagingen beter valideren.

Tekenen van de toekomstige richting

De toon van Microsoft is eenduidig: er is ambitie om miljarden te bereiken mensen via haar producten, met vooruitgang in modellen en rekenkracht. MAI-1 is het begin van een familie, en het is redelijk om variaties en nieuwe iteraties te verwachten die de balans tussen kwaliteit, kosten en latentie.

Aan de concurrentiezijde suggereert de MoE-strategie in tekstmodellen dat Microsoft zal blijven zoeken naar nieuwe mogelijkheden. efficiënte architecturen In inferentie, een sleutel tot opschaling naar grote volumes in massaproducten. De casus van MAI-Voice-1 bevestigt verder dat spraak een prioriteit is als interface van de toekomst voor deelnemers.

Relatie met het ecosysteem en publieke houding

De relatie met OpenAI blijft relevant, maar Microsoft heeft al laten zien dat het zich niet wil binden aan één enkele bron van innovatie. Het zal blijven integreren. de beste van zijn team, partners en de open community, zolang het waarde toevoegt aan producten en klanten. Tegelijkertijd positioneert het zijn eigen merk (MAI) als het voertuig voor autonomie verkrijgen waar het strategisch is.

Deze evenwichtsoefening – co-existentie nu en grotere onafhankelijkheid morgen – zou de concurrentie in assistenten en productiviteit kunnen versnellen. Voor gebruikers is het gewenste effect duidelijk: meer variatie aan gereedschappen en meer praktische herhalingen van wat daadwerkelijk alledaagse problemen oplost.

De weddenschap van Microsoft met MAI-Voice-1 en MAI-1-preview combineert pragmatisme en snelheid: een stemmodel efficiënt en expressief die al ervaringen in Copilot mogelijk maakt, en een tekst sjabloon Een grootschalig, getraind MoE-model, dat nu al in gecontroleerde scenario's wordt ingezet, kan worden getest op LMArena en is via API toegankelijk voor vertrouwde testers. Het nakende doel is duidelijk: gespecialiseerde modellen, geïntegreerd in producten, die zich aanpassen aan de dagelijkse behoeften van elke persoon.

microsoft deepseek-0
Gerelateerd artikel:
Microsoft verbreedt zijn horizon met AI DeepSeek: een technologische doorbraak uit China