微軟推出 MAI-Voice-1 與 MAI-1 預覽版:速度與自主性

最後更新: 10月2025
  • MAI-Voice-1(超快速語音)和 MAI-1-Preview(帶有 MoE 的文本)作為微軟的首批內部模型問世。
  • MAI-Voice-1 使用 GPU 在不到 1 秒的時間內產生 1 分鐘的音頻,現在可以在 Copilot Daily、Podcasts 和 Labs 中使用。
  • MAI-1 預覽版已在約 15.000 架 H100 上進行了訓練,正在有限地整合到 Copilot 中,並且正在 LMArena 進行測試。
  • 策略:減少對 OpenAI 的依賴,並以使用者為中心協調專門的模型。

Microsoft MAI 模型

微軟已經採取行動,並展示了其首批內部開發的人工智慧模型,這項舉措標誌著其策略的轉變,並直接面向一般大眾 MAI-Voice-1 和 MAI-1 預覽.

MAI 品牌代表著“微軟人工智慧”,並提出了兩個非常明確的方案:一個專注於超快速語音,另一個專注於基於專家架構的文字。所有這些都使該公司比 OpenAI 走上了更自主的道路,在保持合作的同時,也將其未來導向 擁有能夠與 ChatGPT、Gemini 和公司競爭的模型 en 生成式人工智能.

什麼是 MAI-Voice-1 和 MAI-1-preview?

推出 MAI 模型

據微軟稱,MAI-1 預覽版是 採用混合專家(MoE)架構的內部模型 在約 15.000 塊 NVIDIA H100 GPU 上分兩個階段(預訓練和後訓練)進行訓練。這種「專家」配置僅啟動每個任務所需的子元件,以追求效率並更好地與使用者意圖保持一致。

在產品方面,該公司表示,該文本模型是為 按照指示 並為日常問題提供有用的答案因此,其初始推出將受到控制:它將在未來幾週內推廣到 Copilot 中的一些文字場景,目標是根據回饋從現實生活中的互動中學習。

除了這種逐步整合之外,微軟也啟用了 LMArena 平台上的公開測試 收集更多優質訊號。同時,它計劃透過API向開發人員開放,從而加強模型的評估和持續改進流程。

該公司強調不會放棄其他AI引擎: 將繼續使用其團隊和合作夥伴的最佳模型,例如 人類的 以及開源生態系統 在有意義的地方。短期內,MAI-1 預覽版並非旨在取代 Copilot 中的 GPT-5;相反,它將服務於能夠提供明顯優勢的特定用例。

另一方面,MAI-Voice-1 是微軟的語音提案: 「高度表現力與自然」的生成模型 現已在 Copilot Daily 和播客上線,也可在 Copilot Labs 中體驗全新功能。其願景清晰明確:“語音是未來的介面”,旨在打造更實用、更人性化的 AI 助理。

其技術前景十分引人注目: 只需使用單個 GPU,即可在不到一秒的時間內產生一分鐘的音頻這種速度,加上高保真音色以及處理一個或多個揚聲器場景的能力,使 MAI-Voice-1 成為當今最有效的語音合成系統之一。

  DeepMind紀錄片:從遊戲到科學與動態人工智慧

在公開測試和演示中,音訊聽起來出奇的流暢,語調和節奏令人信服,儘管語言支援仍然缺乏。 僅限於英語微軟正在透過 Copilot Labs 探索風格和聲音的個人化,並首次推出了「Copilot Audio Expressions」等體驗。

一個有趣的細節:選定的名稱(MAI-Voice-1 和 MAI-1-preview)是 清晰且“非常像工程師”除了這個軼事之外,重要的是他們正在製定一份路線圖,以消費者為中心,優先考慮速度、效率和易用性,並推出一系列專業模型。

MAI-Voice-1:功能、用途以及試用場所

Copilot 中的 MAI 語音

MAI‑Voice‑1 是一個 高保真生成音頻 能夠快速完成配音、旁白和畫外音的創作。其主要賣點是低延遲:使用單一 GPU 即可在不到一秒的時間內產生長達一分鐘的音頻,從而實現近乎即時的應用程式。

初步整合已於 Copilot 日報及播客人工智慧已經能夠合成摘要或口語。為了探索不同的風格和細微差別,Copilot Labs 推出了“Copilot Audio Expressions”,其中包含旁白和富有表現力的語音演示,供用戶探索各種可能性。

在這些體驗中,微軟引入了以下選項: 情緒模式(音調和節奏控制) 或更戲劇性敘事的故事模式。目標是提供一系列可靈活調整的聲音和風格,既適用於單人敘述,也適用於多人場景。

該公司強調,該模型是 資源高效:它僅需單 GPU 即可運行,卻實現了卓越的表現力。這種成本與品質的平衡使其對消費級產品以及缺乏廣泛推理基礎設施的團隊極具吸引力。

微軟提出的最清晰的用例包括講故事、生成 引導冥想、建立畫外音腳本或提供即時對話協助。這一切都透過力求自然且適應語境的聲音來實現。

  • 敘述與說故事: 故事、語音指南、語言學習或具有多個角色的故事。
  • 內容製作: 自動播客、產品預告片、宣傳影片或每日摘要。
  • 協助和無障礙設施: 閱讀文字、支援有視覺障礙的使用者或快速建立口頭指示。
  • 互動體驗: 語音應答助理、應用程式和遊戲中的上下文指南或具有不同音調的支援機器人。

重要的一點是 多重揚聲器容量,適用於戲劇表演、模擬採訪或在單一音訊錄製中扮演不同角色。這款靈活的音場設計,無需錄音室或人聲協調,即可創造出更豐富的內容。

  Perplexity Assistant 作為預設助手,徹底改變了 Android

在演示中,只需輸入“關於 X 的故事”,就能在一秒鐘內播放出一分鐘的音頻,其中包含不同的聲音和語調。雖然現在評估所有細微之處還為時過早,但初步結果顯示 令人信服的自然性 適合日常使用。

目前,MAI-Voice-1 面向 英語如果您的主要受眾是西班牙語用戶,請務必注意這一點。無論如何,隨著培訓和公開測試的推進,其架構和效能將支援更廣泛的語言。

值得記住的是,在安全和道德方面,微軟已經重申,它將消除任何使人工智慧出現的功能 彷彿它有自己的感情或目標其目的是在不擬人化的情況下增強實用性,這在基於語音的對話助理中尤其敏感。

MAI-1 預覽:架構、部署與策略

1 月 XNUMX 日 Copilot 預覽

MAI-1 預覽版是 微軟創建的第一個文字基礎模型 在其 MAI 部門內部。該模型已進行過大規模訓練(約 15.000 台 H100),並採用了 MoE 方法:“專家混合”,即每次輸入僅激活模型的相關部分。

這種設計允許在專家之間分配能力,並提高任務的績效 按照指示微軟的目標是提供實用的、以生活為導向的解決方案,優先考慮最終用戶的體驗,而不是純粹以業務為導向的方法。

在實踐中,部署將分為兩個階段。首先,模型到達 Copilot 中部分文字場景的預覽並以受控的方式進行遙測並收集回饋。然後,根據回饋,調整行為並擴大影響範圍。

其次,該公司已在 LMArena 上開放了測試存取權限, 大眾評價該流程加速了改進週期,提供了輸入多樣性,並使得在更廣泛的整合之前能夠發現微調機會。

微軟明確表示 MAI-1-preview 目前不會取代 Copilot 內部的 GPT-5該策略是“使用正確的模型來完成正確的工作”,將 MAI-1-preview 整合到特定任務中並不斷比較它們的性能。

同時,該公司保證將繼續押注於多種引擎的組合:自己的引擎、OpenAI 等合作夥伴的引擎以及 來自開源社群的創新這樣,Copilot 既可以受益於 MAI 的自主性,又可以受益於每個領域的最佳可用模式。

整個運動是更廣泛轉變的一部分: 減少對 OpenAI 的技術依賴 並建構自身俱有彈性的人工智慧基礎設施。微軟人工智慧負責人穆斯塔法·蘇萊曼 (Mustafa Suleyman) 堅稱,目標是針對最終用戶進行最佳化,並依靠使用訊號(遙測、行為)來提供更實用、更個人化的助理。

  人工智慧在醫療健康領域的應用:實際用途和益處

微軟的願景是「協調 一系列專業模型”涵蓋不同的意圖和場景,為用戶創造“巨大的價值”。該公司將其描述為“通往知識世界的大門”,這一雄心壯志最終轉化為將人工智能融入到定義類別的產品中。

在負責任的設計方面,蘇萊曼也強調了 避免擬人化:為人建構人工智慧,但並非打造為「數位角色」。這對於能夠展現情感的語音模型和助理尤其重要。

對組織和專業機構而言,這波新模式既帶來了機遇,也帶來了責任。短期內,預計會出現以下情況: 自動化的真正好處、摘要、決策支援和口頭內容生成,並調整推理成本。

  • MAI-語音-1 可啟用諮詢助理或語音內容(Podcast、專門解說),效果自然,可立即製作。
  • MAI-1 預覽 為自動回覆、摘要、草稿和文字任務支援打開了大門,這些功能可以逐步整合到 Copilot 中。

挑戰在於確保 隱私、安全和合規 監管。為了避免失誤,最好從有限的試點開始,對提示和輸出進行內部審核,培訓團隊,並監控資料使用情況(包括輸入和遙測),以避免意外。

如果您的操作依賴語音,MAI-Voice-1 的延遲和品質差異非常有吸引力。如果您關注的是文本,MAI-1-preview 會很有吸引力,因為它專注於 按照指示 以及加速模型學習的公共測試框架。

這也有助於明確當前的限制: MAI-Voice-1 專注於英語 MAI-1-preview 仍處於測試階段,部署僅限於特定情況。即便如此,微軟提出的迭代速度很快,也預示著快速的改進。

最後,值得注意的是,微軟表示將繼續整合 它的模型、合作夥伴的模型和開源的模型這種混合方法旨在讓 Copilot 為每個任務選擇最佳引擎,而不限於單一技術,並旨在為最終用戶實現價值最大化。

MAI-Voice-1 和 MAI-1-preview 的發布體現了微軟更自主的策略,專注於速度、效率和實際應用。如果 Copilot 的整合和 LMArena 的評估能夠鞏固微軟的預期,我們將拭​​目以待。 MAI 生態系的兩大關鍵支柱 在消費品和專業產品領域。

GPT-5-0
相關文章:
GPT-5:關於人工智慧的下一個重大革命