首頁(yè) > 區(qū)塊鏈 > 個(gè)性經(jīng)濟(jì)時(shí)代，MiniMax 語(yǔ)音大模型如何 To C？

個(gè)性經(jīng)濟(jì)時(shí)代，MiniMax 語(yǔ)音大模型如何 To C？

時(shí)間：2024-02-04 13:43:40

來(lái)源：hao86下載

區(qū)塊鏈

【#區(qū)塊鏈# #個(gè)性經(jīng)濟(jì)時(shí)代，MiniMax 語(yǔ)音大模型如何 To C？#】

文章來(lái)源：AI科技評(píng)論

作者：王悅

圖片來(lái)源：由無(wú)界AI生成

大約一個(gè)月前，距離 GPT Store 上線還有兩周，一位名為 Kyle Tryon 的國(guó)外開(kāi)發(fā)者在個(gè)人博客上分享了其基于 ChatGPT Plus 開(kāi)發(fā)的三個(gè) Agent（又稱(chēng)“GPTs”），其中一個(gè) Agent 是關(guān)于美國(guó)費(fèi)城旅游出行的個(gè)人指南“PhillyGPT”，它能訪問(wèn)當(dāng)?shù)?SEPTA 公共交通 API，為個(gè)人提供費(fèi)城當(dāng)?shù)氐膶?shí)時(shí)天氣、旅游資訊、文藝演出活動(dòng)、出行路線、公交車(chē)站與地標(biāo)數(shù)據(jù)、預(yù)計(jì)抵達(dá)時(shí)間等等。

具體可訪問(wèn) PhillyGPT 鏈接：https://chat.openai.com/g/g-GlYMtkbse-phillygpt

費(fèi)城個(gè)人指南的開(kāi)發(fā)背后，實(shí)際是人們對(duì)于 GPT 時(shí)代 C 端個(gè)性消費(fèi)產(chǎn)品的真正想象。無(wú)獨(dú)有偶，1 月 11 日 OpenAI 正式上線 GPT Store 后，公布 300 萬(wàn)個(gè) GPTs 之余，也將與用戶日常消費(fèi)活動(dòng)息息相關(guān)的徒步路線指南“AllTrails”放在推薦榜單上。與國(guó)內(nèi)對(duì)大模型前景頗有微詞的情況不同，海外大量的個(gè)性化應(yīng)用開(kāi)發(fā)正如火如荼。

個(gè)性經(jīng)濟(jì)時(shí)代，國(guó)內(nèi)大模型經(jīng)濟(jì)的發(fā)展，實(shí)則要改變舊的解題思路。

在國(guó)內(nèi)一眾大模型廠商中，MiniMax 就是一家堅(jiān)持產(chǎn)品創(chuàng)新、追求個(gè)性應(yīng)用的“少數(shù)者”。從這一初衷出發(fā)，自去年 3 月初亮相起，當(dāng)大多數(shù)團(tuán)隊(duì)還處于語(yǔ)言大模型起步階段時(shí)，MiniMax 就以多模態(tài)大模型的定位在擁擠的賽道中出類(lèi)拔萃，估值突飛猛進(jìn)，成為國(guó)內(nèi)估值最高的大模型廠商之一。

尤為值得注意的是，MiniMax 也是極少數(shù)下注語(yǔ)音大模型的團(tuán)隊(duì)之一。

區(qū)別于文本、圖像，語(yǔ)音大模型的研發(fā)由于方向小眾，社區(qū)數(shù)據(jù)生態(tài)并不繁榮，難以獲得大量的高質(zhì)量數(shù)據(jù)進(jìn)行模型訓(xùn)練。但在社交、互娛、教育等具有大量個(gè)人用戶的場(chǎng)景中，聲音又往往是許多 To C 與 B2B2C 產(chǎn)品的重要構(gòu)成，是大模型商業(yè)化的兵家必爭(zhēng)之地。

近日，MiniMax 也推出了新一代語(yǔ)音大模型，在多項(xiàng)性能指標(biāo)上超越了傳統(tǒng)的語(yǔ)音技術(shù)。

語(yǔ)音模型的能力在 MiniMax 自家產(chǎn)品星野中有廣泛運(yùn)用。在近期星野 APP 內(nèi)發(fā)起的 AI 挑戰(zhàn)賽中， MiniMax 語(yǔ)音模型的能力得到充分展示。不僅能語(yǔ)音合成得很自然，還能模擬真人 rap，花樣百出，逼近真人 rapper 水準(zhǔn)。

（有想在星野 AI 戰(zhàn)賽中跟 AI battle rap 的朋友可點(diǎn)擊：https://m.xingyeai.com/share/chat?npc_id=64236&share_user_id=54072629321819 進(jìn)行體驗(yàn)）：

據(jù) AI 科技評(píng)論了解，MiniMax 最新語(yǔ)音大模型基于長(zhǎng)達(dá)數(shù)百萬(wàn)小時(shí)的高質(zhì)量音頻數(shù)據(jù)進(jìn)行訓(xùn)練，效果不輸 ElevenLabs 和 OpenAI。

同時(shí)，MiniMax 也在積極推進(jìn)語(yǔ)音能力的落地應(yīng)用，在 To B 側(cè)面打造了開(kāi)放平臺(tái)，不斷迭代 B 端用戶所需要語(yǔ)音能力，在 To C 側(cè)面上線了 AI 語(yǔ)音對(duì)話產(chǎn)品「海螺問(wèn)問(wèn)」，僅需 6 秒音頻即可進(jìn)行音色復(fù)刻。

GPT 時(shí)代，MiniMax 的大模型經(jīng)濟(jì)打破了單一文本的局限，從“聲”出發(fā)，定義了個(gè)性化應(yīng)用的新內(nèi)涵。

1、每個(gè)硅基用戶都能有自己的聲音

AIGC 時(shí)代，語(yǔ)音生成的需求實(shí)際并不亞于文本與圖像。

從 AI 落地的角度來(lái)看，大語(yǔ)言模型能夠預(yù)測(cè)出文字序列，是 AIGC 產(chǎn)品工程化的第一步，但在實(shí)際應(yīng)用中，單一的文字呈現(xiàn)效果往往不佳，聲音的表現(xiàn)力能為文字內(nèi)容的情感色彩、個(gè)性表達(dá)提供有力加持。

以 AI 視頻生成為例。在用 AI 技術(shù)生成短視頻的場(chǎng)景中，“出戲”是用戶體驗(yàn)減分的主要短板，而聲音則往往是用戶出戲的“罪魁禍?zhǔn)住?。?AIGC 產(chǎn)品的應(yīng)用中，人物音色的還原度、語(yǔ)流語(yǔ)調(diào)的流暢度、說(shuō)話停頓的自然度是語(yǔ)音合成技術(shù)的主要挑戰(zhàn)，且必須“打包”解決，不能顧此失彼，任一短板都會(huì)降低用戶的產(chǎn)品體驗(yàn)。

不同場(chǎng)景對(duì)語(yǔ)音合成效果的要求也不同。例如，數(shù)字人直播帶貨要求主播與觀眾的語(yǔ)音互動(dòng)時(shí)效性高、延時(shí)性低，復(fù)刻有聲書(shū)需要快速批量生成多角色的音色和語(yǔ)音內(nèi)容，教育教學(xué)場(chǎng)景要求達(dá)到對(duì)一些特殊字詞和生僻字的精準(zhǔn)發(fā)音。

因此，在傳統(tǒng)語(yǔ)音合成技術(shù)的基礎(chǔ)上，面向用戶提供高品質(zhì)、個(gè)性化的語(yǔ)音體驗(yàn)與服務(wù)，成為語(yǔ)音生成的下一道難題。

過(guò)去，市面上的語(yǔ)音合成技術(shù)痛點(diǎn)明顯：

機(jī)械感較強(qiáng)，原因是犧牲部分人聲的自然度，聲音無(wú)法傳遞出情感；
音色較單一，以至于無(wú)法提供多種音色供用戶選擇，也就不能滿足不同場(chǎng)景的多樣化需求；
成本高且效率低下，需要專(zhuān)業(yè)的設(shè)備且耗時(shí)較長(zhǎng)。

為了解決這一系列痛點(diǎn)，國(guó)內(nèi)外不少頭部大廠也進(jìn)行過(guò)相關(guān)探索。

谷歌的多模態(tài)大模型 Gemini 嘗試對(duì)當(dāng)下流行的文本、圖像與語(yǔ)音三種模態(tài)的輸入內(nèi)容進(jìn)行無(wú)縫理解和推理，但在實(shí)際應(yīng)用中，Gemini 的文本、視覺(jué)、音頻被認(rèn)為是一種“僵硬的拼接狀態(tài)”。更多關(guān)于海內(nèi)外大模型廠商的信息歡迎添加作者：s1060788086 來(lái)聊。

初創(chuàng)企業(yè) ElevenLabs 的語(yǔ)音合成效果驚艷，但更適合英文文本，中文語(yǔ)音合成能力稍遜。

還有諸如 Tortoise 和 Bark 的開(kāi)源 TTS 模型也積累了一定量的用戶，但根據(jù)使用反饋，Tortoise 生成速度慢，Bark音質(zhì)參差，目前較難商用。

與同行爭(zhēng)相競(jìng)技，MiniMax 也在不斷迭代其自研的語(yǔ)音大模型，最新語(yǔ)音大模型使 MiniMax 成為國(guó)內(nèi)第一個(gè)開(kāi)放多角色配音商用接口的大模型公司。

依托新一代大模型能力，MiniMax 語(yǔ)音大模型能夠根據(jù)上下文智能預(yù)測(cè)文本的情緒、語(yǔ)調(diào)等信息，并生成超自然、高保真、個(gè)性化的語(yǔ)音，以滿足不同用戶的個(gè)性化需求。

相較于傳統(tǒng)語(yǔ)音合成技術(shù)，MiniMax 的語(yǔ)音大模型以更精準(zhǔn)、快速的方式，在音質(zhì)、斷句氣口、韻律節(jié)奏等方面達(dá)到以“AI”亂真的合成新高度。

通過(guò)結(jié)合標(biāo)點(diǎn)符號(hào)以及上下文語(yǔ)境，MiniMax 語(yǔ)音大模型能全方位解讀文字背后隱藏的情感、語(yǔ)氣，甚至是笑聲，都能把握得恰如其分。

在一些特殊語(yǔ)境下，它還能展示出極富戲劇性的聲音張力，比如，當(dāng)說(shuō)話者被朋友的笑話逗得捧腹大笑時(shí)，它也能配合上這種夸張的情緒，同時(shí)開(kāi)懷大笑。

除了超自然的 AI 語(yǔ)音生成效果外，MiniMax 語(yǔ)音大模型的另一個(gè)亮點(diǎn)是多樣化、高延展——它能夠精確捕捉到數(shù)千種音色的獨(dú)特特征，并自由組合，輕松創(chuàng)造出無(wú)限的聲音變化、情感和風(fēng)格。這一優(yōu)勢(shì)能夠靈活地滿足社交、播客、有聲書(shū)、新聞資訊、教育、數(shù)字人等多種場(chǎng)景中。

2、長(zhǎng)文本語(yǔ)音生成，API 價(jià)格降一半

2023 年下半年開(kāi)始，大模型行業(yè)出現(xiàn)兩個(gè)短兵相接的戰(zhàn)場(chǎng)，一是長(zhǎng)文本，二是商業(yè)化。前者的競(jìng)爭(zhēng)同樣集中在文本領(lǐng)域，從 32k 到 200k 的競(jìng)爭(zhēng)均已白熱化，語(yǔ)音生成則還是一片藍(lán)海；而后者的商業(yè)化則主要體現(xiàn)在價(jià)格上。

一位大模型從業(yè)者告訴 AI 科技評(píng)論，“大模型的技術(shù)壁壘在降低，到最后就是拼誰(shuí)能最先將模型訓(xùn)練與部署的成本降下來(lái)?！笔袌?chǎng)對(duì)大模型的需求，不再是 ChatGPT 剛火時(shí)的二選一，而是既要高性能的模型質(zhì)量、又要有行業(yè)競(jìng)爭(zhēng)力的產(chǎn)品服務(wù)。

在語(yǔ)音生成領(lǐng)域，MiniMax 的文本-語(yǔ)音接口也經(jīng)歷了快速的迭代：

2023 年 9 月 12 日，MiniMax 發(fā)布了長(zhǎng)文本-語(yǔ)音合成接口 T2A pro，單次語(yǔ)音合成最高可輸入 35000 字符，可以調(diào)整語(yǔ)調(diào)、語(yǔ)速、音量、比特率、采樣率等相關(guān)參數(shù)，主要適用于長(zhǎng)文本有聲化。

2023 年 11 月 15 日，MiniMax 異步長(zhǎng)文本接口 T2A large 上線，支持用戶每次上傳文本篇幅長(zhǎng)達(dá) 1000 萬(wàn)字符。

2023 年 11 月 17 日，MiniMax 發(fā)布語(yǔ)音大模型 ?abab-speech-01，其韻律節(jié)奏、情感表現(xiàn)、風(fēng)格多樣性、中英混、多語(yǔ)言等能力等整體效果都得到了明顯提升。

模型性能提升的同時(shí)，MiniMax 也將 API 的價(jià)格打了下來(lái)：據(jù)官方消息，近日 MiniMax 的三個(gè)文本-語(yǔ)音接口 T2A pro、T2A、T2A Stream 的價(jià)格都已下調(diào)為原有價(jià)格的一半，從 10 元/萬(wàn)字符降至 5 元/萬(wàn)字符。

基于其自研多模態(tài)大模型底座，MiniMax 語(yǔ)音大模型在語(yǔ)音助手、資訊播報(bào)、IP 復(fù)刻、CV 配音等領(lǐng)域也做了布局。

MiniMax語(yǔ)音大模型產(chǎn)品架構(gòu)

為了精進(jìn)模型能力以滿足用戶對(duì)語(yǔ)音的高優(yōu)需求，2024 年 1 月， Mini Max 開(kāi)放平臺(tái)在原有接口能力的基礎(chǔ)上新增了以下產(chǎn)品功能：

新增三個(gè) API 接口，分別是多角色音頻生成API、文本角色分類(lèi) API 和快速?gòu)?fù)刻 API，主要適用于自主批量生成、克隆多角色音頻的場(chǎng)景；
增加 T2A Stream （流式語(yǔ)音輸出）能力，減少用戶生成語(yǔ)音的等待時(shí)間，實(shí)現(xiàn)語(yǔ)音生成與輸出同步；
增加多語(yǔ)種能力、字典功能、間隔時(shí)長(zhǎng)控制功能，滿足用戶豐富的定制化需求。

具體來(lái)說(shuō)，文本角色分類(lèi) API 可以快速分辨出不同角色對(duì)應(yīng)的不同對(duì)話，角色音頻生成 API 可實(shí)現(xiàn)多角色區(qū)分、多角色播報(bào)，快速?gòu)?fù)刻 API 可以讓用戶線上快速完成音色復(fù)刻。三個(gè) API 結(jié)合使用，提供了一整套基于文本的角色聲音生產(chǎn)方案——更高效的角色劃分，多角色的語(yǔ)音生成，全自助的音色復(fù)刻。

MiniMax 告訴 AI 科技評(píng)論，該開(kāi)放平臺(tái)新增的 3 個(gè) API 接口是為了較好應(yīng)對(duì)篇幅較大的文本內(nèi)容。

在長(zhǎng)文本的語(yǔ)音生成上，過(guò)去的一貫做法是用人工標(biāo)注每段對(duì)話的角色歸屬，再由語(yǔ)音模型生成虛擬聲音，缺點(diǎn)是費(fèi)時(shí)費(fèi)力。而 MiniMax 的語(yǔ)音大模型開(kāi)放平臺(tái)使用接口調(diào)用，能夠更高效地幫助用戶生成多角色聲音。

以有聲書(shū)的制作為例。MiniMax 語(yǔ)音開(kāi)放平臺(tái)的三個(gè) API 功能接口結(jié)合，能省略人工劃分文本角色的步驟，自動(dòng)理解文本、劃分角色、為不同角色創(chuàng)造不同聲音。聯(lián)合起點(diǎn)打造有聲讀物的 AI 新音色"說(shuō)書(shū)先生"與"狐貍小姐"，即通過(guò)三個(gè)接口在線上自主完成高質(zhì)的聲音復(fù)刻。這樣既能保證人物音色的一致性，又能高效、快捷地對(duì)多角色進(jìn)行配音。

T2A Stream （流式語(yǔ)音輸出）能夠以 500 字符的輸入處理能力迅速響應(yīng)。針對(duì)需要即時(shí)反饋的情景，在互動(dòng)形式的對(duì)話中實(shí)時(shí)生成語(yǔ)音，用戶無(wú)需等待即可獲得語(yǔ)音回復(fù)。

同時(shí)，T2A Streaming 有混音功能和字符檢查功能保障輸出內(nèi)容質(zhì)量，并提供語(yǔ)調(diào)、語(yǔ)速、音量等參數(shù)供用戶隨時(shí)調(diào)節(jié)。它還支持多種音頻格式（MP3、 WAV、PCM等）和返回參數(shù)（音頻時(shí)長(zhǎng)、大小等），開(kāi)發(fā)者能夠依據(jù)特定應(yīng)用的需求來(lái)定制化語(yǔ)音服務(wù)。

在滿足用戶定制化需求方面，MiniMax 的語(yǔ)音大模型也升級(jí)了三項(xiàng)新功能：

一是多語(yǔ)種能力，使中英文混合輸出的聲音更自然。

多語(yǔ)種混雜的文本是語(yǔ)音生成的一大難點(diǎn)，頻繁的語(yǔ)言切換會(huì)導(dǎo)致發(fā)音不自然。MiniMax 的語(yǔ)音模型提高了多語(yǔ)言處理能力，在外語(yǔ)教學(xué)、口語(yǔ)對(duì)話等場(chǎng)景中能夠?yàn)橛脩籼峁└鎸?shí)的語(yǔ)音體驗(yàn)。

例如，輸入文本:“你可以說(shuō)'In winter, the trees are bare and all the leaveshave fallen off. 這樣形容就很形象地傳達(dá)出那種空空蕩蕩、沒(méi)有葉子的樹(shù)木的冬季景象了。

二是字典功能，允許用戶自定義文本讀音。

語(yǔ)音模型在根據(jù)文本生成聲音時(shí)會(huì)出現(xiàn)發(fā)音不準(zhǔn)確、讀音有偏差的情況，尤其是面對(duì)含多音字、特殊符號(hào)、文字簡(jiǎn)寫(xiě)、用戶自創(chuàng)的文本內(nèi)容。為提高發(fā)音準(zhǔn)確度，MiniMax 語(yǔ)音大模型增加了字典功能，允許用戶自主定義文本的讀音。

例如："text" (文本) : omg，單田芳的評(píng)書(shū)可真是模仿得惟妙惟肖啊。

"char_ to pitch" (標(biāo)注) : ["單田芳/(shan4)(tian2)(fang1)","omg/oh my god"]

通過(guò)這一字典功能，“ 單田芳”和“omg”等多音字和縮略語(yǔ)能夠在生成的語(yǔ)音中被正確發(fā)音。

三是間隔時(shí)長(zhǎng)控制功能，可以精細(xì)地改善停頓節(jié)奏。

MiniMax 語(yǔ)音大模型增加了間隔時(shí)長(zhǎng)控制功能，讓開(kāi)發(fā)者自由在文本中添加不同長(zhǎng)度的停頓，精細(xì)地調(diào)整語(yǔ)句之間的間隔時(shí)間、改善停頓節(jié)奏，生成語(yǔ)音會(huì)更符合真實(shí)的教學(xué)場(chǎng)景。

這一功能更多被運(yùn)用在教育教學(xué)場(chǎng)景中，其中與高途合作打造的 AI 考研數(shù)字人“文勇老師”可以通過(guò)這一功能更好地進(jìn)行聽(tīng)課、答疑，使學(xué)生獲得更流暢的學(xué)習(xí)體驗(yàn)。

此外，這一間隔時(shí)長(zhǎng)控制功能也同樣讓有聲書(shū)角色或數(shù)字人配音更自然，可以有效扭轉(zhuǎn)傳統(tǒng)生成語(yǔ)音無(wú)停頓的機(jī)械感，增加語(yǔ)音的節(jié)奏，更加貼近真人的表達(dá)習(xí)慣。

教學(xué)場(chǎng)景中經(jīng)常會(huì)遇到這樣的對(duì)話：

老師說(shuō)：小朋友們，大家好！我是你們的數(shù)學(xué)老師，我給大家出一個(gè)小小的挑戰(zhàn)。請(qǐng)聽(tīng)題：小明有7個(gè)蘋(píng)果，如果給了小華 3 個(gè)蘋(píng)果，那么小明還剩下多少個(gè)蘋(píng)果呢？給你們 10 秒鐘的時(shí)間思考，去找出答案吧！時(shí)間到！大家能告訴我答案是什么嗎？對(duì)了，小明還剩下4個(gè)蘋(píng)果，那么恭喜你，答對(duì)了！因?yàn)?7 減去 3 等于 4，所以小明還有 4 個(gè)蘋(píng)果。

在這里，使用控制代碼 (其中 X 是一個(gè)數(shù)字變量，單位為秒，取值范圍從 0.01 到 99.99 秒）添加間隔標(biāo)識(shí)，就可以在文本中加入用戶想要的語(yǔ)音停頓時(shí)長(zhǎng)。

3、海螺問(wèn)問(wèn) To C，語(yǔ)音拉近人與 AI 的距離

自創(chuàng)立以來(lái)，MiniMax 就以 To C 產(chǎn)品形態(tài)創(chuàng)新聞名于世。

據(jù) MiniMax 透露，他們?cè)谏虡I(yè)化上用 To B 與 To C 兩條腿同時(shí)走路；而在投資人與市場(chǎng)的眼中，其 C 端產(chǎn)品的創(chuàng)新在國(guó)內(nèi)一眾大模型廠商中一騎絕塵，從 Glow 到星野，MiniMax 的 C 端產(chǎn)品一直為人矚目。

To C 層面，MiniMax 的語(yǔ)音大模型也發(fā)揮了獨(dú)特的優(yōu)勢(shì)，這首先體現(xiàn)在其對(duì)話產(chǎn)品海螺問(wèn)問(wèn)上。

在這款以大語(yǔ)言模型技術(shù)為基礎(chǔ)的語(yǔ)音對(duì)話產(chǎn)品中，MiniMax 自研語(yǔ)音大模型的加持讓海螺問(wèn)問(wèn)在同類(lèi)產(chǎn)品中脫穎而出。AI 科技評(píng)論一手評(píng)測(cè)后，最為其超自然、高保真的語(yǔ)音效果所驚訝。單從聽(tīng)感上來(lái)講，海螺問(wèn)問(wèn)輸出的問(wèn)答聲音難以區(qū)分是真人發(fā)聲還是其語(yǔ)音大模型合成。

例如，在被問(wèn)到「周末去哪玩？」時(shí)，海螺問(wèn)問(wèn)輸出的語(yǔ)音條就像是一個(gè)朋友的口吻和身份，輕輕松松地與對(duì)方對(duì)話、交流、討論，而不是如傳統(tǒng) AI 合成語(yǔ)音那般機(jī)械地、一字一字蹦出來(lái)生成的內(nèi)容。

聽(tīng)到有趣的問(wèn)題，海螺問(wèn)問(wèn)會(huì)發(fā)笑；遇到不好回答的問(wèn)題時(shí)，海螺問(wèn)問(wèn)會(huì)沉吟、會(huì)停頓，仿佛在“思考”。如果不是向 MiniMax 求證其在海螺問(wèn)問(wèn)上接入了語(yǔ)音大模型，用戶大概率會(huì)以為機(jī)器的另一端是真人對(duì)答。

為了達(dá)到實(shí)時(shí)對(duì)話的效果，海螺問(wèn)問(wèn)在低延時(shí)上表現(xiàn)突出，無(wú)需傳統(tǒng)大模型 5 - 10 秒的思考時(shí)間，通過(guò) T2A Stream 能力即時(shí)輸出。除了語(yǔ)音條的交互形式，也可以點(diǎn)擊 UI 界面中右下角的電話小圖標(biāo)，開(kāi)啟實(shí)時(shí)語(yǔ)音通話。

在正式通話前，用戶可以自主選擇想要 AI 輸出的音色。其中，既有「模仿熊二」的卡通風(fēng)格，也有「心悅」這般具有親和力的女聲，也有「子軒」低沉有磁性的男聲，更有「胖橘」這種類(lèi)似于古裝影視劇中的皇室代表性音色。

除了系統(tǒng)預(yù)置的幾十種不同風(fēng)格的聲音之外，海螺問(wèn)問(wèn)還可以創(chuàng)建自己的聲音，在較短時(shí)間內(nèi)通過(guò)低樣本迅速進(jìn)行語(yǔ)音復(fù)刻。只需要根據(jù)界面的指令，朗讀一段 40 字左右的給定文本，等待幾秒，即可聽(tīng)到高還原度的自己的聲音。

如此一來(lái)，使用海螺問(wèn)問(wèn)的每個(gè)普通用戶都可以輕松實(shí)現(xiàn)無(wú)限復(fù)刻聲音的需求。

但其實(shí)，語(yǔ)音復(fù)刻的能力在當(dāng)下的市場(chǎng)中往往是需要付費(fèi)使用的。很多 AIGC 應(yīng)用層的廠商會(huì)將其視作自家兜售的商品之一，使用者需費(fèi)時(shí)費(fèi)力地錄制自己的音頻，再花大幾千甚至是幾萬(wàn)的價(jià)格，為逼真的語(yǔ)音復(fù)刻效果買(mǎi)單。在此基礎(chǔ)上，還需要限制使用的次數(shù)、時(shí)長(zhǎng)、主體，是個(gè)妥妥的賺錢(qián)生意。

而海螺問(wèn)問(wèn)則免費(fèi)對(duì)用戶開(kāi)發(fā)聲音復(fù)刻的功能，不僅不收費(fèi)，也不對(duì)使用的時(shí)長(zhǎng)和次數(shù)進(jìn)行限制。同時(shí)，操作的流程也很簡(jiǎn)單，只需 6 秒即可獲得克隆音頻，這無(wú)疑降低了人們使用 AI 改變生活、生產(chǎn)的門(mén)檻，在很大程度上方便自己使用。

很多用戶反饋，會(huì)在海螺問(wèn)問(wèn)中錄入媽媽的聲音，這樣在向 APP 咨詢(xún)生活中的問(wèn)題時(shí)，就仿佛媽媽在旁邊為自己答疑解惑，在想要搜索菜譜的時(shí)候，就像媽媽在教自己做飯；更有人將失去親人的聲音保留在海螺問(wèn)問(wèn)中，通過(guò)聲音緬懷過(guò)去。

另外，海螺問(wèn)問(wèn)的意義也不止于用戶提問(wèn)、智能體回答，它在更大程度上是一個(gè)能夠隨意交談的聊天軟件。無(wú)需像書(shū)面表達(dá)一樣特別在意語(yǔ)句的準(zhǔn)確性、規(guī)范性等問(wèn)題，想說(shuō)什么即說(shuō)什么，想怎么說(shuō)就怎么說(shuō)，海螺問(wèn)問(wèn)都能接招，甚至有時(shí)候還會(huì)引導(dǎo)話題，主動(dòng)發(fā)問(wèn)。

更值得期待的是，這兩天分享聲音的功能將要在海螺問(wèn)問(wèn)上線。AI 科技評(píng)論獨(dú)家獲悉，通過(guò)這一功能，用戶之間便可以通過(guò)類(lèi)似口令紅包的方式，在微信等社交媒體上相互分享自己克隆出來(lái)的聲音，進(jìn)一步實(shí)現(xiàn)「語(yǔ)音社交」。

讓 AI 聲音像人一樣自然好聽(tīng)動(dòng)人，MiniMax 語(yǔ)音大模型在海螺問(wèn)問(wèn)上的技術(shù)突圍和一系列嘗試，是向消除人與人工智能隔閡邁出的一個(gè)大步子。

過(guò)去，人工智能賽道對(duì)于語(yǔ)音的理解，是提高語(yǔ)音輸入、輸出的準(zhǔn)確率。現(xiàn)在， MiniMax 則不忘把一縷目光放在影響用戶體驗(yàn)的語(yǔ)音交互效果上，這反映的是這家“年輕”公司的戰(zhàn)略眼光和執(zhí)行能力。

2024年，MiniMax 打響語(yǔ)音大模型第一槍?zhuān)蛟S值得每一個(gè)同行業(yè)的探索者思考：當(dāng)下的世界究竟要向什么方向迭代技術(shù)？究竟需要怎樣的大模型？究竟要做什么樣的產(chǎn)品？

小編推薦下載