hao86下載站:值得大家信賴(lài)的游戲下載站!

首頁(yè) > 區(qū)塊鏈 > 個(gè)性經(jīng)濟(jì)時(shí)代,MiniMax 語(yǔ)音大模型如何 To C?

個(gè)性經(jīng)濟(jì)時(shí)代,MiniMax 語(yǔ)音大模型如何 To C?

時(shí)間:2024-02-04 13:43:40
來(lái)源:hao86下載
區(qū)塊鏈

【#區(qū)塊鏈# #個(gè)性經(jīng)濟(jì)時(shí)代,MiniMax 語(yǔ)音大模型如何 To C?#】

文章來(lái)源:AI科技評(píng)論

作者:王悅

圖片來(lái)源:由無(wú)界AI生成

大約一個(gè)月前,距離 GPT Store 上線還有兩周,一位名為 Kyle Tryon 的國(guó)外開(kāi)發(fā)者在個(gè)人博客上分享了其基于 ChatGPT Plus 開(kāi)發(fā)的三個(gè) Agent(又稱(chēng)“GPTs”),其中一個(gè) Agent 是關(guān)于美國(guó)費(fèi)城旅游出行的個(gè)人指南“PhillyGPT”,它能訪問(wèn)當(dāng)?shù)?SEPTA 公共交通 API,為個(gè)人提供費(fèi)城當(dāng)?shù)氐膶?shí)時(shí)天氣、旅游資訊、文藝演出活動(dòng)、出行路線、公交車(chē)站與地標(biāo)數(shù)據(jù)、預(yù)計(jì)抵達(dá)時(shí)間等等。

具體可訪問(wèn) PhillyGPT 鏈接:https://chat.openai.com/g/g-GlYMtkbse-phillygpt

費(fèi)城個(gè)人指南的開(kāi)發(fā)背后,實(shí)際是人們對(duì)于 GPT 時(shí)代 C 端個(gè)性消費(fèi)產(chǎn)品的真正想象。無(wú)獨(dú)有偶,1 月 11 日 OpenAI 正式上線 GPT Store 后,公布 300 萬(wàn)個(gè) GPTs 之余,也將與用戶日常消費(fèi)活動(dòng)息息相關(guān)的徒步路線指南“AllTrails”放在推薦榜單上。與國(guó)內(nèi)對(duì)大模型前景頗有微詞的情況不同,海外大量的個(gè)性化應(yīng)用開(kāi)發(fā)正如火如荼。

個(gè)性經(jīng)濟(jì)時(shí)代,國(guó)內(nèi)大模型經(jīng)濟(jì)的發(fā)展,實(shí)則要改變舊的解題思路。

在國(guó)內(nèi)一眾大模型廠商中,MiniMax 就是一家堅(jiān)持產(chǎn)品創(chuàng)新、追求個(gè)性應(yīng)用的“少數(shù)者”。從這一初衷出發(fā),自去年 3 月初亮相起,當(dāng)大多數(shù)團(tuán)隊(duì)還處于語(yǔ)言大模型起步階段時(shí),MiniMax 就以多模態(tài)大模型的定位在擁擠的賽道中出類(lèi)拔萃,估值突飛猛進(jìn),成為國(guó)內(nèi)估值最高的大模型廠商之一。

尤為值得注意的是,MiniMax 也是極少數(shù)下注語(yǔ)音大模型的團(tuán)隊(duì)之一。

區(qū)別于文本、圖像,語(yǔ)音大模型的研發(fā)由于方向小眾,社區(qū)數(shù)據(jù)生態(tài)并不繁榮,難以獲得大量的高質(zhì)量數(shù)據(jù)進(jìn)行模型訓(xùn)練。但在社交、互娛、教育等具有大量個(gè)人用戶的場(chǎng)景中,聲音又往往是許多 To C 與 B2B2C 產(chǎn)品的重要構(gòu)成,是大模型商業(yè)化的兵家必爭(zhēng)之地。

近日,MiniMax 也推出了新一代語(yǔ)音大模型,在多項(xiàng)性能指標(biāo)上超越了傳統(tǒng)的語(yǔ)音技術(shù)。

語(yǔ)音模型的能力在 MiniMax 自家產(chǎn)品星野中有廣泛運(yùn)用。在近期星野 APP 內(nèi)發(fā)起的 AI 挑戰(zhàn)賽中 , MiniMax 語(yǔ)音模型的能力得到充分展示。不僅能語(yǔ)音合成得很自然,還能模擬真人 rap,花樣百出,逼近真人 rapper 水準(zhǔn)。

(有想在星野 AI 戰(zhàn)賽中跟 AI battle rap 的朋友可點(diǎn)擊:https://m.xingyeai.com/share/chat?npc_id=64236&share_user_id=54072629321819 進(jìn)行體驗(yàn)):

據(jù) AI 科技評(píng)論了解,MiniMax 最新語(yǔ)音大模型基于長(zhǎng)達(dá)數(shù)百萬(wàn)小時(shí)的高質(zhì)量音頻數(shù)據(jù)進(jìn)行訓(xùn)練,效果不輸 ElevenLabs 和 OpenAI。

同時(shí),MiniMax 也在積極推進(jìn)語(yǔ)音能力的落地應(yīng)用,在 To B 側(cè)面打造了開(kāi)放平臺(tái),不斷迭代 B 端用戶所需要語(yǔ)音能力,在 To C 側(cè)面上線了 AI 語(yǔ)音對(duì)話產(chǎn)品「海螺問(wèn)問(wèn)」,僅需 6 秒音頻即可進(jìn)行音色復(fù)刻。

GPT 時(shí)代,MiniMax 的大模型經(jīng)濟(jì)打破了單一文本的局限,從“聲”出發(fā),定義了個(gè)性化應(yīng)用的新內(nèi)涵。

1、每個(gè)硅基用戶都能有自己的聲音


AIGC 時(shí)代,語(yǔ)音生成的需求實(shí)際并不亞于文本與圖像。

從 AI 落地的角度來(lái)看,大語(yǔ)言模型能夠預(yù)測(cè)出文字序列,是 AIGC 產(chǎn)品工程化的第一步,但在實(shí)際應(yīng)用中,單一的文字呈現(xiàn)效果往往不佳,聲音的表現(xiàn)力能為文字內(nèi)容的情感色彩、個(gè)性表達(dá)提供有力加持。

以 AI 視頻生成為例。在用 AI 技術(shù)生成短視頻的場(chǎng)景中,“出戲”是用戶體驗(yàn)減分的主要短板,而聲音則往往是用戶出戲的“罪魁禍?zhǔn)住?。?AIGC 產(chǎn)品的應(yīng)用中,人物音色的還原度、語(yǔ)流語(yǔ)調(diào)的流暢度、說(shuō)話停頓的自然度是語(yǔ)音合成技術(shù)的主要挑戰(zhàn),且必須“打包”解決,不能顧此失彼,任一短板都會(huì)降低用戶的產(chǎn)品體驗(yàn)。

不同場(chǎng)景對(duì)語(yǔ)音合成效果的要求也不同。例如,數(shù)字人直播帶貨要求主播與觀眾的語(yǔ)音互動(dòng)時(shí)效性高、延時(shí)性低,復(fù)刻有聲書(shū)需要快速批量生成多角色的音色和語(yǔ)音內(nèi)容,教育教學(xué)場(chǎng)景要求達(dá)到對(duì)一些特殊字詞和生僻字的精準(zhǔn)發(fā)音。

因此,在傳統(tǒng)語(yǔ)音合成技術(shù)的基礎(chǔ)上,面向用戶提供高品質(zhì)、個(gè)性化的語(yǔ)音體驗(yàn)與服務(wù),成為語(yǔ)音生成的下一道難題。

過(guò)去,市面上的語(yǔ)音合成技術(shù)痛點(diǎn)明顯:

  • 機(jī)械感較強(qiáng),原因是犧牲部分人聲的自然度,聲音無(wú)法傳遞出情感;
  • 音色較單一,以至于無(wú)法提供多種音色供用戶選擇,也就不能滿足不同場(chǎng)景的多樣化需求;
  • 成本高且效率低下,需要專(zhuān)業(yè)的設(shè)備且耗時(shí)較長(zhǎng)。

為了解決這一系列痛點(diǎn),國(guó)內(nèi)外不少頭部大廠也進(jìn)行過(guò)相關(guān)探索。

谷歌的多模態(tài)大模型 Gemini 嘗試對(duì)當(dāng)下流行的文本、圖像與語(yǔ)音三種模態(tài)的輸入內(nèi)容進(jìn)行無(wú)縫理解和推理,但在實(shí)際應(yīng)用中,Gemini 的文本、視覺(jué)、音頻被認(rèn)為是一種“僵硬的拼接狀態(tài)”。更多關(guān)于海內(nèi)外大模型廠商的信息歡迎添加作者:s1060788086 來(lái)聊。

初創(chuàng)企業(yè) ElevenLabs 的語(yǔ)音合成效果驚艷,但更適合英文文本,中文語(yǔ)音合成能力稍遜。

還有諸如 Tortoise 和 Bark 的開(kāi)源 TTS 模型也積累了一定量的用戶,但根據(jù)使用反饋,Tortoise 生成速度慢,Bark音質(zhì)參差,目前較難商用。

與同行爭(zhēng)相競(jìng)技,MiniMax 也在不斷迭代其自研的語(yǔ)音大模型,最新語(yǔ)音大模型使 MiniMax 成為國(guó)內(nèi)第一個(gè)開(kāi)放多角色配音商用接口的大模型公司。

依托新一代大模型能力,MiniMax 語(yǔ)音大模型能夠根據(jù)上下文智能預(yù)測(cè)文本的情緒、語(yǔ)調(diào)等信息,并生成超自然、高保真、個(gè)性化的語(yǔ)音,以滿足不同用戶的個(gè)性化需求。

相較于傳統(tǒng)語(yǔ)音合成技術(shù),MiniMax 的語(yǔ)音大模型以更精準(zhǔn)、快速的方式,在音質(zhì)、斷句氣口、韻律節(jié)奏等方面達(dá)到以“AI”亂真的合成新高度。

通過(guò)結(jié)合標(biāo)點(diǎn)符號(hào)以及上下文語(yǔ)境,MiniMax 語(yǔ)音大模型能全方位解讀文字背后隱藏的情感、語(yǔ)氣,甚至是笑聲,都能把握得恰如其分。

在一些特殊語(yǔ)境下,它還能展示出極富戲劇性的聲音張力,比如,當(dāng)說(shuō)話者被朋友的笑話逗得捧腹大笑時(shí),它也能配合上這種夸張的情緒,同時(shí)開(kāi)懷大笑。

除了超自然的 AI 語(yǔ)音生成效果外,MiniMax 語(yǔ)音大模型的另一個(gè)亮點(diǎn)是多樣化、高延展——它能夠精確捕捉到數(shù)千種音色的獨(dú)特特征,并自由組合,輕松創(chuàng)造出無(wú)限的聲音變化、情感和風(fēng)格。這一優(yōu)勢(shì)能夠靈活地滿足社交、播客、有聲書(shū)、新聞資訊、教育、數(shù)字人等多種場(chǎng)景中。

2、長(zhǎng)文本語(yǔ)音生成,API 價(jià)格降一半


2023 年下半年開(kāi)始,大模型行業(yè)出現(xiàn)兩個(gè)短兵相接的戰(zhàn)場(chǎng),一是長(zhǎng)文本,二是商業(yè)化。前者的競(jìng)爭(zhēng)同樣集中在文本領(lǐng)域,從 32k 到 200k 的競(jìng)爭(zhēng)均已白熱化,語(yǔ)音生成則還是一片藍(lán)海;而后者的商業(yè)化則主要體現(xiàn)在價(jià)格上。

一位大模型從業(yè)者告訴 AI 科技評(píng)論,“大模型的技術(shù)壁壘在降低,到最后就是拼誰(shuí)能最先將模型訓(xùn)練與部署的成本降下來(lái)?!笔袌?chǎng)對(duì)大模型的需求,不再是 ChatGPT 剛火時(shí)的二選一,而是既要高性能的模型質(zhì)量、又要有行業(yè)競(jìng)爭(zhēng)力的產(chǎn)品服務(wù)。

在語(yǔ)音生成領(lǐng)域,MiniMax 的文本-語(yǔ)音接口也經(jīng)歷了快速的迭代:

2023 年 9 月 12 日,MiniMax 發(fā)布了長(zhǎng)文本-語(yǔ)音合成接口 T2A pro,單次語(yǔ)音合成最高可輸入 35000 字符,可以調(diào)整語(yǔ)調(diào)、語(yǔ)速、音量、比特率、采樣率等相關(guān)參數(shù),主要適用于長(zhǎng)文本有聲化。

2023 年 11 月 15 日,MiniMax 異步長(zhǎng)文本接口 T2A large 上線,支持用戶每次上傳文本篇幅長(zhǎng)達(dá) 1000 萬(wàn)字符。

2023 年 11 月 17 日,MiniMax 發(fā)布語(yǔ)音大模型 ?abab-speech-01,其韻律節(jié)奏、情感表現(xiàn)、風(fēng)格多樣性、中英混、多語(yǔ)言等能力等整體效果都得到了明顯提升。

模型性能提升的同時(shí),MiniMax 也將 API 的價(jià)格打了下來(lái):據(jù)官方消息,近日 MiniMax 的三個(gè)文本-語(yǔ)音接口 T2A pro、T2A、T2A Stream 的價(jià)格都已下調(diào)為原有價(jià)格的一半,從 10 元/萬(wàn)字符降至 5 元/萬(wàn)字符。

基于其自研多模態(tài)大模型底座,MiniMax 語(yǔ)音大模型在語(yǔ)音助手、資訊播報(bào)、IP 復(fù)刻、CV 配音等領(lǐng)域也做了布局。

MiniMax語(yǔ)音大模型產(chǎn)品架構(gòu)

為了精進(jìn)模型能力以滿足用戶對(duì)語(yǔ)音的高優(yōu)需求,2024 年 1 月, Mini Max 開(kāi)放平臺(tái)在原有接口能力的基礎(chǔ)上新增了以下產(chǎn)品功能:

  • 新增三個(gè) API 接口,分別是多角色音頻生成API、文本角色分類(lèi) API 和快速?gòu)?fù)刻 API,主要適用于自主批量生成、克隆多角色音頻的場(chǎng)景;
  • 增加 T2A Stream (流式語(yǔ)音輸出)能力,減少用戶生成語(yǔ)音的等待時(shí)間,實(shí)現(xiàn)語(yǔ)音生成與輸出同步;
  • 增加多語(yǔ)種能力、字典功能、間隔時(shí)長(zhǎng)控制功能,滿足用戶豐富的定制化需求。

具體來(lái)說(shuō),文本角色分類(lèi) API 可以快速分辨出不同角色對(duì)應(yīng)的不同對(duì)話,角色音頻生成 API 可實(shí)現(xiàn)多角色區(qū)分、多角色播報(bào),快速?gòu)?fù)刻 API 可以讓用戶線上快速完成音色復(fù)刻。三個(gè) API 結(jié)合使用,提供了一整套基于文本的角色聲音生產(chǎn)方案——更高效的角色劃分,多角色的語(yǔ)音生成,全自助的音色復(fù)刻。

MiniMax 告訴 AI 科技評(píng)論,該開(kāi)放平臺(tái)新增的 3 個(gè) API 接口是為了較好應(yīng)對(duì)篇幅較大的文本內(nèi)容。

在長(zhǎng)文本的語(yǔ)音生成上,過(guò)去的一貫做法是用人工標(biāo)注每段對(duì)話的角色歸屬,再由語(yǔ)音模型生成虛擬聲音,缺點(diǎn)是費(fèi)時(shí)費(fèi)力。而 MiniMax 的語(yǔ)音大模型開(kāi)放平臺(tái)使用接口調(diào)用,能夠更高效地幫助用戶生成多角色聲音。

以有聲書(shū)的制作為例。MiniMax 語(yǔ)音開(kāi)放平臺(tái)的三個(gè) API 功能接口結(jié)合,能省略人工劃分文本角色的步驟,自動(dòng)理解文本、劃分角色、為不同角色創(chuàng)造不同聲音。聯(lián)合起點(diǎn)打造有聲讀物的 AI 新音色"說(shuō)書(shū)先生"與"狐貍小姐",即通過(guò)三個(gè)接口在線上自主完成高質(zhì)的聲音復(fù)刻。這樣既能保證人物音色的一致性,又能高效、快捷地對(duì)多角色進(jìn)行配音。

T2A Stream (流式語(yǔ)音輸出)能夠以 500 字符的輸入處理能力迅速響應(yīng)。針對(duì)需要即時(shí)反饋的情景,在互動(dòng)形式的對(duì)話中實(shí)時(shí)生成語(yǔ)音,用戶無(wú)需等待即可獲得語(yǔ)音回復(fù)。

同時(shí),T2A Streaming 有混音功能和字符檢查功能保障輸出內(nèi)容質(zhì)量,并提供語(yǔ)調(diào)、語(yǔ)速、音量等參數(shù)供用戶隨時(shí)調(diào)節(jié)。它還支持多種音頻格式(MP3、 WAV、PCM等)和返回參數(shù)(音頻時(shí)長(zhǎng)、大小等),開(kāi)發(fā)者能夠依據(jù)特定應(yīng)用的需求來(lái)定制化語(yǔ)音服務(wù)。

在滿足用戶定制化需求方面,MiniMax 的語(yǔ)音大模型也升級(jí)了三項(xiàng)新功能:

一是多語(yǔ)種能力,使中英文混合輸出的聲音更自然。

多語(yǔ)種混雜的文本是語(yǔ)音生成的一大難點(diǎn),頻繁的語(yǔ)言切換會(huì)導(dǎo)致發(fā)音不自然。MiniMax 的語(yǔ)音模型提高了多語(yǔ)言處理能力,在外語(yǔ)教學(xué)、口語(yǔ)對(duì)話等場(chǎng)景中能夠?yàn)橛脩籼峁└鎸?shí)的語(yǔ)音體驗(yàn)。

例如,輸入文本:“你可以說(shuō)'In winter, the trees are bare and all the leaveshave fallen off. 這樣形容就很形象地傳達(dá)出那種空空蕩蕩、沒(méi)有葉子的樹(shù)木的冬季景象了。

二是字典功能,允許用戶自定義文本讀音。

語(yǔ)音模型在根據(jù)文本生成聲音時(shí)會(huì)出現(xiàn)發(fā)音不準(zhǔn)確、讀音有偏差的情況,尤其是面對(duì)含多音字、特殊符號(hào)、文字簡(jiǎn)寫(xiě)、用戶自創(chuàng)的文本內(nèi)容。為提高發(fā)音準(zhǔn)確度,MiniMax 語(yǔ)音大模型增加了字典功能,允許用戶自主定義文本的讀音。

例如:"text" (文本) : omg,單田芳的評(píng)書(shū)可真是模仿得惟妙惟肖啊。

"char_ to pitch" (標(biāo)注) : ["單田芳/(shan4)(tian2)(fang1)","omg/oh my god"]

通過(guò)這一字典功能,“ 單田芳”和“omg”等多音字和縮略語(yǔ)能夠在生成的語(yǔ)音中被正確發(fā)音。

三是間隔時(shí)長(zhǎng)控制功能,可以精細(xì)地改善停頓節(jié)奏。

MiniMax 語(yǔ)音大模型增加了間隔時(shí)長(zhǎng)控制功能,讓開(kāi)發(fā)者自由在文本中添加不同長(zhǎng)度的停頓,精細(xì)地調(diào)整語(yǔ)句之間的間隔時(shí)間、改善停頓節(jié)奏,生成語(yǔ)音會(huì)更符合真實(shí)的教學(xué)場(chǎng)景。

這一功能更多被運(yùn)用在教育教學(xué)場(chǎng)景中,其中與高途合作打造的 AI 考研數(shù)字人“文勇老師”可以通過(guò)這一功能更好地進(jìn)行聽(tīng)課、答疑,使學(xué)生獲得更流暢的學(xué)習(xí)體驗(yàn)。

此外,這一間隔時(shí)長(zhǎng)控制功能也同樣讓有聲書(shū)角色或數(shù)字人配音更自然,可以有效扭轉(zhuǎn)傳統(tǒng)生成語(yǔ)音無(wú)停頓的機(jī)械感,增加語(yǔ)音的節(jié)奏,更加貼近真人的表達(dá)習(xí)慣。

教學(xué)場(chǎng)景中經(jīng)常會(huì)遇到這樣的對(duì)話:

老師說(shuō):小朋友們,大家好!我是你們的數(shù)學(xué)老師,我給大家出一個(gè)小小的挑戰(zhàn)。請(qǐng)聽(tīng)題:小明有7個(gè)蘋(píng)果,如果給了小華 3 個(gè)蘋(píng)果,那么小明還剩下多少個(gè)蘋(píng)果呢?給你們 10 秒鐘的時(shí)間思考,去找出答案吧! 時(shí)間到!大家能告訴我答案是什么嗎?對(duì)了,小明還剩下4個(gè)蘋(píng)果,那么恭喜你,答對(duì)了!因?yàn)?7 減去 3 等于 4,所以小明還有 4 個(gè)蘋(píng)果。

在這里,使用控制代碼 (其中 X 是一個(gè)數(shù)字變量, 單位為秒,取值范圍從 0.01 到 99.99 秒)添加間隔標(biāo)識(shí),就可以在文本中加入用戶想要的語(yǔ)音停頓時(shí)長(zhǎng)。


3、海螺問(wèn)問(wèn) To C,語(yǔ)音拉近人與 AI 的距離


自創(chuàng)立以來(lái),MiniMax 就以 To C 產(chǎn)品形態(tài)創(chuàng)新聞名于世。

據(jù) MiniMax 透露,他們?cè)谏虡I(yè)化上用 To B 與 To C 兩條腿同時(shí)走路;而在投資人與市場(chǎng)的眼中,其 C 端產(chǎn)品的創(chuàng)新在國(guó)內(nèi)一眾大模型廠商中一騎絕塵,從 Glow 到星野,MiniMax 的 C 端產(chǎn)品一直為人矚目。

To C 層面,MiniMax 的語(yǔ)音大模型也發(fā)揮了獨(dú)特的優(yōu)勢(shì),這首先體現(xiàn)在其對(duì)話產(chǎn)品海螺問(wèn)問(wèn)上。

在這款以大語(yǔ)言模型技術(shù)為基礎(chǔ)的語(yǔ)音對(duì)話產(chǎn)品中,MiniMax 自研語(yǔ)音大模型的加持讓海螺問(wèn)問(wèn)在同類(lèi)產(chǎn)品中脫穎而出。AI 科技評(píng)論一手評(píng)測(cè)后,最為其超自然、高保真的語(yǔ)音效果所驚訝。單從聽(tīng)感上來(lái)講,海螺問(wèn)問(wèn)輸出的問(wèn)答聲音難以區(qū)分是真人發(fā)聲還是其語(yǔ)音大模型合成。

例如,在被問(wèn)到「周末去哪玩?」時(shí),海螺問(wèn)問(wèn)輸出的語(yǔ)音條就像是一個(gè)朋友的口吻和身份,輕輕松松地與對(duì)方對(duì)話、交流、討論,而不是如傳統(tǒng) AI 合成語(yǔ)音那般機(jī)械地、一字一字蹦出來(lái)生成的內(nèi)容。

聽(tīng)到有趣的問(wèn)題,海螺問(wèn)問(wèn)會(huì)發(fā)笑;遇到不好回答的問(wèn)題時(shí),海螺問(wèn)問(wèn)會(huì)沉吟、會(huì)停頓,仿佛在“思考”。如果不是向 MiniMax 求證其在海螺問(wèn)問(wèn)上接入了語(yǔ)音大模型,用戶大概率會(huì)以為機(jī)器的另一端是真人對(duì)答。

為了達(dá)到實(shí)時(shí)對(duì)話的效果,海螺問(wèn)問(wèn)在低延時(shí)上表現(xiàn)突出,無(wú)需傳統(tǒng)大模型 5 - 10 秒的思考時(shí)間,通過(guò) T2A Stream 能力即時(shí)輸出。除了語(yǔ)音條的交互形式,也可以點(diǎn)擊 UI 界面中右下角的電話小圖標(biāo),開(kāi)啟實(shí)時(shí)語(yǔ)音通話。

在正式通話前,用戶可以自主選擇想要 AI 輸出的音色。其中,既有「模仿熊二」的卡通風(fēng)格,也有「心悅」這般具有親和力的女聲,也有「子軒」低沉有磁性的男聲,更有「胖橘」這種類(lèi)似于古裝影視劇中的皇室代表性音色。

除了系統(tǒng)預(yù)置的幾十種不同風(fēng)格的聲音之外,海螺問(wèn)問(wèn)還可以創(chuàng)建自己的聲音,在較短時(shí)間內(nèi)通過(guò)低樣本迅速進(jìn)行語(yǔ)音復(fù)刻。只需要根據(jù)界面的指令,朗讀一段 40 字左右的給定文本,等待幾秒,即可聽(tīng)到高還原度的自己的聲音。

如此一來(lái),使用海螺問(wèn)問(wèn)的每個(gè)普通用戶都可以輕松實(shí)現(xiàn)無(wú)限復(fù)刻聲音的需求。

但其實(shí),語(yǔ)音復(fù)刻的能力在當(dāng)下的市場(chǎng)中往往是需要付費(fèi)使用的。很多 AIGC 應(yīng)用層的廠商會(huì)將其視作自家兜售的商品之一,使用者需費(fèi)時(shí)費(fèi)力地錄制自己的音頻,再花大幾千甚至是幾萬(wàn)的價(jià)格,為逼真的語(yǔ)音復(fù)刻效果買(mǎi)單。在此基礎(chǔ)上,還需要限制使用的次數(shù)、時(shí)長(zhǎng)、主體,是個(gè)妥妥的賺錢(qián)生意。

而海螺問(wèn)問(wèn)則免費(fèi)對(duì)用戶開(kāi)發(fā)聲音復(fù)刻的功能,不僅不收費(fèi),也不對(duì)使用的時(shí)長(zhǎng)和次數(shù)進(jìn)行限制。同時(shí),操作的流程也很簡(jiǎn)單,只需 6 秒即可獲得克隆音頻,這無(wú)疑降低了人們使用 AI 改變生活、生產(chǎn)的門(mén)檻,在很大程度上方便自己使用。

很多用戶反饋,會(huì)在海螺問(wèn)問(wèn)中錄入媽媽的聲音,這樣在向 APP 咨詢(xún)生活中的問(wèn)題時(shí),就仿佛媽媽在旁邊為自己答疑解惑,在想要搜索菜譜的時(shí)候,就像媽媽在教自己做飯;更有人將失去親人的聲音保留在海螺問(wèn)問(wèn)中,通過(guò)聲音緬懷過(guò)去。

另外,海螺問(wèn)問(wèn)的意義也不止于用戶提問(wèn)、智能體回答,它在更大程度上是一個(gè)能夠隨意交談的聊天軟件。無(wú)需像書(shū)面表達(dá)一樣特別在意語(yǔ)句的準(zhǔn)確性、規(guī)范性等問(wèn)題,想說(shuō)什么即說(shuō)什么,想怎么說(shuō)就怎么說(shuō),海螺問(wèn)問(wèn)都能接招,甚至有時(shí)候還會(huì)引導(dǎo)話題,主動(dòng)發(fā)問(wèn)。

更值得期待的是,這兩天分享聲音的功能將要在海螺問(wèn)問(wèn)上線。AI 科技評(píng)論獨(dú)家獲悉,通過(guò)這一功能,用戶之間便可以通過(guò)類(lèi)似口令紅包的方式,在微信等社交媒體上相互分享自己克隆出來(lái)的聲音,進(jìn)一步實(shí)現(xiàn)「語(yǔ)音社交」。

讓 AI 聲音像人一樣自然好聽(tīng)動(dòng)人,MiniMax 語(yǔ)音大模型在海螺問(wèn)問(wèn)上的技術(shù)突圍和一系列嘗試,是向消除人與人工智能隔閡邁出的一個(gè)大步子。

過(guò)去,人工智能賽道對(duì)于語(yǔ)音的理解,是提高語(yǔ)音輸入、輸出的準(zhǔn)確率。現(xiàn)在, MiniMax 則不忘把一縷目光放在影響用戶體驗(yàn)的語(yǔ)音交互效果上,這反映的是這家“年輕”公司的戰(zhàn)略眼光和執(zhí)行能力。

2024年,MiniMax 打響語(yǔ)音大模型第一槍?zhuān)蛟S值得每一個(gè)同行業(yè)的探索者思考:當(dāng)下的世界究竟要向什么方向迭代技術(shù)?究竟需要怎樣的大模型?究竟要做什么樣的產(chǎn)品?

小編推薦下載

相關(guān)文章

更多>>

資訊排行

同類(lèi)軟件下載