首頁(yè) > 區(qū)塊鏈 > 大模型內(nèi)卷升級(jí)，國(guó)產(chǎn)大模型力爭(zhēng)多模態(tài)高地

大模型內(nèi)卷升級(jí)，國(guó)產(chǎn)大模型力爭(zhēng)多模態(tài)高地

時(shí)間：2024-01-26 10:15:42

來(lái)源：hao86下載

區(qū)塊鏈

【#區(qū)塊鏈# #大模型內(nèi)卷升級(jí)，國(guó)產(chǎn)大模型力爭(zhēng)多模態(tài)高地#】

文章來(lái)源：大模型之家

隨著1月23日，多模態(tài)AI概念股午后拉升,昆侖萬(wàn)維漲超10%,三六零、拓爾思、云從科技、湯姆貓等跟漲。到了24日，多模態(tài)AI概念股整體上漲0.81%，主力資金流出7.98億元。

圖源：網(wǎng)絡(luò)

根據(jù)2024年的表現(xiàn)來(lái)看，在多模態(tài)大模型領(lǐng)域，風(fēng)險(xiǎn)遠(yuǎn)高于機(jī)會(huì)。多數(shù)投資者更愿意在股票價(jià)格上漲時(shí)賣(mài)出，以鎖定利潤(rùn)，同時(shí)也有可能會(huì)因擔(dān)憂(yōu)未來(lái)的不確定性而選擇離場(chǎng)。

但嚴(yán)寒注定退去，春天也必然帶來(lái)溫暖和新的開(kāi)始，股價(jià)的浮動(dòng)并不能阻止人工智能技術(shù)高速進(jìn)步的腳步，多模態(tài)大模型的應(yīng)用場(chǎng)景和價(jià)值正在不斷擴(kuò)展和提升。從語(yǔ)音識(shí)別、圖像生成、自然語(yǔ)言理解、視頻分析，到機(jī)器翻譯、知識(shí)圖譜、對(duì)話(huà)系統(tǒng)、內(nèi)容創(chuàng)作，多模態(tài)大模型都能夠提供更豐富、更智能、更人性化的服務(wù)和體驗(yàn)。

大模型之家發(fā)布的《工智能大模型產(chǎn)業(yè)創(chuàng)新價(jià)值研究報(bào)告》曾指出，隨著傳感器技術(shù)的發(fā)展和物聯(lián)網(wǎng)的興起，大量的多模態(tài)數(shù)據(jù)（如圖像、視頻、聲音等）被廣泛采集和應(yīng)用。大模型將引發(fā)人工智能多模態(tài)、多場(chǎng)景的革命。大模型可以利用這些多模態(tài)數(shù)據(jù)進(jìn)行跨模態(tài)學(xué)習(xí)，從而提升其在多個(gè)感知任務(wù)上的性能和表現(xiàn)。通過(guò)充分利用大模型的泛化能力、構(gòu)建多模態(tài)數(shù)據(jù)集、解決融合和對(duì)齊問(wèn)題，以及提供強(qiáng)大的計(jì)算資源支持。

圖源：大模型之家

海外大廠(chǎng)齊發(fā)力，多模態(tài)大模型已成趨勢(shì)

在近期比爾·蓋茨與山姆·奧特曼的對(duì)話(huà)欄目中山姆·奧特曼就曾多次提及多模態(tài)大模型對(duì)于OpenAI的未來(lái)發(fā)展和商業(yè)化進(jìn)場(chǎng)帶來(lái)了很多期待。

圖源：網(wǎng)絡(luò)

當(dāng)二人談到對(duì)于OpenAI來(lái)講下一階段最重要的發(fā)展方向時(shí)，山姆·奧特曼表示語(yǔ)音輸入和輸出、圖像輸出以及最終的視頻輸出將成為公司重點(diǎn)發(fā)力的方向。據(jù)了解，在圖像生成領(lǐng)域OpenAI的DALL-E 3已經(jīng)可以依靠語(yǔ)音形式生成用戶(hù)需求的內(nèi)容，并且DALL-E現(xiàn)在可以控制生成的內(nèi)容滿(mǎn)足正確的價(jià)值觀(guān)念、尊重知識(shí)產(chǎn)權(quán)以及保護(hù)用戶(hù)隱私安全。

除DALL-E以外，OpenAI在針對(duì)GPT plus會(huì)員用戶(hù)提供了眾多基于GPT-4開(kāi)發(fā)的插件產(chǎn)品，依靠ChatGPT得天獨(dú)厚的數(shù)據(jù)優(yōu)勢(shì)，GPT plus會(huì)員可以使用的插件產(chǎn)品多達(dá)上百種，其中針對(duì)視頻、圖像、翻譯等領(lǐng)域的應(yīng)用都獲得使用者廣泛的好評(píng)。

不過(guò)，2024年的人工智能市場(chǎng)格局是否由OpenAI一家獨(dú)大現(xiàn)在仍是未知數(shù)，山姆·奧特曼就曾明確的表示了ChatGPT在推理能力上的不足，并強(qiáng)調(diào)了提升模型可靠性的必要性。

事實(shí)上，山姆·奧特曼的擔(dān)憂(yōu)在23年底就以已現(xiàn)苗頭。2023年年底Google DeepMind推出Gemini大模型，一時(shí)間在人工智能行業(yè)內(nèi)引起了不小的震動(dòng)。

并且，Gemini最出彩的地方則是多模態(tài)領(lǐng)域的表現(xiàn)。在官方介紹視頻中，Gemini能夠分析和理解正在變化的視頻，并生成相應(yīng)的描述。不僅如此，當(dāng)提供文字介紹時(shí)，Gemini還通過(guò)音頻形式對(duì)文字內(nèi)容進(jìn)行生動(dòng)的復(fù)述，其中包含了一些擬人化的語(yǔ)氣、停頓，以及富有趣味性的對(duì)話(huà)。這使得Gemini與用戶(hù)的交流更加自然流暢。

圖源：網(wǎng)絡(luò)

谷歌計(jì)劃將Gemini用于各種應(yīng)用程序，如改進(jìn)網(wǎng)絡(luò)搜索、自然圖像理解、OCR、醫(yī)療和護(hù)理教育、科學(xué)研究等。值得一提的是，在大模型之家體驗(yàn)集成了Gemini Pro的大模型Bard時(shí)也發(fā)現(xiàn)。Bard在圖片處理方面也有著顯著的提升。詳情請(qǐng)參考《谷歌Gemini：挑戰(zhàn)GPT只是序幕，顛覆英偉達(dá)才是最終目標(biāo)》。

在國(guó)外大型科技企業(yè)紛紛加強(qiáng)在多模態(tài)領(lǐng)域布局的風(fēng)頭下，國(guó)內(nèi)的大模型企業(yè)也并沒(méi)有落下這一趨勢(shì)。三六零董事長(zhǎng)周鴻祎在關(guān)于2024大模型發(fā)展的十大趨勢(shì)判斷中明確表示：“多模態(tài)將成為大模型標(biāo)配。以Gemini和GPT-4V版本為代表，多模態(tài)會(huì)成為大模型的標(biāo)配，不僅能聽(tīng)會(huì)說(shuō)，還能看懂圖片和視頻，能識(shí)別更能理解?！?/p>

齊頭并進(jìn)，國(guó)產(chǎn)大模型發(fā)力產(chǎn)業(yè)融合

中國(guó)大模型企業(yè)正在積極響應(yīng)全球多模態(tài)大模型的發(fā)展趨勢(shì)，加強(qiáng)在語(yǔ)音、圖像和視頻處理等方面的技術(shù)布局。這一趨勢(shì)不僅推動(dòng)了企業(yè)在創(chuàng)新領(lǐng)域的競(jìng)爭(zhēng)力，也為用戶(hù)提供了更加豐富和智能化的服務(wù)體驗(yàn)。

圖源：網(wǎng)絡(luò)

開(kāi)年不到一個(gè)月，在智譜AI便技術(shù)開(kāi)放日中發(fā)布了新一代基座大模型GLM-4，其中GLM-4的All Tools能力成為發(fā)布會(huì)上最亮眼的環(huán)節(jié)之一。得益于GLM模型的強(qiáng)大Agent能力，GLM-4具有強(qiáng)大的工具能力，包括代碼執(zhí)行、聯(lián)網(wǎng)瀏覽、畫(huà)圖等。這些工具為用戶(hù)提供了廣泛的應(yīng)用場(chǎng)景，從數(shù)據(jù)分析到自然語(yǔ)言處理，從信息檢索到自動(dòng)文本生成。特別是GLM-4的All Tools能力完全自動(dòng)，而且可以處理各種任務(wù)，比如包括文件處理、數(shù)據(jù)分析、圖表繪制等復(fù)雜任務(wù)，支持處理 Excel、PDF、PPT 等格式的文件。

追溯大模型產(chǎn)業(yè)布局，我國(guó)人工智能企業(yè)在發(fā)布大模型之初便一直在多模態(tài)領(lǐng)域發(fā)力。例如阿里巴巴旗下的通義千問(wèn)在發(fā)布后的幾個(gè)月就將通義全家桶已經(jīng)擴(kuò)展成了包括通義千問(wèn)、通義聽(tīng)悟、通義萬(wàn)相等語(yǔ)言、視覺(jué)、多模態(tài)的AIGC工具。

大模型之家認(rèn)為，在國(guó)內(nèi)，企業(yè)普遍認(rèn)識(shí)到大模型技術(shù)不僅僅是一種技術(shù)手段，更是推動(dòng)業(yè)務(wù)創(chuàng)新和提升競(jìng)爭(zhēng)力的有力工具。國(guó)內(nèi)企業(yè)對(duì)人工智能技術(shù)的應(yīng)用并非僅僅停留在技術(shù)的研發(fā)上，更是將其有機(jī)融入業(yè)務(wù)流程和產(chǎn)品服務(wù)中，以推動(dòng)業(yè)務(wù)的數(shù)字化轉(zhuǎn)型和智能化升級(jí)。

這種注重實(shí)際業(yè)務(wù)應(yīng)用的態(tài)度，使得人工智能不再是一種抽象的概念，而是貼近企業(yè)實(shí)際運(yùn)營(yíng)的核心要素。企業(yè)通過(guò)大模型技術(shù)的引入，不僅提升了業(yè)務(wù)的效率和準(zhǔn)確性，還為客戶(hù)提供了更為個(gè)性化、智能化的產(chǎn)品和服務(wù)體驗(yàn)。

圖源：網(wǎng)絡(luò)

例如23年末，利亞德·虛擬動(dòng)點(diǎn)發(fā)布的“LYDIA”動(dòng)作大模型，在全球范圍的空間計(jì)算、動(dòng)作生成領(lǐng)域探索AIGC的新模式。聚焦于解決對(duì)于動(dòng)作數(shù)據(jù)獲取效率更為看重的行業(yè)場(chǎng)景，在影視、電商、動(dòng)畫(huà)制作、游戲等行業(yè)中，憑借其AIGC生成能力大幅提升行業(yè)生產(chǎn)效率，為行業(yè)創(chuàng)造更大價(jià)值。

這種通過(guò)強(qiáng)調(diào)技術(shù)與業(yè)務(wù)的融合，使得國(guó)內(nèi)企業(yè)在大模型技術(shù)的應(yīng)用上展現(xiàn)出了獨(dú)特的創(chuàng)新思維。通過(guò)深度整合人工智能技術(shù)，企業(yè)能夠更好地理解和滿(mǎn)足市場(chǎng)需求，創(chuàng)造出更具競(jìng)爭(zhēng)力的產(chǎn)品和解決方案。將大模型技術(shù)真正轉(zhuǎn)化為創(chuàng)新能力，助推本土企業(yè)在全球科技競(jìng)爭(zhēng)中的獨(dú)特優(yōu)勢(shì)。

小編推薦下載