■原題:小模型技術是中國企業率先導入裝備中,大模型也不例外
去年,宇視科技發布了行業大模型“梧桐”,推進AIGC對物聯網行業的改變。今年4月16日,又是在烏鎮,宇視總裁張鵬國又帶來了一系列全新觀點,如:“大模型只是技術升級而不是革命”,“裝備大模型化是商業化落地的最佳線路”,“大模型未來最大的挑戰可能是能耗問題”……這些洞見和觀察引人深思。觀察者網請宇視AI首席科學家李聰廷來進一步談談這些問題,將大模型應用落地的最新探索報告給大家。
觀察者網:如何理解大模型只是技術升級而不是革命,現在AI技術的熱度和期待值很高,這么說會不會把技術發展的可能性給限制了?
李聰廷:技術受關注是好事,更多學術或企業從業者投身其中,加速技術進步和落地。理性的看,從深度學習小模型再到今天的大模型,學習效率低即依賴大量算力和標記數據的問題沒有解決,不可避免出現低級錯誤的問題也沒有解決,引用Yann Lecun 的話:“機器學習與人類和動物相比很糟糕”。因此,大模型只是技術升級而不是革命。大模型作為技術升級帶來的紅利,已經給商業化落地帶來很多商機,給不少企業帶來未來的增量或者效率提升。也正因為現在的大模型技術不是最終解,使類似 Yann Lecun 這樣的科學家把精力放到研究面向未來的新的技術路徑,應該說理性看待當下大模型技術,反而加大了找出未來路徑的可能性。
圖靈獎獲得者楊立昆(Yann Lecun)
觀察者網:圖靈獎獲得者楊立昆(Yann Lecun)批評Sora不是世界模型,認為生成式路線注定無法通往AGI,對此你怎么看?
李聰廷:世界模型是對物理定律和環境規則的理解和對齊,Sora 目前的確做不到這一點。現在的 AI 水平距離 AGI 還很遙遠,但已經消耗了巨大的算力和能耗,以 chatGPT 為例,每天需要耗費 50 萬度電,相當于 1.7 萬個美國家庭的耗電量,其學習效率與人腦天壤之別,這不得不引發學者們思考新的出路。
對當前技術路線的未來悲觀,并不代表對過去和當下的否定。Yann Lecun 2022 年的“From Machine Learning to Autonomous Intelligence”講座,開篇提到“AI can do pretty amazing things today”,是對過去和當下的肯定,然后才提出當下技術路線無法通向 AGI。舉個例子,當下輔助駕駛已經在新能源車上普及,提升了駕駛體驗,但 L4級別的自動駕駛落地遙遙無期,不可避免出現未知錯誤的問題難以根本解決。“當下最優解,不是最終解”這句話是對當前大模型技術現狀相對客觀的總結。
觀察者網:在千行百業落地的國產模型,要為解決各種細碎的問題,為細分場景專門優化,那么在同等的任務上,未來表現出的能力,還會與國際上頂尖的通用大模型有差距嗎?有可能展現出大模型公司搞不定的能力嗎?
李聰廷:通用大模型,是基礎設施,有點像 Android 這樣的操作系統,有兩個特點。一是投入大,只有少數巨無霸企業能夠持續投入;二是生態壁壘墻厚,占先機建立廣大用戶基礎后,留給追趕著的機會就不多了。大模型技術是在美國爆發,因此 OpenAI、Google、Meta 等美國企業已占據了先機,中國企業或機構處于追趕狀態,我們不得不面對和正視這個差距。
通用大模型首先在C端獲得了大量用戶,人們可以與它對話、提問、寫作、作畫、作曲等,這種體驗是以前 AI 做不到的,一時間人們誤以為AI已經追上甚至超越人類水平。但在一些細分場景落地過程中,特別B端場景落地過程中,人們很快發現其精度過低、成本過高,無法落地。例如,使用市面上任何一個通用大模型識別迪拜車牌,正確率低于 20%。又比如,宇視作為產品和解決方案輻射全球200多個國家和地區的全球化公司,資料翻譯很消耗人力,但通用大模型會把“槍機”形態的網絡攝像機直譯成“gun camera”,因為它不具備“box camera”這類專業詞匯的知識庫。因此,是細分場景落地催生了行業大模型。
在中國,我們深入去看每一個細分行業,幾乎都能找到一兩家甚至更多具備很強產品研發能力的企業。這類企業在國內市場充分競爭廝殺,國外產品型公司很難與之競爭。這類企業,已經在將自身產品與行業大模型結合,推出更有競爭力的產品。以宇視自身為例,前段時間我們推出了夜鷹系列攝像機,其展現的在 0.001 Lux 下的夜視能力在業內引發熱議,領先海外同行企業兩年。夜鷹的背后是十多年攝像機技術的積累以及梧桐行業大模型的AI-ISP能力結合。總的來說,行業大模型落地產品,我國并不落后。
大模型化的攝像頭提升了夜間觀測的能力,用于觀察和保護猛禽
觀察者網:裝備(工具)的模型化能戰勝模型的裝備(工具)化,或者說,+AI能戰勝AI+,這個判斷有哪些產業發展歷史上的經驗可以佐證?
李聰廷:現在的大模型階段已有不少例子,比如一年前 MidJourney V5 和 Stable Diffusion 這類文生圖大模型出現在公眾眼前的時候,有人驚呼圖片編輯工具市場要顛覆了。但今天看 Adobe Illustrator 、Photoshop 這類工具的用戶并沒有流失,在 Adobe 推出 firefly大模型并集成到自家工具中后,其用戶基礎更穩固了。背后的本質是,大模型技術可以提升工具中部分模塊的效率,還遠遠達不到替代工具本身。而且今天,訓練調優一個自己的行業或垂直大模型門檻并沒有那么高。
回顧上一個階段,即 2014 年深度學習技術在產業界開始爆發到大模型技術應用前,一度很多人也認為 AI新勢力會顛覆傳統應用/工具/裝備的公司。早期,這類公司的算法處于領先,同時在大量資金注入和人才加盟的背景下,很快入場做產品。最后發現產品的技術點非常多,傳統產品公司過去踩過的坑,AI 新勢力不得不重新踩一遍。好不容易過了產品研發關,又遇到了制造瓶頸,制造特點是單個環節看似極其沒有技術含量,但數百萬器件 bom的管理和流水運作,有極高的門檻。制造門檻后面還有渠道門檻,渠道門檻后面還有規模采購成本門檻。最后 AI 新勢力不得不轉向提供算法授權的商業模式,但很快傳統產品公司完成了算法追趕,算法紅利消失后,這種商業模式也折戟了。
上述例子表明,裝備(工具)企業被大模型技術新勢力企業趕超的可行性很小,但那些跟不上大模型技術升級落的裝備(工具)企業有可能被其它裝備(工具)企業淘汰掉。
觀察者網:從裝備大模型化的觀點看,中國應該具有率先將大模型應用落地的諸多優勢,如工程能力的優勢,新能源產業的優勢。從你們在海外市場競爭的經驗看,中國企業是不是走在了前面?
李聰廷:先從裝備的產品力本身看,以AI體鍛屏為例,需要具備成像技術、嵌入式軟件技術、云和APP軟件、硬件技術、顯示技術、交互設計、工程交付技術等諸多要素,當然還有 AI。研發出有競爭力的產品還遠遠不夠,得上量才能覆蓋研發投入并有利潤,這很考驗企業的渠道能力。有渠道帶貨,我們還要能造得出來,這又考驗企業的規模制造能力。產品售價既要有競爭力還要有利潤,這又考驗企業的規模采購議價能力。當然,還有速度要素。因此,比拼的是所有要素的綜合能力。
AI是其中一個要素,從小模型到大模型,技術升級了。這個變量,在裝備企業之間產生足夠的影響,舊的產品會加速迭代,并且還會創造一些新的場景的產品;反之,如果跟不上技術迭代,企業就會掉隊。但對于沒有裝備經驗只有大模型技術的企業,要邁過其它諸多要素的檻,道阻且長。
上一階段的小模型技術,中國企業是率先導入并應用于裝備中的,這次大模型技術也不會例外。
觀察者網:已經有不少批評說中國做大模型的公司太多了,但是中國能做各種設備的公司更多,如果每個有實力的設備公司都想+AI,做自己的行業模型,會不會呈現出非常細碎,沒有統一標準、統一品牌的離散格局?
李聰廷:新技術出現,必然會吸引大量優秀人才和資本入場。這里有定位通用大模型的、有定位行業大模型的、有定位工具鏈的、當然還有定位 APP/工具/裝備的。
通用大模型,最后大概率會集中在頭部少數幾家,贏者通吃,這幾家自身就成為了事實的標準。其它企業會比較艱難甚至出局。
定位行業大模型的企業,有點像小模型時代的算法授權商業模式,它太容易被APP/工具/裝備企業的自研給替代。因此避開與這類產品企業競爭,找到有生存機會的細分場景很重要。最后有可能出現幾個細分場景的小而美的企業,做大的可能性不大。
定位工具鏈的企業,閉源,無法獲得大量開發者用戶,不利于建生態。開源,看不清商業盈利路徑。左右為難的同時,還面臨大廠自研的競爭挑戰。
定位 APP/工具/裝備的企業,行業大模型只是其產品的一個技術要素,用戶側看到的仍是其產品品牌。用戶甚至感受不到行業大模型的存在,但一定能感知到產品的用戶體驗提升了。
觀察者網:月之暗面的楊植麟說,今天的大部分開發工作實際上是做中間層的事情,就是數據。交互和模型可能都是一樣的,但用不同的數據,就會出來不同的產品。定義好了訓練數據和測試數據,大模型產品就定義好了。月之暗面是做云計算,做to C端產品,對于你們做邊緣計算,做to B端產品來說,這個描述也適用嗎?
李聰廷:最近月之暗面及其旗下應用Kimi 熱度很高,用戶體驗做得不錯。我們所在的 AIoT 賽道,和它所在的賽道沒有交集。訓練和測試數據肯定很重要,在我們這個賽道也一樣。但對于定義一個行業大模型而言,我們會更關注其落地的性價比。例如,如果我們用 10B 級別的通用 CV 大模型去做視頻解析的逐幀推理,那需要用到 A800 級的 GPU 設備,單路的實時推理成本需要 1 萬美金左右,而我們的客戶過去只能接受幾百元人民幣每路的成本。因此,我們采用了 5M 的小模型+1B 的梧桐行業大模型結合的方式,并且都是 ViT 網絡結構,這樣我們的單路推理成本可以做到幾百元人民幣水平。
Kimi頁面
觀察者網:當前倡導的“新質生產力”就是要找到更多信息化、智能化的新模式、新場景、新業態。在典型的物聯網場景比如充電樁,還有你們正在探索的文教體等行業,目前找到了哪些好的AI應用場景,已經表現出了能夠商業落地,適合技術迭代的跡象?
李聰廷:確實,技術進步會催生更多的細分行業場景,比如AI文教體、儲能、充電樁等,在宇視2024合作伙伴大會的現場,大家能看到很多的這類產品,我舉四類:
一是AI體育教育:實現體育教具的AI化,其是一個具備逐步迭代與升級的長程賽道,可以圍繞的教學要求、運動種類、鍛煉目標等不斷地提升效率、效果及內容豐富度,一方面是針對不同的運動類目不斷增加算法類別,另一方面又可在單一算法類別上不斷縱深優化效果。
大模型提升了算法精度,推進了體育教具AI化
二是AI體育運動:分享經濟時代,能更全面記錄自己想要記錄的時刻,具備更豐富的可分享素材是通識性需求,只要是運動游玩都有此類訴求,所以在這個領域內寬度(運動類別)無上限,深度(每一個細分領域可提供滿足個人情緒價值的內容)無上限。
在烏鎮現場展示的智能球場解決方案,通過AI捕捉分析,自動生產運動視頻并統計數據
三是文旅領域:基于梧桐大模型演進的算法服務于“旅游”行業,通過攝像機采集AI擇優生成照片與vlog模式可覆蓋景區、游樂場所、博物館等多類場景,更好的與當下分享經濟結合,服務于個體情緒價值的滿足,其具備充分的優化演進空間,比如在算法的優選效果上、視頻的畫面清晰度上、視頻剪輯的創意性以及更多更有趣的表達方式等等。
四是AI寫真:通過AI算法來完成照片的優選與“PS”,可以配合個體快速的完成不同場景生成、不同裝造、不同形象(二次元、商務等)的照片生成,即可幫助找適合自己的造型、也可在過程中帶來娛樂性,同時也可服務于個體某一些場合所需照片的快速獲取訴求。
觀察者網:大模型未來最大的挑戰可能是能耗問題,模型的能力增長與算力增長、能耗增長的關系是怎樣的?為什么分布式能源系統和能算一體化是解題思路?
李聰廷:要把大模型技術和大模型應用分開,還要把大模型應用中的互聯網服務和裝備化產品分開。對于面向C端的大模型互聯網服務來說,比如ChatGPT、Sora來說,算力和能耗問題比較突出,每多服務一個用戶,都需要額外的算力和能耗。但對于使用的大模型技術的裝備來說,算力和能耗是有限的、固定的,并不存在算力和能耗焦慮。
對于算力高度集中的數據中心應用場景,能算一體也許是個發展方向,能源自給自足肯定是有利于降低成本的,但代價是能源供給的穩定性。分布式能源是一種能源結構,涵蓋的面比能算一體更廣泛,解決的不止是數據中心能耗的問題。
[出處] 小模型技術是中國企業率先導入裝備中,大模型也不例外. 科工力量, 2024-04-18