国产成人精品综合在线观看,欧美成a人片在线观看久,亚洲αv在线精品糸列,国产美女露脸口爆吞精

全部

企業加快智能化轉型 大模型“畫龍”小數據“點睛”

來源:科技日報

作者:

2022-03-01 03:07:03

原標題:企業加快智能化轉型 大模型“畫龍”小數據“點睛”

來源:科技日報

大模型“畫龍”,小數據“點睛”

企業加快智能化轉型

◎本報記者 翟冬冬

小數據、優質數據應用有其前提,即需要在大的基礎模型(預訓練模型)之上,通過小數據進行模型的微調,使模型更加精準地服務具體應用場景。從這個角度來講,小數據將在未來基礎模型完成下游任務時,起到關鍵的作用。

王金橋

中國科學院自動化研究所研究員

如今大數據已經成為人工智能的“標配”。在訓練人工智能模型的過程中,如果想讓其變得更加聰明,大量的、多樣性的數據必不可少。但近日,著名人工智能學者吳恩達在展望人工智能下一個10年的發展方向時,表達了不同的觀點。他認為,小數據、優質數據的應用或是未來趨勢。

中國科學院自動化研究所研究員王金橋表示,小數據、優質數據應用有其前提,即需要在大的基礎模型(預訓練模型)之上,通過小數據進行模型的微調,使模型更加精準地服務具體應用場景。從這個角度來講,小數據將在未來基礎模型完成下游任務時,起到關鍵的作用。

多數應用場景難以獲取高質量大數據

算法(模型)、算力和數據可以說已經成為推動人工智能發展的三大要素,其中數據尤為重要。在眾多互聯消費場景中,我們常常被精準的人工智能推送“擊中”。通過對消費者消費習慣、購物偏好的分析,平臺系統可以對消費者的潛在需求作出判斷并加以引導,而這一切的基礎,是基于大量的、豐富的數據樣本。利用大數據,平臺構建出了適用于該領域的專用模型,實現精準推送。

這些體驗或許是普通消費者對于大數據和人工智能最直接的印象之一。吳恩達在采訪中也表示,在過去10年里,面向消費者的企業由于擁有大量用戶群(有時甚至高達數十億),因此獲得了非常大的數據集使得人工智能可以開展深度學習,并給企業帶來了不少經濟效益。但他同時強調,這種法則并不適用于其他行業。其原因在于,并不是所有場景都能產生豐富的大數據樣本。

實際上,“在生活中,百分之八九十場景的問題都屬于小樣本問題?!蓖踅饦虮硎荆芏鄳脠鼍爸校捎谟柧殬颖倦y以獲取,因此只有極少量數據,缺陷檢測就是其中的典型案例。缺陷檢測,即采用機器視覺技術等,對某種特定缺陷進行檢測和識別。這種檢測在航天航空、鐵路交通、智能汽車等眾多領域都有應用。由于在實際的生產生活中,存在瑕疵的產品總是少數,所以缺陷檢測的訓練樣本數量很少。

而即使對于樣本豐富的場景,也存在訓練數據標注愈發困難的問題。王金橋介紹,目前人工智能所使用的訓練數據,還是以人工標注為主,而在海量數據面前,人工標注往往需要行業經驗,一般人難以對標注區域進行識別。此外,針對每個應用需求都需要人工智能專家設計算法模型,模型越多,開發成本也會持續增加。

吳恩達也表示,在消費互聯網行業中,我們只需訓練少數機器學習模型就能服務10億用戶。然而在制造業中,有1萬家制造商就要搭建1萬個定制模型。而且要做到這點往往需要大量的人工智能專家。

從目前的行業發展趨勢來看,基礎模型或許是解決上述問題的一個方向。

以基礎模型為“基座”用小數據微調

“近些年,行業開始重視研發基礎模型或者說是通用型模型來解決上述問題。”王金橋說,先用大量數據預訓練一個模型。這些模型在預訓練中,見多識廣是首要任務。訓練中,模型會見識到該領域各式各樣的數據,增長見識,以應對今后出現的各種情況。之后再在下游任務中利用具體的場景數據進行微調。

如自然語言處理(NLP)領域的大模型,如果要利用它完成如對話、問答等下游任務,只需要使用這個下游任務中數量很小的數據,在這個大模型之上進行微調,就能達到不錯的效果。一些研究成果也表明,只需要原來建立專屬模型5%—10%的數據樣本用于大模型的數據微調,就能得到和專屬模型一樣的精度。

“從大模型轉向小模型,實現一個模型做多個任務,可以說是目前行業發展中的一個轉變?!蓖踅饦蛘f,這樣不僅降低了開發難度,還大大減少了開發成本。以前,每個算法都需要一個深度學習專家去設計和訓練,現在只需要在大模型之下進行微調,模型的設計和架構也變得相對簡單。中小型企業只需要在大模型上,自己上傳數據就可以完成。

此外,利用這種方法,模型的誤報率也會減少。基礎模型見過豐富多彩的數據和場景,在處理具體任務的時候就具備了海量知識儲備,有更充足的準備去應對具體的小場景應用。

不過吳恩達在訪談中也表示,預訓練只是要解決難題的一小部分,更大的難題是提供一個工具讓使用者能夠選擇正確的數據用于微調,并用一致的方式對數據進行標記。面對大數據集的應用時,開發者的通常反應都是如果數據有噪音也沒關系,所有數據照單全收,算法會對其進行平均。但是,如果研究人員能夠開發出用來標記出數據不一致地方的工具,為使用者提供一種非常有針對性的方法來提高數據質量,那這將是獲得高性能系統的更有效的方法。

多模態或是大模型未來發展方向

基礎模型作為生產眾多小模型的“基座”,性能尤為重要。其認知能力越接近人類,在此之上產生的小模型性能也將越優異。

在探索外部環境的時候,人類具備視覺、聽覺、觸覺等多種認知手段,并通過語言對話等形式實現互動交流。其中視覺得到的信息約占70%,聽覺、觸覺等獲得的信息約占30%。“同樣,要使得大模型的性能更加優秀,更趨近人類的認知能力,就涉及到訓練中的數據融合問題?!蓖踅饦蛑赋?,我們熟知的語言生成模型GPT-3,能夠生成流暢自然的文本,并完成問答、翻譯、創作小說等一系列NLP任務,甚至可以進行簡單的算術運算。但其和外界交互的主要方式還是進行文本交流,缺乏圖像、視頻等多模態融合。

每一種信息的來源或者形式,都可以稱為一種模態。如人有觸覺、聽覺、視覺、嗅覺;信息的媒介有語音、視頻、文字等。人的認知模型可以說是一個多模態的集合。

要讓基礎模型的預訓練更接近人類的認知模型,也需要進行多模態融合。即讓模型通過機器學習的方法實現處理和理解多源模態信息的能力,如圖像、視頻、音頻、語義之間的多模態學習。多模態預訓練模型被廣泛認為是從限定領域的弱人工智能邁向通用人工智能路徑的探索。

“這一兩年,大模型的數量呈現爆發式增長,且有從單一模態模型轉向多模態模型的趨勢?!蓖踅饦蛘f,具備了多模態能力的基礎模型,在具體應用場景中健壯性更好,在異常和危險情況下系統的生存能力更強,今后多模態基礎模型或將成為未來基礎模型發展的一個重要方向。

[責任編輯:楊凡、崔中連]

想爆料?請登錄《陽光連線》( https://minsheng.iqilu.com/)、撥打新聞熱線0531-66661234或96678,或登錄齊魯網官方微博(@齊魯網)提供新聞線索。齊魯網廣告熱線0531-81695052,誠邀合作伙伴。

中國代表呼吁為烏克蘭問題當事方直接談判創造有利條件

中新社聯合國2月28日電聯合國大會28日就烏克蘭問題舉行緊急特別會議。中方歡迎俄羅斯同烏克蘭已經開始直接對話談判。張軍強調,聯合國和國...[詳細]
中國新聞網 2022-03-01

中國科學家破譯控制水稻種子活力的“遺傳密碼”

我國科學家破譯控制水稻種子活力的“遺傳密碼”。通過對不同活力的、經人工老化處理的水稻種子進行轉錄組和廣泛靶向代謝譜的比較分析,中科...[詳細]
科技日報 2022-03-01

秦剛會見NBA副主席譚惠民 洛杉磯湖人隊贈秦剛43號球衣

中新社洛杉磯2月28日電當地時間2月27日晚,中國駐美國大使秦剛在洛杉磯會見美國職業籃球聯盟(NBA)副主席譚惠民、洛杉磯湖人隊總裁巴斯和傳...[詳細]
中國新聞網 2022-03-01

北京冬殘奧會火種在曼德維爾采集

北京2022年冬殘奧會的一路火種當地時間2月28日在英國曼德維爾采集。這一來自殘奧運動發源地的火種隨后將和來自北京、延慶、張家口三個賽區...[詳細]
新華社 2022-03-01

新國奧隊渴望參加聯賽 “U21取代U23”現實嗎?

新國奧隊渴望參加聯賽“U21取代U23”現實嗎。2月27日,正在上海備戰的2001年齡段U21國青隊,也就是新一屆國奧男足先后與中超上海海港預備隊...[詳細]
北京青年報 2022-03-01

對新職業“發證”放到位也要管到位

對新職業“發證”放到位也要管到位。由于新職業缺乏統一的職業技能標準和評價機制,一些培訓機構利用勞動者希望“一證傍身”的心理“乘虛而...[詳細]
北京青年報 2022-03-01

新業有新規 劇本殺要“按規矩來”

《上海市密室劇本殺內容管理暫行規定》今起實施。近幾年沉浸式娛樂行業在機構數量、從業人員數量、經營效果各方面具備了一定規模,但作為新...[詳細]
北京青年報 2022-03-01

范爭一:成不了孔令輝 就成為丁俊暉

斯諾克歐洲大師賽落幕中國00后球手擊敗奧沙利文奪冠。范爭一 成不了孔令輝就成為丁俊暉。世界排名僅第80位的中國00后球手范爭一,在決賽中...[詳細]
北京青年報 2022-03-01

香港電影“一代宗師”楚原:管他天下千萬事 閑來輕笑兩三聲

香港電影一代宗師病逝享年87歲楚原管他天下千萬事閑來輕笑兩三聲2月21日,香港電影“一代宗師”楚原去世,享年87歲。至此,塑造了香港邵氏...[詳細]
北京青年報 2022-03-01

我國電視劇產量連續三年下降

本報訊2月28日,據國家統計局官方網站消息,《中華人民共和國2021年國民經濟和社會發展統計公報》發布,2021年全年我國生產電視劇194部6736...[詳細]
北京青年報 2022-03-01

“第六次生物大滅絕”不能只當作老調重彈

“第六次生物大滅絕”不能只當作老調重彈。據報道,一些科學家認為,人類活動導致地球正在進入“第六次生物大滅絕”。例如,停車等人的時候...[詳細]
北京青年報 2022-03-01

中國開始從烏克蘭撤出首批公民

新華社快訊 中國駐烏克蘭大使館28日證實,當天中國開始從烏克蘭撤出首批公民[詳細]
新華社 2022-03-01

2021年度個稅匯算今起開始 你是退稅還是補稅?

中新財經3月1日電3月1日起,2021年度個稅匯算正式開始。為提升大家的辦稅效率和申報體驗,防止匯算初期扎堆辦理造成不便,稅務部門推出預約...[詳細]
中國新聞網 2022-03-01
版權所有: 齊魯網 All Rights Reserved
魯ICP備09062847號-1 網上傳播視聽節目許可證1503009 互聯網新聞信息服務許可證37120170002
通訊地址:山東省濟南市經十路18567號  郵編:250062
技術支持:山東廣電信通網絡運營有限公司

  • 
    
    <object id="arwpy"><dfn id="arwpy"><ul id="arwpy"></ul></dfn></object>