來源:齊魯壹點客戶端
2025-01-16 14:40:01
原標題:大模型時代急需“燃料庫”,章丘海陽利津這些山東區縣亮了
來源:桔子財經
原標題:大模型時代急需“燃料庫”,章丘海陽利津這些山東區縣亮了
來源:桔子財經
齊魯晚報·齊魯壹點記者 蔡宇丹
大模型時代的“智能新基建”開始了!哪些城市有機會?
1月13日,隨著國家發改委、國家數據局等四部門聯合發布《關于促進數據標注產業高質量發展的實施意見》,從國家層面首次對數據標注進行系統謀劃,這個曾經的勞動密集型產業終于支楞起來。
在山東,隨著百度、浪潮等頭部企業建立數據標注基地,濟南、利津、煙臺等地的數據標注產業走出了不同的路子,章丘有了“百度在全國最大專業高精地圖數據標注基地”這個新標簽,海陽20億建起“衛星數據工廠”,利津這樣的縣域城市也切入數字經濟新賽道。
齊魯人才網數據顯示,山東16市對數據標注員均有需求,在這個驅動AI發展的“燃料廠”上班,薪資最高直逼萬元。
1.國家吹哨,大模型時代“智能新基建”開始
1月13日,國家發改委、國家數據局等四部門聯合發布《關于促進數據標注產業高質量發展的實施意見》,這是國家層面首次對數據標注這一新興產業進行系統謀劃。
所謂數據標注,就是給文本、語音、圖片、視頻等等各種各樣的數據“打標簽”。自動駕駛、低空經濟、智能制造、智慧醫療等領域,都離不開數據標注。
這個驅動AI發展的“燃料工廠”,發展之初曾帶著“扶貧助殘”的印記。
2014年,貴州率先在全國發展大數據產業,2017年貴陽大數據產業及其關聯產業規模總量超過1500億元,當時的典型樣本貴州百鳥河數字小鎮就是通過發展“互聯網+大數據應用”,助力脫貧攻堅的。
位于貴州黔南布依族苗族自治州的百鳥河鎮與BAT、360等進行合作,百度在百鳥河建立大數據基地,以大數據清洗、加工、標注為主業,這個“數據工廠”直接帶動1000人以上就業。臺灣HTC董事長王雪紅在這里也辦了一家“數據工廠”,帶動千余人就業。在這個“數據工廠”打工的,有職高學生、聾啞人、新生代農民工,其中近一半是附近職業學院的學生,經過幾天培訓就能上手。
2018年1月,京東金融發布國內首個聚焦人工智能領域的數據眾包平臺京東眾智。這個智能數據采集標注處理平臺對外宣傳一大亮點就是“助殘”。京東金融的科技助殘就業基地同期落戶山東淄博,經過一個月培訓,殘疾人士就能學會用模板做數據標注,一些專職的殘疾人士平均月收入達到3800元至4500元。高峰期在這個平臺從事數據標注工作的人有30000人。
這個時期,數據標注比較簡單,比如普通圖像的拉框、聲音轉錄、文本簡單標注等。數據標注員一張圖接一張圖地手動標記,對電腦接觸較少的人經過幾天培訓后就能快速上手,許多數據標注公司聚集在三四線城市以降低人力成本。
2022年,“人工智能訓練師”(AI訓練師)被人社部認定為新職業。
根據此次四部委發布的《意見》,“到2027年,數據標注產業專業化、智能化及科技創新能力水平顯著提升,產業規模大幅躍升,年均復合增長率超過20%”。這也意味著在專業化、智能化、科創能力加持下,數據標注這個行業在人工智能時代有了全新迭代。
2.齊魯人才網:青島濟南濟寧三市需求占到全省1/3
齊魯人才網數據顯示,近4年來,山東就業市場上數據標注崗位需求增幅2022年達到頂峰,為75.22%,2023年有所回落,2024年需求量增幅又沖高至66%。
這條曲線與大模型技術爆發的時間點相吻合,這意味著人工智能技術變革的浪潮正快速反映對提供人工智能發展“燃料”的數據標注員的大量需求上。
齊魯人才網2024年招聘數據顯示,山東16市對數據標注員均有需求,從全省看,青島、濟南、濟寧需求量排前三,三市需求量分別占到全省12%、9.4%、8.9%,三市需求量總計占全省的1/3;在薪資水平上,3000元-5000元區間占比達到55%;學歷以專科為主流。
2024 年,隨著大模型不斷擴大應用,各個行業都在AI+,出現了更多新的標注需求,從自動駕駛到文本大模型再到視頻標注領域,各種新業務不斷涌現。這也反映在下面這張熱力圖上。
2024年山東就業市場數據標注崗位需求熱力圖(數據來源:齊魯人才網)
齊魯人才網市場總監李召華告訴記者,從崗位需求看,近幾年,山東就業市場上數據標注員崗位越來越細分,對專業要求越來越高。大模型數據涉及的知識面很廣,評判標準復雜,非常考驗標注師的語言理解能力和邏輯推理能力,相比傳統數據標注員在人力結構上進行了升級。根據齊魯人才網的招聘數據,2024年,山東就業市場上數據標注員的崗位薪資最高已到9000元,這對于計算機專業畢業生而言相當于中等薪資水平。
AI會“一本正經地胡說八道”,如今已成為大模型的一個痛點。要突破AI幻覺,離不開數據質量提升,而訓練模型的語料一定程度上會影響 AIGC 應用、微調后模型等內容生成的合規、以及價值觀。對于文心一言等生成式 AI,海量的數據訓練、人工標注、指令微調,可以讓大模型與人類價值觀、思維方式不斷對齊,對標注質量提出更高要求;與此同時,專業性較強的傳統細分行業都在“AI+”,像圖像的醫療影像識別及文本專業語句標注等就需要具備專業知識;同時,傳統人工標注逐漸被自動化、智能化工具所取代,這都要求數據標注這個行業告別之前的野蠻生長。
一個標志性變化是,2023年8月,百度智能云在海口建立國內首個大模型數據標注基地,這個基地的標注師均為100%本科學歷。
3.章丘戴上新標簽
數據顯示,11年來百度在自動駕駛和人工智能上的研發投入超過 1700 億元,這1700億不光燒在GPU上,也燒在數據標注這個“基石”上。
自動駕駛研發需要大量數據采集、標注、分析需求。百度Apollo自動駕駛系統需要依靠高精地圖提供的精確道路信息、障礙物位置、交通信號等數據,提高車機對周圍環境的感知和理解能力。
作為數據標注的需求大戶,海口基地成立時,百度智能云已在全國與各地政府共建了十多個數據標注基地,累計為當地提供超過 1.1 萬個就業崗位,間接帶動 5 萬人就業。
2018年,百度在山西太原建立在國內的第一家數據標注基地,截至2023年9月,百度山西基地已擁有5000余名數據標注師,吸引和培育數據標注企業超50家,累計產值超6億元,這個基地具備無人駕駛、語音識別、圖像識別、內容審核等場景的標注能力。
2021年6月,百度山東數據標注基地落地濟南明水經濟技術開發區。這是百度智能云在山東布局的首家數據標注基地,主要從事百度地圖的地理標記。
公開報道顯示,2022年4月,這個基地累計產值超過3700萬元。
3年后過,百度山東數據標注基地已成為百度在全國最大的專業高精地圖數據標注基地,是百度地圖重要“數據庫”供應地。高峰期,這個基地數據標注師曾達到1500余人。目前,這個基地已吸引和培育孵化數據標注企業22家,帶動靈波微步、昆侖度智能科技等周邊超30家相關標注企業集聚。
百度把山東數據標注基地放在章丘,章丘作為高職院校重要集聚區,為數據標注產業提供了大量人力資源。公開報道顯示,這個基地培訓的“AI訓練師”90%以上為大專以上學歷,80%以上為章丘本地人員,50%以上為章丘高校畢業生,部分人員工資月收入可達萬元以上。
4.海陽20億建“衛星數據工廠”
2024年10月,山東發文加快推進數據要素市場化配置改革,培育壯大數據清洗、標注等數據產業集群,2027年數據產業年均增速超過20%。
推動數據產業集群發展的核心動力來自于產業剛需。隨著中國“星鏈”排隊發射,組網衛星數量越來越多,產生的數據量越來越大,這也讓煙臺海陽在發展衛星發射產業時,不光要建設“火箭工廠”、“衛星工廠”,還要建“衛星數據工廠”,將產業鏈延伸至空天信息服務產業。
在山東海陽東方航天港衛星數據產業園,衛星數據智算中心目前已與百度智能云達成衛星數據運營合作。2023年,百度3.1億元中標東方航天港數據智算中心項目,為當地航天產業提供120P算力支持,用于配套院士大模型訓練,系統開發以及落地企業的火箭和衛星模型軌道計算和衛星數據存儲需求。
作為煙臺新質生產力的典型代表,東方航天港衛星數據產業園總投資20億元,主要建設衛星數據智算中心、數據標注中心、數據安全災備中心、數據交易和科技成果交易中心、企業科研中心、智能衛星工廠,打造集衛星總裝、載荷實驗、衛星數據接收、存儲、超算、應用、交易、災備于一體的衛星全產業鏈垂直產業生態,目前已有5個院士團隊領銜重點項目和10家企業入駐。
2024年8月27日,在山東省政府新聞辦舉行的新聞發布會上,煙臺市大數據局透露,數據標注產業園2023年實現產值2.5億元。這個數字意味著煙臺打出了一張富有產業特色的數字經濟新名片。
5.利津發展數字經濟的切口
在這波大模型時代的“智能新基建”浪潮中,縣域城市有沒有機會?
2024年10月22日,浪潮(東營)AI 數據標注基地在利津數據(內容)產業園揭牌,這是浪潮卓數在全國布局的的首個數據標注基地落地。
記者注意到,這個數據標注基地一項重要內容就是大學生實訓。浪潮卓數依托在數據采集、數據標注、數據交易、數據服務等領域的技術積累,將其轉化為產教融合產品,聯合東營職業學院等當地職業院校建立標注實訓中心,解決職校學生學業與就業銜接問題,也為基地發展提供人才保障。
作為山東大數據產業龍頭企業,1998年,浪潮集團創建了浪潮數字服務這一產業板塊。2022年5月,浪潮子公司中網盾數字服務入駐青島數字貿易港,打造數據標注產業基地。公開報道顯示,2023年9月,這個數據標注基地經過一年發展已擁有1000名數據標注師,基地累計產值超1億元。
作為縣域發展數字經濟的抓手,公開報道顯示,利津數據(內容)產業園從2022年6月投入運營到2024年10月浪潮入駐,年產值已突破10億元,園區目前已吸引了浪潮卓數、韓國集美、三象互動、萬誠數據等數據企業入駐。根據利津最 新招商信息顯示,這個園區年營收將穩定在40億元左右,園區為當地帶來稅收預計可達 3500 萬元。
對于三四線以及縣域城市來說,從數據標注等數據外包服務切入大數據產業賽道,不失為一個實操性選擇。
日照東港區目前已建成日照數字服務外包基地(大學城分園)、金杉大廈、浪潮(日照)數字服務外包基地等6個數字服務外包園區,20多家數字服務外包企業落戶東港區,帶動就業10000余人,為京東、阿里巴巴、順豐、百度等企業提供服務外包,初步形成以客服呼叫、數據標注為主要業態的產業集群。
在數據標注這個細分賽道上,2013年,日照通過招商引資將北京電商聯盟網絡科技有限公司招引來日照,北京電商聯盟網絡科技有限公司是百度、京東、淘寶、抖音等互聯網公司的供應商,落地日照后不僅孵化了日照首個電子商務產業園,還聯手國企打造了日照人工智能數據服務基地和日照數字服務外包基地大學城分園。
據悉,日照數字服務外包基地大學城分園自2023年9月開園以來,業務規模迅速擴大,從單純圖文數據標注向人工智能、網絡平臺、影視動畫等行業領域擴展,先后招引青島海爾、北京愷望數據等數十家企業或項目入駐。
國家超算濟南中心位于齊魯科創大走廊核心地帶,圍繞這個重量級算力資源,濟南布局了濟南智能傳感器產業園、濟南生物醫藥港兩大園區,目前這個創新圈已初步形成功率半導體(智能傳感器)、信創網安、人工智能、生物制藥、醫療器械、基因檢測、醫美抗衰七大產業鏈條,吸引了一大批大數據應用服務企業在周邊聚集。
2024年11月,中達安子公司山東中達安智算數據科技有限公司在國家超算濟南中心園區(山東超算科技園)設立數據標注基地。從產業端來看,數據標注是發展數據要素產業的關鍵,而下游AI和上游的算力會因為這一產業發展而得到帶動。
想爆料?請登錄《陽光連線》( https://minsheng.iqilu.com/)、撥打新聞熱線0531-66661234或96678,或登錄齊魯網官方微博(@齊魯網)提供新聞線索。齊魯網廣告熱線0531-81695052,誠邀合作伙伴。