齊魯網?閃電新聞10月12日訊 記者今天了解到,由北京大學和字節(jié)跳動聯合研發(fā)的古籍數字化平臺“識典古籍”測試版正式上線。目前,該平臺涵蓋394部經典古籍,主要來自《四部叢刊》,共計3000多萬字,即日起向公眾免費開放。未來三年,“識典古籍”將陸續(xù)完成一萬種古籍的智能化整理工作,基本覆蓋儒家、道家和佛學的核心典籍目錄,屆時將全部免費開放。
項目負責人唐塏鑫介紹,將人工智能技術應用于古籍資源的智能化整理,“識典古籍”平臺當前主要使用了三種技術,包括文字識別、自動標點和命名實體識別。文字識別技術,是對古籍的影印版文字進行單個切分,再進行文字識別和順序識別。自動標點技術,是通過序列標注的方式對古籍自動進行標點劃分。命名實體識別技術,則是通過序列標注識別文本中的人名、地名、書籍、時間、官職等信息。據悉,目前行業(yè)內OCR識別準確率平均為93%至94%,“識典古籍”的準確率為96%至97%。
“識典古籍”提供影印底本作為參照,還具備主題詞檢索和繁簡體轉換功能,便于專業(yè)研究人員、廣大古籍愛好者使用?!白R典古籍”書目將持續(xù)更新,后續(xù)將上線手機移動版。未來,“識典古籍”將向全社會開放古籍閱讀檢索研究能力,還將實現全自動整理校對,更高效地實現存量古籍全部數字化。同時,也鼓勵擁有文獻的學者自行上傳文獻,用戶甚至可參與再創(chuàng)作和再闡釋,助力古籍文化傳承和研究。
據介紹,當前,中國的古籍數字化還處于初級階段,面臨技術難度高、資金缺口大、人才緊張等難點。相關資料顯示,現存的20多萬種古籍中,只有8萬種完成影像數字化掃描,近4萬種完成文本數字化。據專家統(tǒng)計,從1949年到2019年,國內共修復整理出版古籍近3.8萬種,要將現存古籍全部修復整理出來,可能需要300年時間;若利用人工智能技術輔助修復整理,大概二三十年就能完成。北京大學數字人文研究中心主任王軍認為,“把這些典籍從傳統(tǒng)的紙本遷移到數字環(huán)境下,是我們當代人的歷史責任”,只有把經典的內容跟現代生活相結合,進行新的闡釋,才能更好地運用多種渠道對經典文化做全新的、立體的、多方式的大眾傳播。