齊魯網·閃電新聞4月1日訊 近日,教育部、國家語委、中央網信辦共同印發了《關于加強數字中文建設 推進語言文字信息化發展的意見》,對加快推進以信息化促進語言文字事業高質量發展,以數字化賦能語言文字更好服務現代化建設等,作出了全面部署。教育部在3月31日舉行的新聞發布會上對文件進行全面解讀,介紹了全面推進語言文字信息化發展有關情況。
教育部語言文字信息管理司司長劉培俊在介紹推進語言文字信息化發展和數字中文建設有關情況時表示,黨的十八大以來,我國語言文字信息化建設持續加強,有力服務科技自立自強。大幅度擴充語言文字信息處理技術標準。會同有關部門推動研制并發布了《信息技術 中文編碼字符集》等國家通用語言文字和民族語言文字信息化規范標準100多項,為自然語言處理技術在人工智能、數字產品和信息產業領域的應用創新奠定規范基礎。
清華大學、北京大學、哈爾濱工業大學等開展了語言文字信息技術的深度研發,促進中文信息互聯互通。其中,北京大學王選計算機研究所建成了中華精品字庫。大規模構建語言資源體系。建成了世界最大規模的語言資源庫和中國語言資源知識圖譜,多模態集成120多種語言和方言資源。大領域布局大語言模型技術應用,聚焦關鍵領域的需求,試點建設了一批自主安全可控的大語言模型。其中,北京師范大學古漢語大語言模型等已上線。
高水平開展普通話水平測試,全面實現從人工到智能的普通話測試方式轉變,制發電子證書9000多萬份。廣東省建成全國首個普通話水平測試智慧考場。高標準建設語言學習資源。開通國家智慧教育平臺語言服務欄目,建成國家通用語言文字學習平臺,匯聚8000多項學習資源,打造中華經典資源庫、中小學語文示范誦讀庫等。高起點規范數字空間語言文字,發布《信息技術產品國家通用語言文字使用管理規定》,規范信息技術產品研發,會同有關部門開展“清朗·規范網絡語言文字使用”專項行動。
多領域推動語言文化資源共建共享。建成國家語委媒體語言語料庫、冬奧會多語言術語庫、公共服務領域譯寫規范術語庫、規范標準課程庫等30多項,多渠道打造示范平臺。上線國家語言資源服務平臺、中國語言文字數字博物館、中國語言資源博物館數字展區等。指導各地各校開展云端學習等課程平臺。多模式推進傳承傳播。數字賦能讓收藏在博物館的文物活起來,支持聯合開展古文字數字化研究,開通甲骨文數據平臺,傳承中華優秀傳統文化根脈。
數字賦能讓書寫在古籍里的文字活起來,建成中華思想文化術語數據庫,面向國際傳播1200多條反映中華民族話語體系中最核心最本質的思想文化術語,并與40多個國家和地區開展多語種數字版權合作。已建成集成化、智能化、國際化的全球中文學習平臺,用戶超1600萬人,覆蓋190多個國家和地區,深度化合作建立聯盟,中文學習聯盟云服務平臺提供3萬門在線課程,與中外1600多家機構合作,推動實現中文人人、時時、處處可學可用、易學易用。
廣角度支持科研攻關。發布漢字簡繁文本智能轉換系統、大語言模型評測技術等百余項科研成果。廣布局設置科研機構。設立中國語言智能研究中心、多語種信息技術研究中心、語言技術與數字經濟研究中心等,形成語言科技研發方陣。廣聯動鼓勵成果轉化。支持有關高校聯合人工智能及信息服務領域頭部企業,研發語言翻譯、智能語音、大語言模型等產品。
劉培俊表示,經過多年努力,語言文字信息化以應用為導向、以服務為主線,形成了多語種資源廣泛開發、多方面技術創新應用、多類型主體共同推進、多維度賦能發揮作用的良好局面,有效服務經濟社會高質量發展。為搶抓大語言模型迭代升級新機遇、助力“人工智能+”新行動、回應經濟社會發展新需求,《關于加強數字中文建設 推進語言文字信息化發展的意見》明確提出,加強數字中文建設的理念、政策、行動和項目,將數字中文建設作為服務數字中國建設的重要任務和全面推進語言文字信息化發展的突出重點,全方位釋放語言文字在經濟社會發展中的數據要素價值,著力推進中文數字化與數據中文化,著力推進創新應用與規范安全,著力推進新型中文服務體系構建與語言文字治理體系完善。
《意見》明確兩個發展階段,有序實現2027和2035年語言文字信息化發展目標。第一步到2027年,是以數字中文建設為重點的強基示范階段,形成語言文字信息化推進機制,推動語言文字信息化規范標準、前沿語言技術、優質語言資源、新型語言服務等基礎支撐能力顯著增強。第二步面向2035年,是全面推進語言文字信息化發展的深化賦能階段,推動承載中華文化的中文在全球數字空間、網絡空間以及生成式人工智能等關鍵場景中的使用占比和價值引領作用顯著提高,實現我國語言文字信息化整體水平位居世界前列。
《意見》部署三項重大任務,統籌推動技術創新、體系保障和關鍵賦能落地見效。創新應用自然語言處理、大語言模型、多模態信息處理、知識圖譜、語料加工等五項前沿技術,重點服務大語言模型等人工智能技術創新應用“制高點”,夯實國家關鍵語料基礎設施“新基建”。系統建設語言文字規范標準、資源服務、人才培養、協同創新和安全治理五大保障體系,重點提升語言文字信息化的基礎能力。統籌實施數字中文服務教育發展、助力科技創新、賦能文化傳承、推動產業升級、促進社會進步等五大賦能行動,重點推進語言技術與關鍵領域需求深度融合應用。