漢語智能寫作獲重大突破 自動生成有感情的文稿
輸入“時間”“學校”“參加人員”和“領(lǐng)導”等大學生運動會關(guān)鍵詞,機器就迅速生成一篇1000多字的開幕式致辭,其中有致謝、天氣情況、運動會人數(shù)及項目等。更難能可貴的是,致辭還富有情感色彩——這是日前在“2016中國漢語智能寫作成果發(fā)布會”上的一幕。
5月下旬,北京語言智能協(xié)同研究院發(fā)布漢語智能寫作重大突破——體育賽事新聞、大學生運動會開幕式致辭和高校學術(shù)活動總結(jié)稿件可以由智能寫作平臺自動完成寫作。該成果是首都師范大學副校長周建設(shè)教授擔任領(lǐng)銜專家的研究團隊經(jīng)過多年探索,在語言智能研究領(lǐng)域取得的一項重大理論和技術(shù)突破。
如何看待能夠自動寫作的機器
智能寫作平臺準確、快捷地生成應(yīng)用稿件,具有開創(chuàng)性意義。北京大學計算語言學研究所所長王厚峰教授說,“演示令我很驚訝”。
據(jù)周建設(shè)介紹,智能寫作是利用計算機完全自動地對收集的文檔進行整理、提取、過濾、篩選、組裝、寫作,自動地生成相關(guān)文章。
北京語言智能協(xié)同研究院特聘教授呂學強說,研究團隊通過對受限語體海量篇章文本數(shù)據(jù)的挖掘,提出了一種大數(shù)據(jù)的漢語表達智能模型并研發(fā)了漢語受限語體智能寫作系統(tǒng),構(gòu)建了相關(guān)知識庫體系。目前,智能寫作平臺能夠完成受限語體的文稿,受限語體是有特定使用場合,結(jié)構(gòu)、格式比較固定的語體。
這項漢語智能寫作重大突破,是國家社科基金重大招標項目子項目——“自然語言信息處理的邏輯語義學研究·言語生成系統(tǒng)”“語言、思維、文化層次的高階認知研究·語圖生成系統(tǒng)”的階段性成果;也是國家自然科學基金項目——“語義web中不確定知識的本體表示和融合的理論方法研究”“無監(jiān)督分詞及詞性歸納聯(lián)合方法研究”“e—earning中基于學業(yè)表情的情緒認知分析研究”的階段性成果。
據(jù)介紹,漢語智能寫作平臺包含32項關(guān)鍵技術(shù),其所寫文稿內(nèi)容流暢性、語義準確性與人工寫作的差別在縮小。
智能寫作平臺的理論技術(shù)創(chuàng)新
想要機器像人一樣自如寫作,就要構(gòu)建“人一樣”的漢語表達智能模型。在語言生成的過程中,漢語智能寫作平臺對所要表達的信息進行語義和語法方面的聚合,其中,內(nèi)容規(guī)劃即內(nèi)容確定+結(jié)構(gòu)構(gòu)造,句子規(guī)劃包括選詞、優(yōu)化聚合、指代表達式生成等,句子實現(xiàn)就是將經(jīng)句子規(guī)劃后的文本描述映射至由文字、標點符號和結(jié)構(gòu)注解信息組成的表層文本。
首都師范大學文學院教授史金生說,漢語智能寫作平臺構(gòu)建了基于漢語智能表達的知識庫,其一是語言模板庫——單詞、短語、句子語料庫;其二是語義類型庫——給漢語智能表達提供話語論域,以便將話題限定在特定語義領(lǐng)域內(nèi)布局謀篇、組織語句。有兩個子系統(tǒng)支持漢語表達智能模型,即“詞項—語句”語義網(wǎng)絡(luò),實現(xiàn)從詞到句子的自動生成;“語句—語篇”語義網(wǎng)絡(luò),實現(xiàn)自然語言語篇的自動生成。
漢語智能寫作平臺的理論突破主要是多源成像基礎(chǔ)理論體系,即面向復雜教育知識體系,構(gòu)建音頻、視頻、文字、圖像為載體的多源異構(gòu)數(shù)據(jù)融合模型和多模態(tài)人機交互模型,探索客體成像、認知成像和言語成像規(guī)律,解決客體、人腦與語言三個世界的成像同構(gòu)問題。
漢語智能寫作平臺的技術(shù)突破主要體現(xiàn)在多模態(tài)認知意象可視化技術(shù),包括智能教育機器人技術(shù)、學習軌跡跟蹤與處理技術(shù)、“語—圖”及“圖—語”轉(zhuǎn)換生成技術(shù)、語言生成與理解中的多源成像融合技術(shù)。
中國科學技術(shù)信息研究所研究員張寅生說,從高混亂度的信息材料中抽取知識,按特定場景、話題、文體進行寫作,難度很大。他認為,這種漢語集成寫作體現(xiàn)了人類智慧,是言語生成研究方向的歷史性突破。
漢語智能寫作的孕育和應(yīng)用前景
漢語智能寫作從最初設(shè)想到最終實現(xiàn),經(jīng)過了漫長跋涉。周建設(shè)早在上世紀80年代即開始語言智能理解表達相關(guān)問題研究,發(fā)表了多篇論文。其中《面向語言處理的計算與認知取向》一文,提出了“語言智能表達目標”,并初步提出構(gòu)建語言生成系統(tǒng)的設(shè)想;《基于大數(shù)據(jù)的漢語表達智能模型及其理論基礎(chǔ)》一文,提出了構(gòu)建基于大數(shù)據(jù)的漢語表達智能模型。
2015年,在前期理論指導下,研究團隊開發(fā)了漢語受限預(yù)提智能寫作平臺,初步實現(xiàn)了前期構(gòu)想的漢語智能表達系統(tǒng)。
北京語言智能協(xié)同研究院依托首都師范大學,該校在語言智能研究領(lǐng)域擁有北京市成像技術(shù)高精尖中心、自然科學與社會科學兩界協(xié)同創(chuàng)新基地、市級協(xié)同創(chuàng)新中心等6個創(chuàng)新機構(gòu),還擁有3個相關(guān)博士學位授予權(quán)的一級學科、多個國家重點學科和北京高校重點實驗室。研究院現(xiàn)有包括哈佛大學在內(nèi)的協(xié)同單位20余家,研究團隊專家100余人。近3年來,研究院參與科研項目30余項,獲得發(fā)明專利15項,軟件著作權(quán)40項,各類大數(shù)據(jù)資源庫、語料庫20余種。研究團隊2016年在研項目包括國家社科基金重大委托項目、國家語委重大課題等,未來研究方向為金融和體育新聞、應(yīng)用文書自動寫作,中小學生作文輔助寫作,還將瞄準智能教育機器人產(chǎn)品。
來自北京航空航天大學計算機學院的張小明認為,漢語智能寫作平臺生成的文稿內(nèi)容流暢,還加入了情感因素,有很大應(yīng)用價值。(董洪亮)









