認(rèn)認(rèn)真真做學(xué)問、踏踏實實做開發(fā)、誠誠懇懇求合作">
電子報
電子報

漢語國際教育技術(shù)研發(fā)中心

認(rèn)認(rèn)真真做學(xué)問、踏踏實實做開發(fā)、誠誠懇懇求合作



















  一、漢語國際教育技術(shù)研發(fā)中心發(fā)展歷程
1987年,呂必松校長與著名人工智能專家馬希文教授,慧眼獨(dú)具地在我校創(chuàng)辦了全國第一個語言信息處理研究機(jī)構(gòu):北京語言大學(xué)語言信息處理研究所,馬希文教授親自擔(dān)任所長,拉開了我校信息科學(xué)發(fā)展的序幕。
  二十余載彈指一揮間,在歷屆校領(lǐng)導(dǎo)的大力支持下,研究所取得了巨大發(fā)展,衍生出包括信息科學(xué)學(xué)院在內(nèi)的一批科研教學(xué)機(jī)構(gòu)。2009年,為了擴(kuò)展我校在漢語國際教育技術(shù)領(lǐng)域的科研實力,學(xué)校決定在語言信息處理研究所基礎(chǔ)上創(chuàng)建漢語國際教育技術(shù)研發(fā)中心,由所長宋柔教授擔(dān)任主任,荀恩東教授擔(dān)任副主任,將我校語言信息處理和漢語國際教育兩個優(yōu)勢學(xué)科緊密相連,立足北語,服務(wù)國家漢語國際教育發(fā)展,著力突破制約漢語國際教育發(fā)展的關(guān)鍵技術(shù),提高漢語國際教育發(fā)展中的技術(shù)貢獻(xiàn)率,在國內(nèi)外引領(lǐng)漢語國際教育的技術(shù)發(fā)展。從此,我校教育信息化和教育技術(shù)發(fā)展駛?cè)肟燔嚨馈?br>  中心所屬網(wǎng)站(nlp.blcu.edu.cn)上,常年維護(hù)有十余種漢語教學(xué)在線軟件和演示系統(tǒng),并提供多種軟件工具和資源的開放式下載,成為研發(fā)中心對外宣傳、展示的窗口。據(jù)統(tǒng)計,網(wǎng)站運(yùn)行之初的一年時間里,累計訪問量達(dá)到幾十萬次,累計下載量超過一萬次,受到國內(nèi)外幾十家研究單位的關(guān)注。至今為止,訪問研發(fā)中心網(wǎng)站的有來自北京大學(xué)、華中師范大學(xué)、暨南大學(xué)、墨西哥城華夏孔子學(xué)院、普吉孔子學(xué)院、日本早稻田大學(xué)、新加坡南洋理工大學(xué)、德國卡爾斯魯厄大學(xué)、IBM、微軟亞洲研究院等數(shù)十家海內(nèi)外高校和研究機(jī)構(gòu)。
  研發(fā)中心成立伊始就確立了自己的發(fā)展目標(biāo),提出“一個核心任務(wù),兩個優(yōu)勢,三個技術(shù)突破方向”的總體發(fā)展思路,即堅持以發(fā)展語言教育技術(shù)為核心任務(wù),依托學(xué)校已經(jīng)具備的資源優(yōu)勢、技術(shù)優(yōu)勢,大力發(fā)展?jié)h語詞語計算技術(shù)、漢語字形計算技術(shù)以及漢語計算機(jī)輔助教育技術(shù)。圍繞發(fā)展目標(biāo),研發(fā)中心在成立短短幾年時間里,培養(yǎng)和催生了三個研究組,互為補(bǔ)充,有機(jī)結(jié)合,探索出一條在文科學(xué)校開展信息技術(shù)研究和開發(fā)的可行道路。
一個核心任務(wù)
研發(fā)中心堅持以發(fā)展語言教育技術(shù)為核心任務(wù)。以漢語國際教育為代表的語言教育,是我校傳統(tǒng)的優(yōu)勢學(xué)科,研發(fā)中心依托學(xué)校大環(huán)境,努力打造該領(lǐng)域內(nèi)先進(jìn)的科研技術(shù)研發(fā)平臺,占領(lǐng)和保持多項技術(shù)的領(lǐng)先地位,為語言教育教學(xué)提供基礎(chǔ)性支持技術(shù)和應(yīng)用軟件技術(shù),引領(lǐng)語言教育技術(shù)發(fā)展潮流,力爭成為國內(nèi)語言教育技術(shù)領(lǐng)域領(lǐng)跑者。
兩個優(yōu)勢
研發(fā)中心具備語言數(shù)據(jù)資源和語言信息處理技術(shù)兩大優(yōu)勢。研發(fā)中心承襲了語言信息處理研究所多年積累的數(shù)據(jù)資源,經(jīng)過幾年系統(tǒng)地整理和擴(kuò)充,目前已經(jīng)建成涵蓋多個語種、多種類型,規(guī)模大、質(zhì)量高的大型綜合性多媒體語言數(shù)據(jù)庫,具備了大數(shù)據(jù)計算所需要的數(shù)據(jù)基礎(chǔ)。
三個技術(shù)突破方向
在核心技術(shù)方面,研發(fā)中心經(jīng)過多年積累,在自然語言處理、字形處理和計算機(jī)輔助語言教學(xué)等多個方面,積累了一系列漢語教學(xué)所需的核心技術(shù)、研發(fā)了多種軟件和基于互聯(lián)網(wǎng)的學(xué)習(xí)系統(tǒng)。
  近幾年,隨著時代的不斷發(fā)展,互聯(lián)網(wǎng)應(yīng)用迅速崛起,為研發(fā)中心的發(fā)展帶來巨大挑戰(zhàn)和機(jī)遇。為此,結(jié)合目前的發(fā)展趨勢,研發(fā)中心領(lǐng)導(dǎo)大膽提出三項未來發(fā)展的核心技術(shù)。集中所有科研力量,力爭在三個領(lǐng)域獲得技術(shù)突破。首先,在傳統(tǒng)的語言信息處理領(lǐng)域,針對目前漢語詞語計算問題,提出利用海量數(shù)據(jù)進(jìn)行漢語詞語計算的構(gòu)想,并細(xì)化為漢語“自然語塊”分析和漢語“復(fù)雜科技術(shù)語分析”兩項任務(wù);其次,圍繞漢字書寫,提出“漢語字形計算”研究的科學(xué)問題和核心技術(shù),將研究落腳為中小學(xué)生和留學(xué)生的手寫漢字書寫質(zhì)量評判問題;第三,圍繞現(xiàn)在漢語教學(xué)中遇到的實際問題,研究漢語教學(xué)信息化技術(shù),利用計算機(jī)輔助漢語學(xué)習(xí),提出從課件制作、課件發(fā)布、學(xué)習(xí)狀態(tài)跟蹤、碎片化學(xué)習(xí)的一整套理論方法和應(yīng)用技術(shù)。
  研發(fā)中心堅持以應(yīng)用為驅(qū)動,所有研究目標(biāo)均落腳為具體的應(yīng)用技術(shù)。研發(fā)中心堅持學(xué)科交叉,以語言工程為視角,以計算機(jī)技術(shù)為手段,結(jié)合信息科學(xué)中的核心算法,在基礎(chǔ)研究方面不斷深入,在應(yīng)用技術(shù)方面加大廣度,支持漢語教育、語言研究,力爭在語言信息處理數(shù)學(xué)模型、語言知識體系方面取得更大突破。
  研發(fā)中心的這些觀點(diǎn)也得到了學(xué)校各級領(lǐng)導(dǎo)的認(rèn)同。在學(xué)?!笆濉币?guī)劃綱要中,首次將“出技術(shù)”列為發(fā)展要點(diǎn)之一。2012年,研發(fā)中心獲得學(xué)?!爸卮髮m楉椖俊敝С?,充分說明了研發(fā)中心在學(xué)校信息科學(xué)發(fā)展中的示范作用。
  近年來,依托信息科學(xué)學(xué)院,研發(fā)中心為我校獲得了一系列科研項目支持。在國家自然科學(xué)基金項目中,中心每年均有斬獲。2008年,荀恩東教授獲得面上項目“基于生成樹庫分析和一體化機(jī)器翻譯模型研究”;2011年,荀恩東教授再次獲得面上項目“漢字書寫規(guī)范性表征與評判”;宋柔教授獲得面上項目 “基于廣義話題的漢語篇章結(jié)構(gòu)研究”;2012年,安維華老師獲得青年基金項目“漢字書寫質(zhì)量的自動評測技術(shù)及應(yīng)用研究”;2013年,于東老師獲得青年基金項目“基于海量語料自然標(biāo)注信息的漢語自然語塊分析”。
  除此之外,研發(fā)中心還承擔(dān)了國家“863”計劃項目、國家語委科研項目、國家漢辦、教育部等多項國家級科研項目子課題的研究任務(wù)。同時與百度、富士通等知名企業(yè)保持緊密聯(lián)系,借助多方面力量推進(jìn)研發(fā)中心的發(fā)展和壯大。
  自成立以來,研發(fā)中心在各級學(xué)術(shù)期刊、學(xué)術(shù)會議上發(fā)表多篇論文,其中包括 《中文信息學(xué)報》、《清華大學(xué)學(xué)報》、《北京大學(xué)學(xué)報》、《計算機(jī)科學(xué)》等業(yè)內(nèi)知名期刊,多篇論文被EI、ISTP檢索,成為業(yè)內(nèi)新興的優(yōu)秀科研團(tuán)隊。
  在教學(xué)和學(xué)生培養(yǎng)方面,中心招收具有計算機(jī)應(yīng)用技術(shù)專業(yè)和應(yīng)用語言學(xué)專業(yè)背景的碩士研究生、博士研究生,并接收國內(nèi)外高級進(jìn)修人員,為漢語國際教育培養(yǎng)技術(shù)型高級專門人才。中心現(xiàn)有專職教師7人,其中教授2人,副教授2人,講師3人;學(xué)生21人,其中博士生2人,碩士生13人,本科生5人,外國碩士生1人。良好的實驗室氛圍和團(tuán)隊合作精神,成為研發(fā)中心的優(yōu)良傳統(tǒng)。
  展望未來,研發(fā)中心將繼續(xù)堅持科研創(chuàng)新的理念,堅持面向應(yīng)用的價值觀,努力探索新領(lǐng)域新知識,努力將應(yīng)用技術(shù)轉(zhuǎn)化為實用產(chǎn)品,服務(wù)學(xué)校,服務(wù)漢語教學(xué),服務(wù)社會,認(rèn)認(rèn)真真做學(xué)問,踏踏實實做開發(fā),誠誠懇懇求合作,爭取為我校的發(fā)展不斷做出實實在在的貢獻(xiàn)。
   二、互為補(bǔ)充、有機(jī)結(jié)合的三個研究組
語言信息處理研究組
語言信息處理組是研發(fā)中心研究歷史最悠久的團(tuán)隊。多年來,研發(fā)中心歷任領(lǐng)導(dǎo)均非常重視該領(lǐng)域的研究工作,在詞語分析、中文分詞、語義理解、機(jī)器翻譯、語言資源建設(shè)等方面取得豐碩的科研成果。在此基礎(chǔ)上,研發(fā)中心大力開展技術(shù)應(yīng)用與推廣,多項科研成果已被企事業(yè)和科研單位采用,取得良好的社會效應(yīng)。成為支撐整個中心研發(fā)工作的骨干研究團(tuán)隊。
  研發(fā)中心一直非常重視語言資源的建設(shè),在中心師生的共同努力下,目前已經(jīng)建設(shè)有漢語中介語語料庫、漢英雙語語料庫、漢日雙語語料庫、海量漢語語言語料庫、海量漢語科技術(shù)語語料庫以及漢語科技術(shù)語詞庫等一系列語言資源。領(lǐng)域類型涵蓋新聞、文學(xué)、科技、微博、博客、百科等方面,語料總量超過200G,包含約1000億漢字,規(guī)模大、門類全、質(zhì)量高,為中心后續(xù)課題研究打下了堅實的基礎(chǔ)。
  研發(fā)中心專門面向大規(guī)模語料庫,研究用計算機(jī)技術(shù)提取語料庫中的自然標(biāo)注信息的方法,并探索其應(yīng)用特點(diǎn)。經(jīng)過嚴(yán)謹(jǐn)論證和大膽設(shè)想,研究目標(biāo)定位為針對海量語料中自然標(biāo)注信息的提取和分析研究,具體研究內(nèi)容包括如下兩點(diǎn):通過對海量語料的運(yùn)算,發(fā)現(xiàn)大規(guī)模語料庫中的自然標(biāo)注信息,并研究對其中各種信息行之有效的挖掘方法;根據(jù)自然語言處理中的各種應(yīng)用需求對自然標(biāo)注信息進(jìn)行分類,研究其各自的本體性質(zhì)和應(yīng)用特點(diǎn)。
  在鞏固原有研究領(lǐng)域的基礎(chǔ)上,研發(fā)中心一直積極擴(kuò)展新的研究方向,使整個團(tuán)隊保持旺盛的研究活力。2013年年初,在一次小組討論中,一個圍繞科技術(shù)語計算的新興研究計劃獲得大家的認(rèn)可,正式啟動浮出水面。科技術(shù)語是科技發(fā)展的風(fēng)向標(biāo),術(shù)語規(guī)模的大小、新術(shù)語產(chǎn)生數(shù)量、細(xì)分領(lǐng)域術(shù)語的豐富程度,直接反映了科技發(fā)展的真實狀態(tài)。然而多年以來,我國在術(shù)語學(xué)方面仍借鑒上世紀(jì)70年代俄羅斯術(shù)語學(xué)家的思路,在術(shù)語規(guī)范、術(shù)語管理法方面少有人涉足,在術(shù)語計算方面更是處于空白階段。
  在這樣的背景下,研發(fā)中心借助現(xiàn)有的科技語料庫資源優(yōu)勢,希望在相關(guān)領(lǐng)域拔得頭籌。經(jīng)過半年多的籌備,在幾位老師和研究生的通力協(xié)作下,研發(fā)中心在“復(fù)雜術(shù)語計算”領(lǐng)域取得顯著進(jìn)展。以“術(shù)語知識圖譜”為核心的一系列課題正在緊鑼密鼓的開展過程中。相信幾年時間里,研發(fā)中心必將在該領(lǐng)域取得突破性進(jìn)展。
E-Learning研究開發(fā)組
近年來,信息技術(shù)的快速發(fā)展及其在學(xué)習(xí)領(lǐng)域的滲透對傳統(tǒng)的教學(xué)模式、學(xué)習(xí)資源和教學(xué)方法都帶來了深遠(yuǎn)的影響。在對外漢語教學(xué)領(lǐng)域,利用信息技術(shù)不僅可以將教學(xué)資源數(shù)字化、輔助課堂教學(xué)、輔助發(fā)音矯正和漢字書寫,甚至還可以模擬學(xué)習(xí)者的認(rèn)知過程。
  E-Learning研究開發(fā)組目前的研究方向是面向漢語國際教育的無縫學(xué)習(xí)模型、方法和關(guān)鍵技術(shù)。主要研究問題有:(1)移動學(xué)習(xí)環(huán)境下的資源組織模型。如今,各種數(shù)字化智能終端為教育教學(xué)活動提供了新的認(rèn)知環(huán)境,為學(xué)習(xí)者提供了一種智能的、無縫的學(xué)習(xí)空間。而如何組織學(xué)習(xí)資源,使其滿足無處不在、按需提供、自適應(yīng)呈現(xiàn)等學(xué)習(xí)需求則是一個新的研究問題。(2)創(chuàng)新學(xué)習(xí)模式?;诟鞣N計算設(shè)備的輔助學(xué)習(xí)常被看作是一種教室外的非正式學(xué)習(xí)活動。這兩年來,隨著大規(guī)模在線教育和終身學(xué)習(xí)概念的提出,參與這種非正式學(xué)習(xí)的人數(shù)呈現(xiàn)出了爆發(fā)式的增長。傳統(tǒng)的固定時間地點(diǎn)的、由老師授課的學(xué)習(xí)方式受到了前所未有的挑戰(zhàn),而社交化學(xué)習(xí)、協(xié)同學(xué)習(xí)、基于游戲的學(xué)習(xí)等逐步成為一種新的學(xué)習(xí)模式。(3)情境感知的個性化學(xué)習(xí)技術(shù)?,F(xiàn)在的學(xué)習(xí)者往往擁有多種不同的計算設(shè)備,每個學(xué)習(xí)者的背景、學(xué)習(xí)曲線、生活情境都不相同,他的學(xué)習(xí)是一個不斷進(jìn)化的認(rèn)知過程。情境感知的個性化學(xué)習(xí)就是要根據(jù)學(xué)習(xí)者所處的上下文信息(如:學(xué)習(xí)歷史、所處的場景、所使用的設(shè)備等等)主動推送適合的漢語知識,提供便捷易用的學(xué)習(xí)服務(wù)。
  E-Learning研究開發(fā)組的主要任務(wù)是利用信息技術(shù),以第二語言習(xí)得、情境學(xué)習(xí)等理論為指導(dǎo),開發(fā)面向語言學(xué)習(xí)尤其是漢語學(xué)習(xí)的網(wǎng)站、軟件和數(shù)字資源。中心成立以來,該小組先后研發(fā)了HSK數(shù)字化測試平臺、非母語漢語作文計算機(jī)評測平臺、圖書數(shù)字化制作平臺、跟我學(xué)漢字、跟我學(xué)拼音、漢語易錯字辨析、在線生成課文拼音、中介語語料庫協(xié)同標(biāo)注、學(xué)習(xí)內(nèi)容在線生成和發(fā)布等實用高效的網(wǎng)站和軟件,積累了大量的輔助漢語學(xué)習(xí)的數(shù)字化資源和查詢系統(tǒng),如漢字信息資源庫、漢語詞匯信息資源庫、留學(xué)生高等作文語料庫等等。
漢字書寫評測研究組
中國漢字有著悠久的發(fā)展歷史,并且記錄了中華文明幾千年的發(fā)展歷程。漢字書寫能力的培養(yǎng)對于民族文化的傳承具有十分重要的意義。然而隨著計算機(jī)的普及,鼠標(biāo)鍵盤的操作代替了漢字的手寫工作,漢字書寫正在逐漸脫離我們的日常生活,漢字書寫水平的下降已成為一個不爭的事實。
  基于漢字書寫的現(xiàn)狀,漢字書寫評測組的定位在于,以學(xué)生在學(xué)習(xí)寫字的過程中所產(chǎn)生的手寫漢字作為研究對象,以數(shù)字媒體處理、模式識別、機(jī)器學(xué)習(xí)等信息技術(shù)作為輔助手段,對漢字書寫正確性和規(guī)范性的自動評測進(jìn)行基礎(chǔ)理論和應(yīng)用技術(shù)方面的研究。我們的最終目標(biāo)在于,實現(xiàn)計算機(jī)輔助的、無人值守的漢字書寫教學(xué)和評測的自動化系統(tǒng)。
  本課題組的研究具有很高的學(xué)術(shù)價值和應(yīng)用價值。一方面,它能夠探索和挖掘與書寫規(guī)范相關(guān)的漢字字形結(jié)構(gòu)的本質(zhì)特征;能夠更加深入地發(fā)展現(xiàn)有的漢字處理技術(shù);能夠為漢字書寫習(xí)得理論的研究提供客觀、豐富的樣本數(shù)據(jù)。另一方面,它能夠改進(jìn)傳統(tǒng)的漢字書寫教學(xué)方法,改善教學(xué)質(zhì)量;能夠為各種漢字書寫考試的信息化提供技術(shù)基礎(chǔ),提高自動化水平;而且能夠為漢語學(xué)習(xí)者提供一種漢字書寫自動評測的人性化工具,使?jié)h字書寫練習(xí)成為一種樂趣,從而為漢字文化傳承和漢語國際推廣起到推動作用。
  漢字書寫評測技術(shù)的未來發(fā)展應(yīng)該以評測的全面化、精確化、智能化為主要目標(biāo),以多種學(xué)科技術(shù)的綜合應(yīng)用為手段,以探索更加合理的漢字形式化描述方法和人機(jī)交互方法為主要任務(wù)。由此可見,本課題組將漢字書寫自動化評測技術(shù)作為研究目標(biāo)具有一定的前瞻性。
  目前,本課題組重點(diǎn)研究的問題包括:離線手寫漢字的筆畫還原技術(shù);在線手寫漢字的字形匹配技術(shù);面向書寫評測的漢字形式化描述方法;漢字書寫評判側(cè)面的挖掘方法;漢字書寫評測的可視化反饋技術(shù)等。本課題組正在開發(fā)的應(yīng)用系統(tǒng)包括:漢字筆順練習(xí)工具;漢字部件練習(xí)工具;留學(xué)生漢字書寫教學(xué)輔助系統(tǒng)等。
  經(jīng)過近三年的積累,漢字書寫評測組已經(jīng)積累了一定的成果,已成功申請國家自然科學(xué)基金項目兩項,發(fā)表學(xué)術(shù)論文10余篇,申請國家發(fā)明專利一項,培養(yǎng)博士生1人。