中文詞彙與跨語詞彙抽取技術在數位佛典上的研發與應用

Development and Application of Chinese Cross-Lingual Term Extraction for Buddhist Digital Archives
termextract網址:http://dev.ddbc.edu.tw/BuddhistTermExtract
特色:資訊檢索技術結合佛學資源初步研究,索引技術、演算法、跨語統計等。
Content: Research project concerning automated term extraction from Buddhist Chinese
簡介
本計畫為國科會數位典藏技術分項計畫的其中一項。其目標及成果是要支援建立一個方便佛教學者研究工作的環境與平台。

抽詞及建立跨語詞彙集,是達成上述研究平台目標的重要基礎工作。以各種不同版本及語言的佛經來說,抽詞及建立跨語詞彙表的工作,也可以應用在工具書的整理、文獻學與考證學的研究上。並且還能衍伸出多項資料統計議題上的研究與探討。

內容
抽辭演算法 / Indices and Algorithms
多語言佛學語料庫 / Cross-Language Corpora
CBETA 全文資源分析統計 / CBETA Statitstics
語用索引檢索系統 / Concordance Search

This is a project of the National Science Council’s National Digital Archives Program, Taiwan. It aims to support the construction of a research platform and environment that will be convenient for Buddhist scholars to work on subject specific knowledge structures. There will be a friendly and efficient platform, on which Buddhist scholars can conduct Statistical Analysis, Information Retrieval and Extraction, Document Classification and Clustering, Data Mining, etc., to work on large numbers of digital Buddhist databases.
Term extraction is an important foundation towards building such a platform. Term extraction and cross-lingual thesaurus for the Tripitaka in different versions and languages can also be applied to constructing reference works, manuscript studies, document proving. Statisical questions can also be derived.

廣告

發表迴響

在下方填入你的資料或按右方圖示以社群網站登入:

WordPress.com 標誌

您的留言將使用 WordPress.com 帳號。 登出 /  變更 )

Google+ photo

您的留言將使用 Google+ 帳號。 登出 /  變更 )

Twitter picture

您的留言將使用 Twitter 帳號。 登出 /  變更 )

Facebook照片

您的留言將使用 Facebook 帳號。 登出 /  變更 )

連結到 %s