當前研究計畫 (on-going projects)
漢語計算語意變遷模型
Semantic Change Model for Chinese
與德國杜賓根大學 (Uni. Tübingen) 量化語言學研究群 Prof. Harald
Baayen
合作,以古今漢語為素材的大數據計算歷史語言學研究計畫。由蔣經國基金會支持
(2021-2023)
台灣語言多模態語料庫
Multimodal Corpus for Formosan Languages
與國際團隊 Red Hen lab (Prof. Mark Turner)
合作之多模態語料庫語言科學跨領域研究合作。
以台灣之官方語言為研究素材。由教育部語言學領域標竿計畫支持
(2021-2022)
AI 與整合性中文詞彙知識庫
Lexical Knowledge Database for AI
與中研院資訊科學研究所 CKIP 團隊 (Prof. Wei-Yun Ma)
合作之跨資源整合研究。包括 CWN,eHowNet,
ConceptNet。由科技部台大AI研究中心計畫支持 (2020-2022) (2021-2022)
專題研究方向 (Research Topics)
Social Media Corpus in Taiwan (SoMe)
大規模自動爬取與處理之 ptt 與 Dcard
貼文語料庫,並提供言談與構式檢索功能,預訓練文本張量 (Pre-trained
Text Tensor; PTT)
[連結]
Natural Language Understanding and Inference Simulation
利用語奧題目素材,訓練高階機器理解與推理。
[連結]
資源及工具 (Language Resources)
詞意自動標記模型 (CWN Sense Tagger)
中文的詞意消歧任務意在讓機器能辨別出語言中的多義現象,本團隊利用中文詞彙網路所收錄的詞彙語意資料訓練BERT模型,在詞意消歧的任務可達大約82%的正確率。
[連結]
[示例]
Deep Lexicon (DeepLEX)
以中文為核心的巨量開放詞庫,放棄原子論式的詞彙觀點,讓我們把它開發成為詞彙相關研究的基礎建設。
[連結]
Chinese Wordnet (CWN)
中文詞彙網路著眼於建構一個深層的語義與概念網路。精細的詞意分析與開放的關係設計將有助於理解語言與心智的構作
[CWN v1]
[CWN 2.0]
漢字分析工具 (HanziAnalysisKit)
包含Hanzi Glyph Corpus Toolkit (HGCT) 和 lexicoR,可協助在語料庫中查詢和分析漢字字形,以及訪問不同的中文詞彙資源。
[連結]
Chinese Word Map (CWM)
中文詞彙地圖是一個以華語文教學爲目的的詞彙知識素描混搭系統。也是字典學的破壞性創新提案。
[連結]
Corpora Open and Search (COPENS)
開放語料庫與搜尋工具。自動預處理與自由標記。讓我們期待一個內容共享,工具共創,製程開放的新一代語料庫語言學。
[連結]
PTT Corpus
作為一個台灣特有的 BBS 系統,PTT
記錄了珍貴而有趣的社會語言文化現象。提供了語言接觸與演化,與「精簡語言學」重要的經驗訊息。
[連結]
Chinese variation
台灣漢語和中國漢語的平行語料庫。
[連結]
Toxic Talk
由網路評論訓練出產生惡言的工具。
[連結]
學習共筆
協作閣
LOPE實驗室成員的學習筆記部落格。
[連結]
開放課程