Logo

LOPEN 計劃是台大語言學研究所語言處理與人文計算實驗室 (簡稱 LOPE) 所推動的一項中文語言與知識資源開放的計劃。我們相信,資源的開放可以促進經驗研究的重製,研究的創新與社會的進步。

[繁體中文] [English]

Follow @lopentu

當前研究計畫 (on-going projects)

漢語計算語意變遷模型

Semantic Change Model for Chinese

與德國杜賓根大學 (Uni. Tübingen) 量化語言學研究群 Prof. Harald Baayen 合作,以古今漢語為素材的大數據計算歷史語言學研究計畫。由蔣經國基金會支持 (2021-2023)

台灣語言多模態語料庫

Multimodal Corpus for Formosan Languages

與國際團隊 Red Hen lab (Prof. Mark Turner) 合作之多模態語料庫語言科學跨領域研究合作。 以台灣之官方語言為研究素材。由教育部語言學領域標竿計畫支持 (2021-2022)

AI 與整合性中文詞彙知識庫

Lexical Knowledge Database for AI

與中研院資訊科學研究所 CKIP 團隊 (Prof. Wei-Yun Ma) 合作之跨資源整合研究。包括 CWN,eHowNet, ConceptNet。由科技部台大AI研究中心計畫支持 (2020-2022) (2021-2022)

專題研究方向 (Research Topics)

Social Media Corpus in Taiwan (SoMe)

大規模自動爬取與處理之 ptt 與 Dcard 貼文語料庫,並提供言談與構式檢索功能,預訓練文本張量 (Pre-trained Text Tensor; PTT)

[連結]

Natural Language Understanding and Inference Simulation

利用語奧題目素材,訓練高階機器理解與推理。

[連結]

資源及工具 (Language Resources)

詞意自動標記模型 (CWN Sense Tagger)

中文的詞意消歧任務意在讓機器能辨別出語言中的多義現象,本團隊利用中文詞彙網路所收錄的詞彙語意資料訓練BERT模型,在詞意消歧的任務可達大約82%的正確率。

[連結] [示例]

Deep Lexicon (DeepLEX)

以中文為核心的巨量開放詞庫,放棄原子論式的詞彙觀點,讓我們把它開發成為詞彙相關研究的基礎建設。

[連結]

Chinese Wordnet (CWN)

中文詞彙網路著眼於建構一個深層的語義與概念網路。精細的詞意分析與開放的關係設計將有助於理解語言與心智的構作

[CWN v1] [CWN 2.0]

漢字分析工具 (HanziAnalysisKit)

包含Hanzi Glyph Corpus Toolkit (HGCT) 和 lexicoR,可協助在語料庫中查詢和分析漢字字形,以及訪問不同的中文詞彙資源。

[連結]

Chinese Word Map (CWM)

中文詞彙地圖是一個以華語文教學爲目的的詞彙知識素描混搭系統。也是字典學的破壞性創新提案。

[連結]

Corpora Open and Search (COPENS)

開放語料庫與搜尋工具。自動預處理與自由標記。讓我們期待一個內容共享,工具共創,製程開放的新一代語料庫語言學。

[連結]

PTT Corpus

作為一個台灣特有的 BBS 系統,PTT 記錄了珍貴而有趣的社會語言文化現象。提供了語言接觸與演化,與「精簡語言學」重要的經驗訊息。

[連結]

Chinese variation

台灣漢語和中國漢語的平行語料庫。

[連結]

Toxic Talk

由網路評論訓練出產生惡言的工具。

[連結]

學習共筆

協作閣

LOPE實驗室成員的學習筆記部落格。

[連結]

開放課程

人文學群的 Python 程式入門 (2018)

[連結] [GitHub]

語料庫語言學 (2018)

[連結]

語料庫程式實務工作坊 (2018)

[活動頁面] [GitHub]