LOPEN project

漢語計算語意變遷模型

Semantic Change Model for Chinese

與德國杜賓根大學 (Uni. Tübingen) 量化語言學研究群 Prof. Harald Baayen 合作，以古今漢語為素材的大數據計算歷史語言學研究計畫。由蔣經國基金會支持 (2021-2023)

台灣語言多模態語料庫

Multimodal Corpus for Formosan Languages

與國際團隊 Red Hen lab (Prof. Mark Turner) 合作之多模態語料庫語言科學跨領域研究合作。以台灣之官方語言為研究素材。由教育部語言學領域標竿計畫支持 (2021-2022)

AI 與整合性中文詞彙知識庫

Lexical Knowledge Database for AI

與中研院資訊科學研究所 CKIP 團隊 (Prof. Wei-Yun Ma) 合作之跨資源整合研究。包括 CWN,eHowNet, ConceptNet。由科技部台大AI研究中心計畫支持 (2020-2022) (2021-2022)

Social Media Corpus in Taiwan (SoMe)

大規模自動爬取與處理之 ptt 與 Dcard 貼文語料庫，並提供言談與構式檢索功能，預訓練文本張量 (Pre-trained Text Tensor; PTT)

[連結]

Natural Language Understanding and Inference Simulation

利用語奧題目素材，訓練高階機器理解與推理。

[連結]

詞意自動標記模型 (CWN Sense Tagger)

中文的詞意消歧任務意在讓機器能辨別出語言中的多義現象，本團隊利用中文詞彙網路所收錄的詞彙語意資料訓練BERT模型，在詞意消歧的任務可達大約82%的正確率。

[連結] [示例]

Deep Lexicon (DeepLEX)

以中文為核心的巨量開放詞庫，放棄原子論式的詞彙觀點，讓我們把它開發成為詞彙相關研究的基礎建設。

[連結]

Chinese Wordnet (CWN)

中文詞彙網路著眼於建構一個深層的語義與概念網路。精細的詞意分析與開放的關係設計將有助於理解語言與心智的構作

[CWN v1] [CWN 2.0]

漢字分析工具 (HanziAnalysisKit)

包含Hanzi Glyph Corpus Toolkit (HGCT) 和 lexicoR，可協助在語料庫中查詢和分析漢字字形，以及訪問不同的中文詞彙資源。

[連結]

Chinese Word Map (CWM)

中文詞彙地圖是一個以華語文教學爲目的的詞彙知識素描混搭系統。也是字典學的破壞性創新提案。

[連結]

Corpora Open and Search (COPENS)

開放語料庫與搜尋工具。自動預處理與自由標記。讓我們期待一個內容共享，工具共創，製程開放的新一代語料庫語言學。

[連結]

PTT Corpus

作為一個台灣特有的 BBS 系統，PTT 記錄了珍貴而有趣的社會語言文化現象。提供了語言接觸與演化，與「精簡語言學」重要的經驗訊息。

[連結]

Chinese variation

台灣漢語和中國漢語的平行語料庫。

[連結]

Toxic Talk

由網路評論訓練出產生惡言的工具。

[連結]

協作閣

LOPE實驗室成員的學習筆記部落格。

[連結]

人文學群的 Python 程式入門 (2018)

[連結] [GitHub]

語料庫語言學 (2018)

[連結]

語料庫程式實務工作坊 (2018)

[活動頁面] [GitHub]

當前研究計畫 (on-going projects)

漢語計算語意變遷模型

Semantic Change Model for Chinese

台灣語言多模態語料庫

Multimodal Corpus for Formosan Languages

AI 與整合性中文詞彙知識庫

Lexical Knowledge Database for AI

專題研究方向 (Research Topics)

Social Media Corpus in Taiwan (SoMe)

Natural Language Understanding and Inference Simulation

資源及工具 (Language Resources)

詞意自動標記模型 (CWN Sense Tagger)

Deep Lexicon (DeepLEX)

Chinese Wordnet (CWN)

漢字分析工具 (HanziAnalysisKit)

Chinese Word Map (CWM)

Corpora Open and Search (COPENS)

PTT Corpus

Chinese variation

Toxic Talk

學習共筆

協作閣

開放課程

人文學群的 Python 程式入門 (2018)

語料庫語言學 (2018)

語料庫程式實務工作坊 (2018)