LOPEN project

漢語計算語意變遷模型

Semantic Change Model for Chinese

與德國杜賓根大學 (Uni. Tübingen) 量化語言學研究群 Prof. Harald Baayen 合作，以古今漢語為素材的大數據計算歷史語言學研究計畫。由蔣經國基金會支持 (2021-2023)

[連結]

台灣語言多模態語料庫

Multimodal Corpus for Formosan Languages

與國際團隊 Red Hen lab (Prof. Mark Turner) 合作之多模態語料庫語言科學跨領域研究合作。以台灣之官方語言為研究素材。由教育部語言學領域標竿計畫支持 (2021-2022)

[連結]

AI 與整合性中文詞彙知識庫

Lexical Knowledge Database for AI

與中研院資訊科學研究所 CKIP 團隊 (Prof. Wei-Yun Ma) 合作之跨資源整合研究。包括 CWN,eHowNet, ConceptNet。由科技部台大AI研究中心計畫支持 (2020-2022) (2021-2022)

[連結]

Social Media Corpus in Taiwan (SoMe)

大規模自動爬取與處理之 ptt 與 Dcard 貼文語料庫，並提供言談與構式檢索功能，預訓練文本張量 (Pre-trained Text Tensor; PTT)

[連結]

Natural Language Understanding and Inference Simulation

利用語奧題目素材，訓練高階機器理解與推理。

[連結]

Deep Lexicon (DeepLEX)

以中文為核心的巨量開放詞庫，放棄原子論式的詞彙觀點，讓我們把它開發成為詞彙相關研究的基礎建設。

[連結]

Chinese Wordnet (CWN)

中文詞彙網路著眼於建構一個深層的語義與概念網路。精細的詞意分析與開放的關係設計將有助於理解語言與心智的構作

[CWN v1] [CWN 2.0]

Chinese Word Map (CWM)

中文詞彙地圖是一個以華語文教學爲目的的詞彙知識素描混搭系統。也是字典學的破壞性創新提案。

[連結]

Corpora Open and Search (COPENS)

開放語料庫與搜尋工具。自動預處理與自由標記。讓我們期待一個內容共享，工具共創，製程開放的新一代語料庫語言學。

[連結]

PTT Corpus

作為一個台灣特有的 BBS 系統，PTT 記錄了珍貴而有趣的社會語言文化現象。提供了語言接觸與演化，與「精簡語言學」重要的經驗訊息。

[連結]

Chinese variation

台灣漢語和中國漢語的平行語料庫。

[連結]

Lopotator

Lopen 標記系統

[連結]

Toxic Talk

由網路評論訓練出產生惡言的工具。

[連結]

協作閣

LOPE實驗室成員的學習筆記部落格。

[連結]

人文學群的 Python 程式入門 (2018)

[連結] [GitHub]

語料庫語言學 (2018)

[連結]

語料庫程式實務工作坊 (2018)

[活動頁面] [GitHub]

當前研究計畫 (on-going projects)

漢語計算語意變遷模型

Semantic Change Model for Chinese

台灣語言多模態語料庫

Multimodal Corpus for Formosan Languages

AI 與整合性中文詞彙知識庫

Lexical Knowledge Database for AI

專題研究方向 (Research Topics)

Social Media Corpus in Taiwan (SoMe)

Natural Language Understanding and Inference Simulation

資源及工具 (Language Resources)

Deep Lexicon (DeepLEX)

Chinese Wordnet (CWN)

Chinese Word Map (CWM)

Corpora Open and Search (COPENS)

PTT Corpus

Chinese variation

Lopotator

Toxic Talk

學習共筆

協作閣

開放課程

人文學群的 Python 程式入門 (2018)

語料庫語言學 (2018)

語料庫程式實務工作坊 (2018)