工作坊簡介

2018 語料庫程式實務工作坊將於 11 月 3 日、 4 日以及 12 月 15 日這三天舉行。

無論你是否有特定的研究問題需要建立自己的語料庫,或是妳很好奇怎麼利用文本資訊進行分析獲取洞見,我們將藉由週末的密集課程,以實際例子與大家一起從蒐集網路文本資料開始走到文本分析,直至線上發佈個人獨具風格的語料庫。
期望在資源共享,互利共榮的氛圍下,活絡台灣各方社群之語料庫及語言分析應用。

為什麼要辦工作坊呢?

主辦動機

利用語料庫做語言研究與計算應用已經是不可逆轉的趨勢。 但是隨著研究議題的多元化與數據的增加,學習如何使用程式來處理研究語料,甚而建立自己的語料庫開放給別人永續使用,也成了語言研究者與 NLP 工程師很重要的訓練之一。 在此背景下,我們舉辦這個工作坊,邀請有興趣的朋友一起來參加學習。

參加工作坊會學到什麼呢?

課程目標

  • 網路資料爬取&資料前處理,不再以「複製貼上」的苦工收集大量資料。
  • 標記資料&分析,讓文本資料對電腦來說不再空洞、無從分析起。
  • 網頁介面設計&上線發佈,讓更多人可以便利地使用我們自己做的語料庫。

我適合參加工作坊嗎?

目標對象

這個工作坊讓人明白如何實際運用 python 程式語言來建立自己感興趣的語料庫,包含資料爬蟲、資料清理、文本標記以及文本分析,幫助每個人學習自建語料庫之外,更能運用語言知識從文本中爬梳脈絡資訊或挖掘洞見,甚至涉及網頁應用與介面設計。
適合具有 python 程式寫作基礎者。






課程安排

第一天我們將重點放在資料爬取與清理,第二天則是標記語料及分析,第三天則往應用與介面設計發展。
如此,我們期待參加者們可以更熟悉語料庫的實際製作流程,並且在課程打下的基礎上繼續發展,豐富語料庫語言學之應用。

2018 語料庫程式實務工作坊議程

11 月 3 日
  • 08:40-09:00

    報到時間 (請參加者攜帶繳費單據&個人筆電)

  • 09:00-09:30

    謝舒凱 語言學研究所所長

    開幕式

  • 09:30-12:30

    劉純睿 技術副總監

    語料庫爬蟲

  • 12:30-14:00

    午餐時間

  • 14:00-17:00

    林士凱 軟體工程師

    語料庫資料前處理


11 月 4 日
  • 09:00-09:30

    報到時間 (請參加者攜帶個人筆電)

  • 09:30-12:30

    吳小涵、李佳臻 NLP 工程師 AI Trainer

    語料庫標記 & 語言學分析

  • 12:30-14:00

    午餐時間

  • 14:00-17:00

    吳怡安 NLP 工程師

    文本分析 & 語料庫統計


12 月 15 日
  • 09:00-09:30

    報到時間 (請參加者攜帶個人筆電)

  • 09:30-12:30

    沈姿妤 前端工程師

    語料庫介面設計

  • 12:30-13:30

    午餐時間

  • 13:30-16:20

    謝舒凱 語言學研究所所長

    語料分析流程與部署

  • 16:20-16:40

    謝舒凱 語言學研究所所長

    閉幕式





授課師資


謝舒凱.jpg

謝 舒 凱

語言學研究所所長

國立臺灣大學

德國圖賓根大學計算語言學博士
義大利比薩大學計算語言學實驗室訪問學人
國際語言學奧林匹克競賽台灣隊領隊教練

阿吉.jpg

劉 純 睿

技術副總監

大數據股份有限公司

臺大(計算)語言學碩士
法國 Aix Marseille Université 留學一年
PyCon TW 講者



林士凱.jpg

林 士 凱

軟體工程師

Qsearch

臺大化學所碩士(量子化學理論計算)
臺大語言所LOPE實驗室研究助理
Google雲端架構師證照(專攻雲端系統建構及臉書社群分析)

吳小涵.jpg

吳 小 涵

NLP 工程師

艾斯移動

臺大(計算)語言學碩士
阿諾標記有限公司
女人迷性別科技座談講者






李佳臻.jpg

李 佳 臻

AI Trainer

優拓資訊

臺大(計算)語言學碩士
阿諾標記有限公司

吳怡安.jpg

吳 怡 安

NLP 工程師

好奇人工智慧股份有限公司 (inqtech)

臺大物理系畢業
臺大(計算)語言學碩士

沈姿妤.jpg

沈 姿 妤

前端工程師

Fusion Ltd.

臺大(心理)語言學碩士
大數據股份有限公司






會場資訊

舉行地點:台灣大學普通教學館 505 教室
敬請參加者提早出發。


台大校內地圖

Google 地圖






報名資訊

本工作坊係為 具 Python 程式基礎者 設計,屬於進階課程(請攜帶個人筆電到場上課)。
不適合 Python 初學者或剛入門之新手。
囿於場地大小,本工作坊名額限制為至多 80 人,採線上報名,額滿為止。

收費方式

方案A
11/3 & 11/4 二日
( 4 堂課, 12 小時)
方案B
11/3 & 11/4 & 12/15 三日
( 6 堂課, 18 小時)
學生身份註1 11/2 以前轉帳繳費註2 NTD 800 元 NTD 1000 元
11/3 當天現場繳費註3 NTD 900 元 NTD 1100 元
非學生身份 11/2 以前轉帳繳費註2 NTD 1200 元 NTD 1600 元
11/3 當天現場繳費註3 NTD 1300 元 NTD 1700 元

註1:學生身份者請於報到時出示學生證。
註2:線上報名成功後將 e-mail 轉帳資訊,請把握時間繳費。繳費成功者可取得台大開立之收據。
註3:因人力有限,現場繳費僅開放 11/3 一天,唯「具特殊原因且事前通知者」不受此限。




主辦單位

國立臺灣大學語言學研究所

知識本體語言處理人文計算實驗室


活動承辦人信箱:cychiang@ntu.edu.tw 網站更新&維護:Joy S. Chiang