返回網站

數位學者,一個新學術的誕生(?)

淡江大學未來學研究所兼任助理教授 李長潔

數位典藏 X 數位人文 研討會

人文與量化較少的社會學科,在傳統學門的分野上,與自然科學有著方法論、甚至知識論上的根本差異,但近年在資料科學、傳播科技創新、媒體匯流的趨勢推力下,人文社會科學逐漸從20年前的「資料庫」知識儲備、數位典藏型態,轉向現今的「數據智慧」知識生產、數位人文模式。這也是2016年「數位典藏 數位人文 DADH 國際研討會」的核心思想,我們將看到的是:一個數位學者的誕生(?)。

巨量資料、小量資料、無資料

在DADH會議的一開始,美國加州大學洛杉磯分校的資訊研究者Christine Borgman,透過其專長的文獻學來討論資料的開放、近用、管理、蒐藏、保存與永續等問題,她認為「巨量資料、小量資料、無資料」在學術傳播中各有其意義與價值,當研究者面對大數據翻天覆地而來時,應該反身性地思考,誠實地處理與面對所蒐集資料。

broken image

而數位人文領域的重要學者,哈佛大學東亞語言暨文明學系講座教授Peter Bol,則強調了資料科學的全球可及性、共享創造、合作協作、新工具發展,也刺激著人文學者必須跳躍性地發展,從平坦的表格到關聯式的資料庫,從紙本地圖到GIS。人文學科目前需要趕緊具備三項能力,以備齊進階計算能力:(一)工具整合;(二)網路基礎設施;(三)教學與學習,這些將為人文科學帶來新契機。

broken image

從機構導向到個人導向的資料庫

台大歷史系的翁稷安博士,從數位平台實做的經驗出發,認為已經是可以反思台灣數位典藏與數位人文近年發展的時候了。回顧來路,可以見到,文字探勘是台灣數位人文的起始,也影響台灣學者對數位人文的研究想像。對應於運算科學海量流動的資料,人文社會學者所做著,時常是在「大數據」時代做「小數據」研究。但翁稷安認為,這種小規模、自發性、土法煉鋼的研究法,在台灣十分常見,通常策略是(一)結盟;(二)DIY的手工做法;(三)免費平臺。

broken image

建立個人導向的資料庫

所以說,從廣義的角度來說,小數據研究者們還是可以宣稱自己是數位研究,翁認為,這是一種「拼裝車」式的運算取徑,而不是「一站式」的原廠車。拼裝車的精神是「開放」,讓數據技術朝向個人的、工具的、低門檻的、橫向的、整合的轉向。故此,「機構導向資料庫」與「個人導向資料庫」,都非常值得發展,才得以讓人文社會學科持續深化。

broken image

善用DocuSky

另外,杜協昌則介紹了近年台大數位典藏計畫所致力的「DocuSky平臺」,此平臺可以提供研究者(尤其是人文)建立個人文字庫,提供全文檢索、後分類(post-classification)、詞頻分析等功能。DocuSky主要功能十分適合建立典藏,並運用在數據分析。未來將成立標注工具、詞彙統計、風格分析、文本比較等,文本分析將能夠更有效、大量的運作。其開放資源的特性,也更適合更多研究者投入開拓可能性。

人文社會學者該怎麼做呢?

人文社會科學在大數據的刺激下,掀起一陣研究的變革,連文史哲領域的學者亦紛紛將固有知識與資料,接合於資料科學,形成數位人文的未來。台大中文系的楊秀芳教授與成功大學台文系的施懿琳教授,分別介紹了「漢字古今音資料庫」與「台文詩」兩個數據資料庫,展現從前「檢索系統」到現今「動態分析」、「視覺化」的實踐途徑。透過數據資料庫累積與建置,人文研究將更具精確、新穎、比較性、相關性的角度來切入解讀與詮釋。

broken image

漢字古今音資料庫

而政治大學台灣史研究所的薛化元教授,是全台灣數位史學研究的先驅,早在1995年時,就投入史學資料檢索(單機版)的建置,經過20年的技術變遷進步,薛教授的團隊已發展出詳細的《自由中國》等台灣思想刊物的數據庫,透過彈性的交叉比較,將重新延展原有史料的面向,形成更為「立體」的質性解釋。

薛教授提供了4個人文社會科學研究者進入數位研究(digital scholar)的密技:

一、斷詞的技巧:撇開數據,只要研究觸碰到文化面向,那勢必無法避免使用「文本」,而分析文本則首重「斷詞」,雖然中研院已有發展斷詞系統(http://ckipsvr.iis.sinica.edu.tw/),或是常見的「結巴」(jieba),但人工逐字檢閱還是中文文本十分必要的程序。

二、詞頻計算:TF-IDF(term frequency–inverse document frequency),是一種用於資訊檢索與文本挖掘的常用加權技術。TF-IDF是一種統計方法,用以評估一字詞對於一個文件集或一個語料庫中的其中一份文件的重要程度。字詞的重要性隨著它在文件中出現的次數成正比增加,但同時會隨著它在語料庫中出現的頻率成反比下降。這也是需要留意的一個面向。

三、人文系統與資工系統的合作:這是一個非常重要的面向,因為我們人文系統幾乎完全無法想像資工學者,可以提供甚麼樣的技術,反之亦然。一個數據團隊勢必是要兩系統持續的對話,才能產生知識與技術的增長,讓視域解蔽。

四、善用新生代:計劃案總是巨大,也無法多元嘗試。但如果鼓勵大學生、碩士生、博士生等年輕研究者利用相關方法、資料庫、數據平台來進行他們的論文研究,不但有測試、微調之收效,更能碰撞出新的面向,更達到知識傳承的意義。

數位學者的誕生

從幾位講者的分享可知曉,數位研究若作為一個學門,其實早在20年前的資料庫建置時代就已經發生,台灣其實已累積了豐沛的能量,只是我們時常在喜新厭舊的偏見下,遺忘手中原本的成果,而陷入絢爛的技術進步。只要擴大學科合作,持續深化彼此內涵,原有的學術價值將可被重新看待,既有趣,又加值。

broken image

數位學者在這個時代,並不是數位狂潮下的偶然存在,而是學術發展一路走來結晶。不過,在該會議的主題上,仍包含的一個「?」,在未來的將來,所面對的是一個全新開發的領域、嶄新的獨立身分,或是,一個不斷跨界融合舊有的疆界,就有待諸數位運算研究實踐者的致力、考量與反思了。