首頁 »
2016/02/17

【數位人文】中文文史資料的文本分析

【數位人文】中文文史資料的文本分析

主 講 人:劉昭麟(國立政治大學資訊學系特聘教授)
主 持 人:黃美娥(國立臺灣大學臺灣文學研究所所長)
時    間:2015年11月11日(三)19:00-21:00
地    點:國青大樓3樓324口譯教室
側    記:孫中文(臺文所碩士班)


一、跨領域背景與文本分析
 
  講者以電機系、資訊系的背景出發,而後跨足語言學、法學、財經、心理、教育、文史等等跨領域的研究分析。
 
  在文史方面,拜經典電子化之賜,過去需要耗費大量人力才能統計出的數據,現透過跨領域的技術與程式,可以方便文史研究者省時省力的查找出相關的研究詞彙,並立刻做出簡易的圖表。
 
二、各種成果分析展示
 
(一)以二二八、「主義」為演示對象
 
  透過程式,講者先以二二八的文史資料為例,在程式中輸入「中國人、外省人、日本人、台灣人」等詞組,即可查找出四者在這些文史資料中的出現次數,並立刻轉換為圖例(現狀圖、直方圖),亦可清楚找出各詞的出處為何,章句章節的其來有自。
 
  講者再以過去《「主義」的數位人文研究》的分析經驗,將1896年到1926年的史料作為資料庫底本,並輸入「主義」二字,並畫出「主義」二字在各個年份的所現次數,方便研究者分析出這些事物與當時的政治氛圍。
 
(二)一些有趣的議題:《紅樓夢》與《西遊記》的關注
 
  《紅樓夢》作為中國重要的長篇章回小說,八十餘萬字的內容作為資料庫,大大減省過去費力查找功夫。講者以「寶玉黛玉寶釵誰最愛笑」為題,以「寶玉」、「黛玉」、「寶釵」的「笑道」次數作為研究對象,並計算其出場次數,計算出比例和頻率,可窺見客觀的數據與資料。
 
  《西遊記》亦是重要的長篇章回小說,講者同樣以關鍵字,查找出各種妖怪的名稱詞組,回應了「哪個妖怪妖力最強」的栽問。過去在長篇小說中需要大量時間和人力耗費的工作,得以透過程式和經典電子化等研究工具,不費太多力氣的完成。
 
(三)中國歷代人物傳記資料庫&《全唐詩》的顏色與二字詞研究
 
  透過CDBD的資料,把文字標記後拆作各部份詞組,除了可以一一剔除檢視,交叉比對,進而推概出人物所指,如講者以「陳瑜」作為演示對象,篩選出各個朝代的陳瑜,以回應研究的主題。此外,一串關鍵的詞組,亦可作為語料語法的分析,如講者發現傳記裡的人物記載方式,通常有幾個排序方式,為人名、字號、籍貫、官職等排列先後順序,可提供史料研究者的額外的輔助。
 
而在《全唐詩》的數據庫,講者也展示多種的分析成果,如「顏色出現的頻率」、「李白與杜甫的月」、「何者是《全唐詩》裡的高頻率二字詞」、「白色詞彙的分佈」,也可推敲出作者好用字,在語料、作者的思想生平詩歌研究,可協助判斷文史文學的研究。
 
(四)在報紙與媒體的應用
 
  講者亦展示中國人民日報中的「人民」詞彙的出現頻率與對應年份,發現中國在提及「人權」一詞時,發現多會提及香港,提供了延伸的素材,亦可另闢研究蹊徑。
 
和臺灣媒體四大報中,出現「硬頸」的頻率。在1990年到2015年,「硬頸」使用頻率的擴散,1998年的「還我客家運動」成為關鍵,使得「硬頸」一詞不但改變詞彙的使用意義,進而擴散到文學用語,讓語言學者有更客觀數據的分析辨識。
 
(五)字詞分析的挑戰與機會
 
  雖然字詞分析借助資料庫和電子化程式,得以快速處理大量的文字資料,但講者也指出頻率的字詞和統計也有其難處和得以快速處理大量的文字資料,但講者也指出頻率的字詞和統計也有其難處和問題,如文本有文白夾雜、文言白話的狀況,詞頻便有所限制,而更大的挑戰則是方言、音譯、流行歌的問題,多種非統一之詞彙,使得字詞分析不能萬全盡信,在運用的同時,依舊要回歸到文本本身,方能使文史工作研究更臻完善。
 
 


【GIS系列講座】Microsoft Excel 到Google Earth: GIS與空間分析在人文社會學科的應用(一←上一篇 │首頁