政大機構典藏-National Chengchi University Institutional Repository(NCCUR):Item 140.119/155513
English  |  正體中文  |  简体中文  |  Post-Print筆數 : 27 |  全文笔数/总笔数 : 114393/145446 (79%)
造访人次 : 53035697      在线人数 : 704
RC Version 6.0 © Powered By DSPACE, MIT. Enhanced by NTU Library IR team.
搜寻范围 查询小技巧:
  • 您可在西文检索词汇前后加上"双引号",以获取较精准的检索结果
  • 若欲以作者姓名搜寻,建议至进阶搜寻限定作者字段,可获得较完整数据
  • 进阶搜寻


    请使用永久网址来引用或连结此文件: https://nccur.lib.nccu.edu.tw/handle/140.119/155513


    题名: 檔案文本內容探勘研究:以特種檔案為例
    The Study on Archival Text Mining: A Case Study of Te-Zhong Record Series
    作者: 邵僅
    Shao, Chin
    贡献者: 林巧敏
    Lin, Chiao-Min
    邵僅
    Shao, Chin
    关键词: 數位人文
    檔案學
    特種檔案
    Digital Humanities
    Archival Studies
    Te-Zhong Record Series
    日期: 2025
    上传时间: 2025-02-04 16:10:08 (UTC+8)
    摘要: 本研究以中國國民黨「特種檔案」為分析對象,以數位人文技術進行內容探勘,透過數位工具,快速提取檔案中隱含的重要資訊,打破傳統檔案研究方法耗時費力、易受研究者偏好影響的侷限,並以量化與質化相結合的方式,呈現檔案中的內容核心與歷史背景。
    首先,本研究針對文字探勘技術與相關研究案例、國內外數位人文學發展史、國內外數位人文研究機構,與應用數位人文學之檔案研究進行文獻回顧。接著採內容分析法,運用CKIP tagger對國民黨特種檔案進行預處理,透過實體辨識功能,整理出人物、組織、事件、地名四類核心詞彙,再應用CORPRO、中研院數位人文研究平台、DocuSky三種工具,分別進行詞語趨勢分析、詞彙共現分析與地理資訊分析。分析結果中,以視覺化方式解析核心人物、組織分布趨勢,以及人物、組織、事件間之社會網絡,顯示其各自在黨內發展與民國歷史中扮演的角色與互動關係。最後,以檔案中不同時期地名分別繪製地理資訊圖,展現各時期之地理分布,並分析與當期政治情勢、檔案內容的關聯性,可幫助研究者更深入理解歷史背景下的空間關係,更反映了特種檔案作為一手史料的研究價值。
    透過量化資料、質性說明與視覺化技術,本研究以更高效率與更易閱讀的數位方式,展現特種檔案中的潛在信息,並提供一系列操作流程,期能在檔案數位人文研究尚屬少見的今日,助益特種檔案之內容判讀與其他相關研究。
    This study analyzes the Kuomintang's "Te-Zhong Record Series" using digital humanities techniques for content exploration. By overcoming the limitations of traditional archival research methods—which are time-consuming and prone to researcher bias—digital tools can rapidly extract critical information from the records and combine quantitative and qualitative approaches to present the core content and historical context of the records.
    First, the study reviews literature on text mining technologies, digital humanities development both domestically and internationally, research institutions, and archival case studies. It then applies content analysis, using the CKIP tagger to preprocess the Te-Zhong Record Series. Named entity recognition categorizes four core terms: persons, organizations, events, and geographical locations. Next, three tools—CORPRO, Academia Sinica's digital humanities platform, and DocuSky—are used for word trend, word co-occurrence, and geographic information analysis. Visualizations highlight trends in core persons and organizations, as well as social networks among persons, organizations, and events, revealing their roles and interactions in the Kuomintang's development and the history of the Republic of China. Ultimately, the study maps geographical terms from different periods to illustrate spatial distributions over time and analyzes their correlations with political situations and record content.
    This provides deeper insights into spatial relationships in historical contexts and emphasizes the Te-Zhong Record Series' value as a key historical resource.Through quantitative data, qualitative analysis, and visualization techniques, this study efficiently and comprehensively unveils the information within the Te-Zhong Record Series in a digital format and provides a detailed workflow. The study aims to assist in the interpretation of the Te-Zhong Record Series and other related research, contributing to the still-nascent field of digital humanities research in archival studies.
    參考文獻: Asllani, A., Halstead, D., & Taylor, V. A. (2020). A text mining investigation of the presence and emotional impact of religious language in service organizations' websites. Services Marketing Quarterly, 41(1), 68-87.
    Bernard, H. R. (2005). Review of The Development of Social Network Analysis: A Study in the Sociology of Science by Linton C. Freeman. Social Networks, 27(4), 377-384.
    Beliga, S., Meštrović, A., & Martinčić-Ipšić, S. (2015). An Overview of Graph-Based Keyword Extraction Methods and Approaches. Journal of Information and Organizational Sciences, 39(1), 1-20.
    Blake, C. (2011). Text mining. Annual Review of Information Science and Technology, 45(1), 121-155.
    Burdick, A., Drucker, J., Lunenfeld, P., Presner, T., & Schnapp, J. (2012, November). Digital_Humanities (Open Access eBook). MIT Press. Retrieved from https://doi.org/10.7551/mitpress/9780262312097.001.0001 (2023/12/03)
    Hassan Alhuzali, H., Tianlin Zhang, T., & Sophia Ananiadou, S. (2022). A comparative geolocation and text mining analysis of emotions and topics during the COVID-19 Pandemic in the UK. Journal of Medical Internet Research, 24(10), 1-16.
    King’s Department of Digital Humanities. Retrieved from https://www.kcl.ac.uk/ddh (2023/03/29).
    Kirschenbaum, Matthew G. (2010). "What is Digital Humanities and What's it Doing in English Departments?" (PDF). ADE Bulletin. No. 150. Retrieved from https://www.uvic.ca/humanities/english/assets/docs/kirschenbaum.pdf (2023/12/01).
    Li, P. H., Fu, T. J., & Ma, W. Y. (2020). Why Attention? Analyze BiLSTM Deficiency and Its Remedies in the Case of NER. Proceedings of the 34th AAAI Conference on Artificial Intelligence. Retrieved from https://arxiv.org/pdf/1908.11046 (2023/04/30).
    Pal, K., Avery, N., Boston, P., Campagnolo, A., De Stefani, C., Matheson-Pollock, H., Panozzo, D., Payne, M., Schüller, C., Sanderson, C., Scott, C., Smith, P., Smither, R., Sorkine-Hornung, O., Stewart, A., Stewart, E., Stewart, P., Terras, M., Walsh, B., Ward, L., Yamada, L., & Weyrich, T. (2017). Digitally reconstructing the Great Parchment Book: 3D recovery of fire-damaged historical documents. Digital Scholarship in the Humanities, 32(4), 887-917.
    Pang, B., & Lee, L. (2008). Opinion mining and sentiment analysis. Foundations and Trends in Information Retrieval, 2(1-2), 1-135.
    Pearce-Moses, R. (2005). A Glossary of Archival and Records Terminology. Chicago: The Society of American Archivists.
    POS tags. Sketch Engine. Lexical Computing. 2018-03-27. Retrieved from https://www.sketchengine.eu/blog/pos-tags/ (2023/12/01).
    Presner, T. (2010). HyperCities: Thick Mapping in the Digital Humanities. California: UCLA, Hypermedia Studio.
    Ray, B. (2022). The Salem Witch Trials Digital Archive: How and Why. Retrieved from https://salem.lib.virginia.edu/intro.html (2023/04/17)
    Segev, E. (2020). Textual network analysis: Detecting prevailing themes and biases in international news and social media. Sociology Compass, 14(4), https://doi.org/10.1111/soc4.12779
    Stanford University: Digital Humanities @ Stanford. Retrieved from https://digitalhumanities.stanford.edu/ (2023/03/25).
    Stagnaro, A. (2017, January 28). The Italian Jesuit Who Taught Computers to Talk to Us. National Catholic Register. Retrieved from https://www.ncregister.com/blog/the-italian-jesuit-who-taught-computers-to-talk-to-us (2023/12/01).
    Sullivan, Dan (2001). Document Warehousing and Text mining: Techniques for improving business operations, marketing and sales. New Jersey: John Wiley & Sons Inc.
    The Salem Witch Trials Documentary Archive and Transcription Project. Retrieved from https://salem.lib.virginia.edu/projectsupport.html (2023/04/17).
    Tracing London Convicts in Britain & Australia, 1780-1925. (2020). Retrieved from https://www.digitalpanopticon.org/ (2023/04/23).
    UCLA: HumTech. Retrieved from https://humtech.ucla.edu/ (2023/03/30).
    University of Virginia. (2023). The Institute for Advanced Technology in the Humanities. Retrieved from http://www.iath.virginia.edu/projects.html (2023/03/27).
    Van Le, D., James Montgomery, Kenneth C Kirkby, Joel Scanlan (2018). Risk Prediction using Natural Language Processing of Electronic Mental Health Records in an Inpatient Forensic Psychiatry Setting. Journal of Biomedical Informatics, 86, 49-58.
    Wasserman, S., & Faust, K. (1994). Social Network Analysis: Methods and Applications. New York: Cambridge University Press.
    Zanasi, A. (Editor) (2007). Text Mining and its Applications to Intelligence, CRM and Knowledge Management. Southampton: WIT Press.
    CKIP CoreNLP。標記列表。檢自:https://ckip.iis.sinica.edu.tw/service/corenlp/ (2023/07/15)。
    中央研究院(2023)。結合斷詞、詞性標記、實體辨識的中文處理套件(CkipTagger)。檢自:https://iptt.sinica.edu.tw/uploads/website/16/data_file/file/5271/05T-1081218-%E7%B5%90%E5%90%88%E6%96%B7%E8%A9%9E_%E8%A9%9E%E6%80%A7%E6%A8%99%E8%A8%98_%E5%AF%A6%E9%AB%94%E8%BE%A8%E8%AD%98%E7%9A%84%E4%B8%AD%E6%96%87%E8%99%95%E7%90%86%E5%A5%97%E4%BB%B6_CkipTagger_.pdf (2023/06/19)。
    中央研究院數位文化中心(2023)。首頁。檢自:https://ascdc.sinica.edu.tw/ (2023/03/20)。
    中央研究院歷史語言研究所(2023)。簡牘字典:史語所藏居延漢簡資料庫。檢自:https://wcd-ihp.ascdc.sinica.edu.tw/woodslip/index.php (2023/11/08)
    中研院數位人文研究平台(2021)。關於數位人文研究平台。檢自:https://dh.ascdc.sinica.edu.tw/member/ (2023/09/29)
    中國人民大學數字人文中心(2023)。首頁。檢自:http://dh.ruc.edu.cn/ (2023/03/12)。
    中國僑聯(2024)。國民政府保護華僑權益的嘗試—以二戰時期伊拉克海員華工案為例。檢自:http://www.chinaql.org/BIG5/n1/2024/0204/c420265-40172965.html(2024/4/19)
    中國歷代人物傳記資料庫(2023)。首頁。檢自:https://projects.iq.harvard.edu/chinesecbdb (2023/03/24)。
    王之五等人案(1947)。國家文化記憶庫。檢自:https://tcmb.culture.tw/zh-tw/detail?indexCode=drnh&id=020-011007-0001(2024/3/27)。
    王文隆(2013)。中國國民黨文化傳播委員會黨史館簡介。漢學研究通訊,128,28-32。
    王嵐霞、李高峰(2007)。內容分析法在圖書情報領域中的應用與展望。新世紀圖書館,2007(1),16-18。
    王麗蕉(2018)。數位檔案系統在人文研究的應用:以總督府職員錄系統觀察臺灣女力公職發展。圖資與檔案學刊,10(1),44-66。
    北京大學數字人文中心(2023)。首頁。檢自:https://pkudh.org/ (2023/03/17)。
    石建國(1998)。對皖南事變的另一種反應——《大公報》、《申報》有關報道評析。抗日戰爭研究,3。
    地理人車庫(2021)。高中生應該用甚麼GIS軟體做探究與實作?檢自:https://geographersgarage.blogspot.com/2021/03/gissoftwares.html (2024/01/17)
    吳承恩(2022)。檔案之自動化主題分類—以《總裁批簽》為例(未出版碩士論文)。政治大學圖書資訊與檔案學研究所,臺北市。
    吳齊般、莊庭瑞(2004)。超連結網絡分析:一項分析網路社會結構的新方法,資訊社會研究,6,127-148。
    宋雪雁、鐘文敏(2022)。數字人文視角下《譚延闿日記》人物關系挖掘及可視化研究。情報科學,06,25-35。
    抗日戰爭紀念網(2020)。新馬抗日英雄莊惠泉。檢自:https://www.krzzjn.com/show-1437-104360.html(2024/4/14)
    李世昌(1994)。功在黨國的李大超。檢自:http://tpwh.org.tw/new_page_88.htm(2024/4/18)
    李佐甌、章芷蕙、蒲沅東、李翰東(2022)。中文分詞和詞性標註。檢自:http://www.nlpir.org/wordpress/wp-content/uploads/2022/03/%E7%BB%8410-%E7%BB%88%E7%89%884.pdf (2023/06/18)。
    李育賢(2022)。網路論壇議論檔案事件主題及其情感傾向分析(未出版碩士論文)。政治大學圖書資訊與檔案學研究所,臺北市。
    李義敏、葉凱、余康、王俏涵(2022)。數字人文視域下魚鱗總圖的復原與數據庫建設—以晚清蘭溪縣城坊與湯溪縣寺平莊為例。檔案學通訊,06,96-102。
    杜若飛(2022)。基于數字技術的中國文化遺產保護與傳播—以敦煌莫高窟為例。科技與創新,2022(1),114-117。
    林巧敏(2022)。國立政治大學典藏中國國民黨檔案之整理與檢索服務。漢學研究通訊,41(2),33-39。
    林崑峯(2011)。全球人口移動之決定因素—引力模型與貿易網絡分析之應用(未出版碩士論文)。世新大學:臺北市。
    林富士(2017)。「數位人文學」白皮書。臺北:中央研究院數位文化中心。
    武漢大學數字人文中心(2023)。檢自:https://achieve.dhcn.cn/en/institutions_communities/institutions/1974.html (2023/03/11)。
    邵軒磊、曾元顯(2018),文字探勘技術輔助主題分析—以「中國大陸研究」期刊為例。問題與研究,57,29-62。
    金觀濤、劉青峰、邱偉雲(2019)。中國現代主權觀念形成的數位人文研究。二十一世紀,172,49-67。
    姜子金(2018)。劉翼凌生平故事。檢自:https://www.bdcconline.net/zh-hant/stories/liu-yiling(2024/5/1)
    洪智力、黃政華、鍾瑞嘉、陳良圃、楊秉哲(2016)。命名實體識別運用於產品同義詞擴增。The 2016 Conference on Computational Linguistics and Speech Processing。檢自:https://aclanthology.org/O16-1025.pdf (2023/05/19)。
    祝平次(2018)。全球化時代愈來愈醒目的「數位人文學」:爭議、現況與未來。檢自:https://www.thenewslens.com/article/88557/fullpage (2023/05/08)。
    翁稷安(2021)。「數位人文學」發展概述。2020年臺灣文學年鑑(頁3-6)。臺南:國立臺灣文學館。
    高勝寒、趙宇翔、朱慶華(2016)。 國內外數位人文領域研究進展分析。圖書館學雜誌,,38(10),9-18。
    張奕萱(2021)。運用數位人文工具進行網路論壇之檔案主題及情感探勘(碩士論文)。政治大學圖書資訊與檔案學研究所,臺北市。
    張華平、商建雲(2019)。NLPIR-Parser:大資料語義智慧分析平台。語料庫語言學,2019-6-1,87-104。
    郭乃華(2014)。中國古代法典及其事例之自動化整合—以乾隆朝《大清會典》為例(碩士論文)。臺灣大學資訊工程學系,臺北市。
    郭文平(2015)。字彙實踐、媒體再現、語料庫基礎分析、語料庫 驅動分析、經濟新聞文本分析運用研究。新聞學研究,125,95-142。
    陳光華、吳孟家(2022)。數位人文科學語彙之生成與使用。第九屆數位典藏與數位人文國際研討會論文集(頁147-172)。臺北:臺灣數位人文學會。
    陳志銘(2023)。數位時代的文本知識探勘:數位人文的發展與影響。檢自:https://www.tbmc.com.tw/event/TBMC2021/session03.pdf (2023/05/07)。
    陳良駒、傅振華、楊誌瑋(2010)。詞彙共現分析在中國大陸信息作戰領域發展之實證研究。中國大陸研究,53(2),111-145。
    陳冠至、陳柏溢、黃敬程(2017)。孰執牛耳?明代蘇州藏書家社群的數位人文解析。教育資料與圖書館學,55(3),243-284。
    陳是呈(2012)。吳鐵城的南洋之行:1940-1941在馬來亞。僑協雜誌,134, 34-38。
    傅文成(2020)。以語料庫分析方法檢驗新南向政策的政府與媒體風險建構策略。中華傳播學刊,37,189-226。
    湯雅媜(2020)。兩岸關係的紅色警戒:中共官媒訊息文字探勘,2018年1月至2020年9月(未出版碩士論文)。臺灣大學國家發展研究所,臺北市。
    童茵、張彬(2018)。董其昌數字人文項目的探索與實踐。中國博物館,4,114-118。
    開放博物館(2023)。數位人文學與簡牘研究:文字釋讀與簡冊復原。檢自:https://openmuseum.tw/muse/curation/a54bb27fd85d3991e917622a383fa0f7 (2023/04/18)。
    項潔、薛弼心(2018)。科技部「數位人文推廣計畫」概述。人文與社會科學簡訊,19(2),86-92。
    項潔編(2011)。從保存到創造:開啟數位人文研究。臺北:國立臺灣大學出版中心。
    項潔編(2014)。數位人文研究與技藝。臺北:國立臺灣大學出版中心。
    黃予祈(2019)。「臺灣音樂群像資料庫」人物社會網絡研究(未出版碩士論文)。臺灣師範大學圖書資訊研究所,臺北市。
    楊立公、朱儉、湯世平(2013)。文本情感分析綜述。計算機應用,33(6),1574-1578。
    楊孝嶸(1979)。傳播經濟學。臺北:聯經出版社。
    溫叔萱資料(2004)。鶴山市人民政府網。檢自:https://www.heshan.gov.cn/zjhs/rwhsygd/lsmrygd/content/post_1182893.html(2024/4/28)
    葉韋君(2019)。後五四時期的知識婦女:《婦女共鳴》的社會網絡(1929-1944)。近代中國婦女史研究,33(6),113-162。
    廖文碩(2022)。另一種戰爭:1942年國民政府對英屬緬甸的政治情蒐及宣傳。成大歷史學報,63,111-145。
    福建省僑聯會(2023)。華僑旗幟民族光輝:愛國僑領陳嘉庚。檢自:http://fjsql.fqworld.org/qjfc/86467.jhtml(2024/4/23)
    臺灣大學數位人文中心(2023)。檢自:http://www.digital.ntu.edu.tw/ (2023/03/20)。
    臺灣大學數位人文研究中心(2018)。Docusky工具使用手冊。檢自:https://docusky.org.tw/Document/User/DocuSkyGuideline.pdf (2023/08/05)。
    臺灣數位人文學會(2023)。臺灣數位人文學會簡介。檢自:http://tadh.org.tw/ (2023/03/20)。
    劉苑如、羅珮瑄、邱琬淳(2022)。歷代僧傳疾病敘述的數位研究—從僧人壽考談起。中國文哲研究通訊,30(2),5-29。
    劉健清、王家典、徐梁伯主編(1992)。中國國民黨史。南京:江蘇古籍出版社。
    劉維開(1996)。中國國民黨中央委員會黨史委員會藏會議史料的內容與運用。海峽兩岸檔案暨微縮學術交流會論文集(頁95-112)。臺北:中華檔案暨資訊微縮管理學會。
    中央研究院歷史語言研究所(2014)。數位人文推動計畫---「數位人文學」白皮書研訂計畫。臺北市:科技部專題研究計畫。檢自:https://www.grb.gov.tw/search/planDetail?id=8255556
    歐用生(1989)。質的研究。臺北:師大書苑。
    蔡永橙、黃國倫、邱志義等(2007)。數位典藏技術導論。臺北市:台大出版中心。
    蔡迎春(2018)。特色資源建設中的數字人文應用進展研究—基于國內數字人文相關項目及實踐案例。圖書館建設,7,18-24。
    蔡瑜方(2004)。中文斷詞與詞類標記系統簡介。檢自:https://linganchor.sinica.edu.tw/data/file/LC040906LC03.pdf (2023/05/17)。
    鄧志松、郭迺鋒、林崑峯(2011)。國父行腳之空間分佈與社會網絡分析之應用。地理資訊系統季刊,5(3),19-23。
    賴至慧(2022)。社會網絡分析傳播科技領域的應用與發展。資訊社會研究,43,19-24。
    檔案管理局(2002)。檔案管理名詞彙編。臺北:檔案管理局。
    薛理桂(2012)。揭開檔案的神秘面紗:後典藏時代的檔案推廣與應用。全國新書資訊月刊,101(5),48-49。
    謝培屏(2008)。1945年泰國軍警槍殺華僑事件。國史館學術集刊,(16),135-178。
    簡廷屹(2021)。國軍參謀本部之研究(1917年至1946年)(未出版碩士論文)。淡江大學歷史學研究所,新北市。
    闕河嘉、陳光華(2016)。庫博中文獨立語料庫分析工具之開發與應用。在項潔(主編),數位人文:在過去、現在和未來之間(頁286-313)。臺北:國立臺灣大學出版中心。
    魏韡、向陽、陳千(2011)。中文文本情感分析綜述。計算機應用,12,3321-3323。
    描述: 碩士
    國立政治大學
    圖書資訊與檔案學研究所
    111155012
    資料來源: http://thesis.lib.nccu.edu.tw/record/#G0111155012
    数据类型: thesis
    显示于类别:[圖書資訊與檔案學研究所] 學位論文

    文件中的档案:

    档案 大小格式浏览次数
    501201.pdf7481KbAdobe PDF0检视/开启


    在政大典藏中所有的数据项都受到原著作权保护.


    社群 sharing

    著作權政策宣告 Copyright Announcement
    1.本網站之數位內容為國立政治大學所收錄之機構典藏,無償提供學術研究與公眾教育等公益性使用,惟仍請適度,合理使用本網站之內容,以尊重著作權人之權益。商業上之利用,則請先取得著作權人之授權。
    The digital content of this website is part of National Chengchi University Institutional Repository. It provides free access to academic research and public education for non-commercial use. Please utilize it in a proper and reasonable manner and respect the rights of copyright owners. For commercial use, please obtain authorization from the copyright owner in advance.

    2.本網站之製作,已盡力防止侵害著作權人之權益,如仍發現本網站之數位內容有侵害著作權人權益情事者,請權利人通知本網站維護人員(nccur@nccu.edu.tw),維護人員將立即採取移除該數位著作等補救措施。
    NCCU Institutional Repository is made to protect the interests of copyright owners. If you believe that any material on the website infringes copyright, please contact our staff(nccur@nccu.edu.tw). We will remove the work from the repository and investigate your claim.
    DSpace Software Copyright © 2002-2004  MIT &  Hewlett-Packard  /   Enhanced by   NTU Library IR team Copyright ©   - 回馈