政大機構典藏-National Chengchi University Institutional Repository(NCCUR):Item 140.119/141613
English  |  正體中文  |  简体中文  |  Post-Print筆數 : 27 |  Items with full text/Total items : 113451/144438 (79%)
Visitors : 51302328      Online Users : 910
RC Version 6.0 © Powered By DSPACE, MIT. Enhanced by NTU Library IR team.
Scope Tips:
  • please add "double quotation mark" for query phrases to get precise results
  • please goto advance search for comprehansive author search
  • Adv. Search
    HomeLoginUploadHelpAboutAdminister Goto mobile version
    Please use this identifier to cite or link to this item: https://nccur.lib.nccu.edu.tw/handle/140.119/141613


    Title: 文本探勘工具運用於檔案自動化主題分類之研究 ─以《總裁批簽》檔案為例
    The Application of Text Mining Tools to the Automatic Subject Classification of Archives:Taking The ";President’s Approval";Archives for Example
    Authors: 吳承恩
    Wu, Cheng-En
    Contributors: 林巧敏
    Lin, Chiao-Min
    吳承恩
    Wu, Cheng-En
    Keywords: 自動歸類
    總裁批簽
    數位人文
    檔案主題分類
    Automatic Clustering
    President’s Approval
    Digital Humanities
    Subject Classification of Archives
    Date: 2022
    Issue Date: 2022-09-02 14:59:11 (UTC+8)
    Abstract: 如何結合科技進行資料的整理,是現今典藏機構面臨的難題之一,本研究嘗試從人文研究者的角度,探討檔案資料運用文本探勘工具進行自動化主題分類的可行性。本研究首先經由文獻探討釐清自動化主題分類技術發展脈絡,並考量單一自動分類方法的侷限,擇選「CATAR」及「階層式主題分析工具」等相異工具,對《總裁批簽》檔案進行主題概念擷取與分類。經由兩種工具實施經驗與產出結果的比較,並結合歷史、圖書檔案之專家學者針對工具產出結果的人工檢證及深度訪談,提出相關改善方式與建議。
    研究結果顯示,經由工具所擷取之《總裁批簽》主題概念,與其職能脈絡具有密不可分的聯繫,此外憑藉工具迅速、大量且相對客觀的特性,不僅可協助人工對檔案內容有結構性的了解,以進行分類編案等實務工作,同時結合視覺化技術及各式輔助資訊的參考,相關的運用範圍更可遍及檔案研究出版、策展選件等加值應用工作。然而,由於工具對於辭彙以及主題概念的理解與人工並不相同,因此在使用工具上,人為的參與仍不可或缺,尤其是辭彙的整理,如權威控制或者長名詞詞庫的建置,皆對於工具歸類成效具有正面的影響。
    This study attempts to investigate the feasibility of using text mining tools s for automated subject classification of archives from the perspective of a humanities researcher. This study first clarifies the development of automated subject classification techniques through literature research, and considers the limitations of a single automatic classification method. This study first clarifies the development of automatic topic classification technology through literature research, and considers the limitations of a single automatic classification method, and selects different tools such as "CATAR" and "Hierarchical Topic Analysis Tool" to retrieve and classify the topic concepts of " President’s Approval " archives. After comparing the implementation experience and results of the two tools, and combining the manual verification and in-depth interviews with experts in history and library archives, we propose relevant improvement methods and recommendations.
    The results of the study show that the concept of the "President’s Approval" extracted by the tool is inextricably linked to its functional context. In addition, with the tool`s rapid, voluminous, and relatively objective characteristics, it not only helps human beings to have a structural understanding of the content of the archives for practical work such as classification and cataloging, but also combines visualization technology and various kinds of auxiliary information for reference, which can be used in a wide range of archival research. The application can be applied to archival research, publication, curatorial selection, and other value-added applications. However, since the tools do not have the same understanding of vocabulary and thematic concepts as human beings, human involvement is still indispensable in using the tools, especially in the organization of vocabulary, such as authority control or the establishment of a long-name thesaurus, which have a positive impact on the categorization effectiveness of the tools.
    Reference: 王祥安,李祐陞(2021)。中央研究院數位人文研究平台之發展與應用。數位典藏與數位人文,7 ,99-131。
    中央通訊社(2020年4月24)。促轉會:國民黨總裁批簽檔案 完成點收。檢自:https://www.cna.com.tw/news/aipl/202004240355.aspx。檢索日期:2021年7月16日。
    江玉婷、陳光華(1999)。TREC現況及其對資訊檢索研究之影響。圖書與資訊學刊,29,36-59。
    汪耀華(2011)如何利用文獻探勘技術分析全國碩博士論文──以「學習歷程檔案」為例。自由軟體與教育科技研討會論文集,3,1-8。
    宋立垚、吳可久(2010)。由宏觀鑑定觀點檢視1949-2000年都市建設類國家檔案之主題分類。教育資料與圖書館學,47(4),459-497。
    杜協昌(2018)。DocuSky:個人文字資料庫的建構與分析平臺。數位典藏與數位人文,2,71-90。
    李清福、陳志銘、曾元顯(2013)。數位學習領域主題分析之研究。教育資料與圖書館學,50(3),319-354。
    李龍豪、簡佑達、張俊彥、李宗諺、曾元顯(2016)。短文回應的主題自動歸類在行動教育活動上之應用初探。圖書資訊學研究,11(1),47-84。
    何偲佑(2020)。數位人文研究平台之階層式主題分析工具發展與應用〔未出版之碩士論文〕。國立政治大學圖書資訊與檔案學研究所,臺北市。
    林巧敏(2003)。二二八事件檔案資訊網目錄使用調查研究。中國圖書館學會會報,70,147-164。
    林巧敏(2015)。檔案使用調查與案例分析。五南圖書出版。
    林巧敏(2012)。檔案應用服務。文華圖書出版。
    林果顯(2013年11月22日)。從總裁批簽看國民黨的對外宣傳。「新史料、新視野:總裁批簽與戰後中華民國史研究」學術研討會,臺北市,臺灣。
    邵軒磊、曾元顯(2018)。文字探勘技術輔助主題分析—以「中國大陸研究」期刊為例。問題與研究,57(1),29-62。
    邵銘煌、薛化元主編(2005)。蔣中正總裁批簽檔案目錄。國立政治大學歷史系、中國國民黨黨史館。
    邱詩雯(2018)。《史記》作者數位化研究初探─以三十世家虛字字頻為例。數位典藏與數位人文,2,49-69。
    洪一梅、曹德啟(2020)。從 DocuSky 談 Metadata 在數位人文研究中的設計與運用:以佛教石刻題記為範例材料。數位典藏與數位人文,5,117-153。
    胡其瑞、杜協昌、陳琤(2019)。數位文本詮釋資料的加值與應用─以DocuSky詮釋資料整合建庫工具為例。數位典藏與數位人文,4,71-107。
    胡其瑞(2020)。DocuSky 與民間故事型態分析。數位典藏與數位人文,6,37-67。
    郝志揚(2017)。使用文字探勘實作新聞事件追蹤用〔未出版之碩士論文〕。淡江大學資訊工程系,新北市。
    原友蘭、曾元顯、何昶鴛(2019)。運用自動內容分析技術探析觀光與旅遊領域研究主題與趨勢。戶外遊憩研究,32(1),1-32。
    郭知晴(2020)。自動化輔助主題分析臺灣明代研究之學位論文著作特性[未出版之碩士論文]。國立政治大學圖書資訊與檔案學研究所,臺北市。
    郭俊桔(2018)。使用多元決策略之圖書自動分類的研究。圖書資訊學研究,13(1),87-124。
    張玉華(2003)。從檔案整理原則談國家檔案之分類。檔案,2(1),44-56。
    陳信源、葉鎮源、林昕潔、黃明居、柯皓仁、楊維邦(2009)。結合支援向量機與詮釋資料之圖書自動分類方法。資訊科技國際期刊,3(1),2-21。
    陳淑貞(2010)。以自動化主題分析探索免疫學領域研究主題之發展〔未出版之碩士論文〕。國立師範大學圖書資訊學研究所,臺北市。
    陳嘉翔(2010)。清代臺灣行政檔案文件自動分類至歷史事件〔未出版之碩士論文〕。國立臺灣大學資訊工程學研究所。
    陳漢文(2021)。論宋白(936–1012)〈宮詞〉百首的字詞運用及其文學意義。數位典藏與數位人文,7,1-36。
    莊萬慶(2006)。標籤樹於文件檢索後分類與呈現之運用-以古文書為例〔未出版之碩士論文〕。國立臺灣大學資訊工程學研究所,臺北市。
    張文熙(2008)。我國檔案知識庫建置之檢討。檔案,7(1),44-57。
    國立臺灣大學圖書館(2021)。「中國國民黨史料資料庫」使用方式。撿自:http://www.lib.ntu.edu.tw/node/679,檢索日期:2021年7月16日。
    國家教育研究院(2012)。雙語詞彙、學術名詞暨辭書資訊網──文本探勘text mining。檢自:http://terms.naer.edu.tw/detail/1679014/。檢索日期:2021年8月4日。
    湯秋蓉(2009)。自動化主題分析於圖書資訊領域之應用〔未出版之碩士論文〕。國立師範大學圖書資訊學研究所,臺北市。
    曾元顯(2002)。文件自動分類成效因素探討。中國圖書館學會會報,68,62-83。
    曾元顯(2011)。文獻內容探勘工具─CATAR之發展與應用。圖書館學與教育科學,37(1),31-49。
    曾元顯、林瑜一(2011)。內容探勘技術在教育評鑑研究發展趨勢分析之應用。教育科學研究期刊,56(1),1-32。
    曾元顯(2014)。自動化資訊組織與主題分析近二十年來的研究與發展。教育資料與圖書館學,51(特刊),3-26。
    項潔、涂豐恩(2011)。什麼是數位人文。在項潔編,從保存到創造:開啟數位人文研究(9-28)。臺北市:臺大出版中心。
    黃筠芝(2020)。檔案主題新聞之數位人文研究。〔未出版之碩士論文〕。國立政治大學圖書資訊與檔案學研究所,臺北市。
    鄭彥棻(1978)。往事憶述。傳記文學出版社。
    鄭惠珍(2016)。分類理論在權威控制的應用─以VIAF人名權威紀錄為例。國家圖書館館刊,105(2),147-170。
    蔣以仁(2009)。運用文本探勘建置九二一地震數位檔案知識庫。檔案,8(3),44-67。
    蔡宗勳(2013)。基於中國餐廳過程之在線學習方法〔未出版之碩士論文〕。國立交通大學資訊科學與工程研究所。
    劉振隆、李懿巡(2020)。以環境適應值為基礎之鯨魚演算法應用於肝病資料集分類。管理資訊計算,9(特刊1),28-39。
    劉維開(1994)。中國國民黨職名錄/劉維開編輯(初版)。中國國民黨中央委員會黨史委員會。
    劉維開(2013年11月22日)。《蔣中正總裁批簽檔案目錄》編輯經過。「新史料、新視野:總裁批簽與戰後中華民國史研究」學術研討會,臺北市,臺灣。
    盧家慶(2007)。臺灣古契書自動分類與依分類定義契書角色〔未出版之碩士論文〕。國立臺灣大學資訊工程學研究所,臺北市。
    蕭屹灵(2008)。日治法院檔案系統及其後分類呈現〔未出版之碩士論文〕。國立臺灣大學資訊網路與多媒體研究所,臺北市。
    謝心妤(2019)。圖書館之多層式圖書自動分類系統之實證研究〔未出版之碩士論文〕。國立中興大學圖書資訊學研究所,臺中市。
    BinMakhashen, G. M., & Mahmoud, S. A. (2020). Historical document layout analysis using anisotropic diffusion and geometric features. International Journal on Digital Libraries, 21(3), 329–342. https://doi-org.autorpa.lib.nccu.edu.tw/10.1007/s00799-020-00280-w
    Chae, G., Park, J., Park, J., Yeo, W. S., & Shi, C. (2016). Linking and clustering artworks using social tags: Revitalizing crowd-sourced information on cultural collections. Journal of the Association for Information Science & Technology, 67(4), 885–899. https://doi-org.autorpa.lib.nccu.edu.tw/10.1002/asi.23442
    Chang, Y.H., Chang, C.Y., & Tseng, Y.H. (2010). Trends of Science Education Research: An Automatic Content Analysis. Journal of Science Education and Technology, 19(4), 315-331.
    Blei, D.M., Ng, A,Y.,& Jordan, M.I(2003). Latent Dirichlet allocation. Journal of MachineLearning Research. Retrieved from : https://dl.acm.org/doi/10.5555/944919.944937.
    Duoduo, X., Dean, K., Bingenheimer, M., & Bond, F. (2020). Chinese singaporean temples: digital humanities approaches to frequency lists of sponsors. Journal of Digital Archives and Digital Humanities,5, 37-71. doi:10.6853/DADH.202004_(5).0002
    Chung, E., Miksa, S.,& Hastings, S. K. (2010). A framework of automatic subject term assignment for text categorization: An indexing conception-based approach. Journal of the American Society for Information Science & Technology, 61(4),688–699. https://doi-org.autorpa.lib.nccu.edu.tw/10.1002/asi.21272
    Garner, S.R.(1995),WEKA: The Waikato Enviroment for Knowledge Analysis. New Zealand Computer Science Research Students Conference, Hamilton, NewZealand.https://www.cs.waikato.ac.nz/~ml/publications/1995/Garner95-WEKA.pdf
    Mühling, M., Meister, M., Korfhage, N., Wehling, J., Hörth, A., Ewerth, R., & Freisleben, B. (2019). Content-based video retrieval in historical collections of the German Broadcasting Archive. International Journal on Digital Libraries, 20(2), 167–183. https://doi-org.autorpa.lib.nccu.edu.tw/10.1007/s00799-018-0236-z
    Tseng, Y.H., & Tsay, M.Y. (2013). Journal clustering of library and information science for subfield delineation using the bibliometric analysis toolkit: CATAR. Scientometrics, 95(2), 503 -528.
    Tseng, Y.H., Chang, C.Y., Tutwiler, M. S., Lin, M.C., & Barufaldi, J. P. (2013). A scientometric analysis of the effectiveness of Taiwan’s educational research projects. Scientometrics, 95(3), 1141-1166.
    Tseng, Y.H. (2020). The Feasibility of Automated Topic Analysis: An Empirical Evaluation of Deep Learning Techniques Applied to Skew-Distributed Chinese Text Classification. Journal of Educational Media & Library Science, 57(1), 121-144.
    Yuan, Y., Gretzel, U., & Tseng, Y.H. (2014). Revealing the Nature of Contemporary Tourism Research: Extracting Common Subject Areas through Bibliographic Coupling. International Journal of Tourism Research, 17(5), 417-431.
    Yuan, Y. Y., Tseng, Y.H., & Chang, C.Y. (2014). Tourism subfield identification via journal clustering. Annals of Tourism Research, 47, 77-80.
    Description: 碩士
    國立政治大學
    圖書資訊與檔案學研究所
    109155009
    Source URI: http://thesis.lib.nccu.edu.tw/record/#G0109155009
    Data Type: thesis
    DOI: 10.6814/NCCU202201290
    Appears in Collections:[Graduate Institute of Library, Information and Archival Studies] Theses

    Files in This Item:

    File Description SizeFormat
    500901.pdf9643KbAdobe PDF20View/Open


    All items in 政大典藏 are protected by copyright, with all rights reserved.


    社群 sharing

    著作權政策宣告 Copyright Announcement
    1.本網站之數位內容為國立政治大學所收錄之機構典藏,無償提供學術研究與公眾教育等公益性使用,惟仍請適度,合理使用本網站之內容,以尊重著作權人之權益。商業上之利用,則請先取得著作權人之授權。
    The digital content of this website is part of National Chengchi University Institutional Repository. It provides free access to academic research and public education for non-commercial use. Please utilize it in a proper and reasonable manner and respect the rights of copyright owners. For commercial use, please obtain authorization from the copyright owner in advance.

    2.本網站之製作,已盡力防止侵害著作權人之權益,如仍發現本網站之數位內容有侵害著作權人權益情事者,請權利人通知本網站維護人員(nccur@nccu.edu.tw),維護人員將立即採取移除該數位著作等補救措施。
    NCCU Institutional Repository is made to protect the interests of copyright owners. If you believe that any material on the website infringes copyright, please contact our staff(nccur@nccu.edu.tw). We will remove the work from the repository and investigate your claim.
    DSpace Software Copyright © 2002-2004  MIT &  Hewlett-Packard  /   Enhanced by   NTU Library IR team Copyright ©   - Feedback