Loading...
|
Please use this identifier to cite or link to this item:
https://nccur.lib.nccu.edu.tw/handle/140.119/153121
|
Title: | 資料探勘在國家檔案館藏發展之應用 Application of Data Mining in Collection Development of National Archives |
Authors: | 丁右浚 Ting, Yu-Chun |
Contributors: | 林巧敏 Lin, Chiao-Min 丁右浚 Ting, Yu-Chun |
Keywords: | 檔案新聞 國家檔案 數位人文 資料探勘 檔案館藏發展 Archival News National Archives Digital Humanities Data Mining Collection Development of National Archives |
Date: | 2024 |
Issue Date: | 2024-09-04 13:54:34 (UTC+8) |
Abstract: | 檔案是社會發展的歷史紀錄,也是國家及民族的共同記憶,因此國家檔案的典藏主題應包含不同時空背景下,公眾所關注之檔案議題,如此才能發揮檔案保存集體歷史記憶之功能。本研究採用資料探勘之方式,分析檔案主題新聞,藉以了解公眾媒體所關注之檔案主題;並將結果與國家檔案館藏資料及國家檔案使用者意見進行比對。 本研究以「UDN聯合新聞網」及「自由時報電子報」為研究對象,共蒐集1,608篇檔案主題相關新聞,以CORPRO庫博中文獨立語料庫分析系統及CKIP CoreNLP系統進行資料前處理,並輔以國家檔案資訊網,將資料透過權重計算轉換成國家檔案館藏主題類目,並與國家檔案館藏主題典藏量及國家檔案使用者意見進行比較分析。 研究結果顯示,「資料探勘結果」、「國家檔案館藏發展主題」及「國家檔案使用者意見」三者在各檔案類目的比例分布有明顯之不同,並沒有一致性。而觀察近10年的國家檔案館藏主題發展趨勢,可以觀察到國家檔案館藏各主題類目增加數量之比例不平均,幾乎每年都有特定類目占比較高之情形。 Archives are historical records of social development and the collective memory of a nation and its people. Therefore, the themes of national archives should include issues concerning the public across different time periods and backgrounds. Only in this way can the function of archives in preserving collective historical memory be fully realized. This study employs data mining techniques to analyze archival-themed news to understand the themes of archives that attract public media attention. The results are then compared with the data from the National Archives collections and the opinions of national archives users. This study uses "UDN News" and "Liberty Times Net" as research subjects, collecting a total of 1,608 pieces of archival-themed news. Data preprocessing was conducted using the CORPRO System and the CKIP CoreNLP system. The data were further processed through the National Archives Access service, converting the data into national archives categories through weight calculation, and then comparing these with the National Archives collection data and the opinions of national archives users. The results show that there are significant differences in the proportional distribution of "data mining results," "themes of National Archives collection development," and "opinions of national archives users" across various archive categories, indicating a lack of consistency. Observing the development trend of the National Archives collection over the past decade, it is evident that the proportional increase in various categories of the National Archives collection is uneven, with certain categories having a higher proportion almost every year. |
Reference: | Ani Nenkova., & Kathleen McKeown. (2011). Automatic Summarization. Now Publishers Inc. Anne Burdick. (2012). Digital Humanities. MIT Press. Berry, J.A., & Linoff, G. (2001). Data Mining Techniques: For Marketing Sales, and Relationship Management (2nd ed.). John Wiley & Sons Inc. Bing Liu. (2012). Sentiment Analysis and Opinion Mining. Springer Cham. Charles L. Wayne. (2000, November). Topic Detection and Tracking in English and Chinese. Fifth International Workshop on Information Retrieval with Asian Languages, Hong Kong, China. CKIP Lab. (2024). CKIP Lab Chinese Knowledge and Information Processing. Acdemia Sinica. https://ckip.iis.sinica.edu.tw/ Cook, T. (2011). Evidence, Memory, Identity, and Community: Four Shifting Archival Paradigms. Archival Science, 11(1-2), 7-21. Divakar Yadav., Jalpa Desai., & Arun Kumar Yadav. (2022). Automatic Text Summarization Methods: A Comprehensive Review. arXiv.org. https://arxiv.org/abs/2204.01849 Dragomir R. Radev., Eduard Hovy., & Kathleen McKeown. (2002). Introduction to the Special Issue on Summarization. Computational Linguistics, 28(4), 399-408. George W. Bain., John A. Fleckner., Kathy Marquis., & Mary Jo Pugh. (2011). Reference, Access, and Outreach: An Evolved Landscape, 1936-2011. The American Archivist, 74, 1-40. Grimmer, J., & Stewart, B. M. (2013). Text as Data: The Promise and Pitfalls of Automatic Content Analysis Methods for Political Texts. Political Analysis, 21(3), 267–297. Han, J., Kamber, M., & Pei, J. (2011). Data mining: concepts and techniques. Elsevier. Johanna Drucker., David Kim., Iman Salehian., & Anthony Bushong. (2014). Introduction to Digital Humanities. UCLA Center for Digital Humanities. Lihyun Lin. (2023, June 14). Digital News Report 2023 – Taiwan. Digital News Report 2023. https://reutersinstitute.politics.ox.ac.uk/digital-news-report/2023/taiwan Madjid Khalilian., & Shiva Hassanzadeh. (2019). Document Classification Methods. arXiv.org. https://arxiv.org/abs/1909.07368 Manning, C. D., Raghavan, P., & Schütze, H. (2008). Introduction to Information Retrieval. Cambridge University Press. Marti A. Hearst. (1999, June). Untangling Text Data Mining. 37th Annual Meeting of the Association for Computational Linguistics, University of Maryland, United States. McCombs, M. E., & Shaw, D. L. (1972). The Agenda-Setting Function of Mass Media. Public Opinion Quarterly, 36(2), 176-187. Phillips, F. (1984). Developing collecting policies for manuscript collections. The American Archivist, 47, 30-42. Robert Gaizauska., & Yorick Wilks. (1998). Information Extraction Beyond Document Retrieval. International Journal of Computational Linguistics and Chinese Language Processing, 3(2), 17-60. Rui Xu. (2005). Survey of Clustering Algorithms. IEEE Transactions on Neural Networks, 16(3), 645-678. Simon Kemp. (2022, February). DIGITAL 2022: TAIWAN. https://datareportal.com/reports/digital-2022-taiwan Sullivan, A. (2001). Cultural capital and educational attainment. Sociology, 35(4), 893-912. Sunita Sarawagi. (2008). Information Extraction. Now Publishers Inc. Susan Schriebman., Ray Siemens., & John Unsworth. (2004). A Companion to Digital Humanities. Blackwell. Zete Sonali Sahebrao., Rajole Rohini Vasant., Deshmukh Shital Pramod., & Tile Swati Bhaskar. (2015). Content And Featured Based Document Clustering. Journal of Emerging Technologies and Innovative Research, 2(3), 813-818. 王亭歡(2019)。非洲豬瘟新聞報導內容分析之研究-以自由時報與中國時報為例。休閒產業與健康促進學術研討會,85-103。 王釗東(2017)。以大數據探究財經新聞對臺灣股票市場表現之影響(未出版之碩士論文)。國立臺灣大學新聞研究所,台北市。 王麗蕉(2002)。論檔案徵集。東吳大學圖書館通訊,16,1-19。 世新大學新聞傳播學院(2022年4月23日)。2022臺灣媒體可信度與影響力調查。世新大學新聞傳播學院。 全國法規資料庫(2008)。檔案法。全國法規資料庫。https://law.moj.gov.tw/LawClass/LawAll.aspx?pcode=A0030134 余清祥、葉昱廷(2020)。以文字探勘技術分析臺灣四大報文字風格。數位典藏與數位人文,6,69-96。 吳怡瑾、方友杉、喻欣凱(2009)。運用文件分群與概念關聯分析技術協助網誌瀏覽:任務導向評估方法。圖書資訊學研究,4(1),133-164。 呂敏源(2007)。運用分群演算法之關係式網頁推薦系統(未出版之碩士論文)。淡江大學資訊工程學系碩士班。 李育賢(2022)。網路論壇議論檔案事件主題及其情感傾向分析(未出版之碩士論文)。國立政治大學圖書資訊與檔案學研究所。 李淑惠(2014)。運用文字探勘技術於口碑分析之研究(未出版之碩士論文)。東吳大學資訊管理學系。 周宗霈(2007)。結合文件分類及分群之術語組織技術(未出版之碩士論文)。國立臺灣大學資訊管理學研究所。 林巧敏 (2015)。國家檔案館藏使用分析及其使用者意見調查。圖書資訊學研究,9 (2),111-148。 林巧敏(2006)。檔案館藏發展文獻心得分享,檔案與微縮,82,32-39。 林巧敏、李育賢(2023)。臺灣網路論壇關注之檔案事件主題及其情感分析。圖書資訊學研究,17(2),71-107。 林柏宇、謝邦昌、廖佩珊(2016)。基於Python之文字探勘平臺。Journal of Data Analysis,11(6),35-61。 林秋燕、陸雯玉(2018)。我國首座國家檔案館規劃歷程與建設方向。檔案半年刊,17(1),4-27。 侯貫中(2017)。資料視覺化在社群媒體平台主題偵測與追蹤的應用(未出版之碩士論文)。國立中央大學資訊管理學系。 施伯燁(2017)。數位時代的人文研究:數位人文發展沿革、論辯與組織概述。南華社會科學論叢,(3),3-20。 翁稷安(2021)。「數位人文學」發展概述。2020年臺灣文學年鑑,3-6。 財團法人臺灣網路資訊中心(2023)。2023臺灣網路報告。2023臺灣網路報告。https://report.twnic.tw/2023/ 郝志揚(2017)。使用文字探勘實作新聞事件追蹤(未出版之碩士論文)。淡江大學資訊工程學系碩士班。 國立臺大圖書館參考服務部落格(2010)。查詢新聞報紙應使用那些資料庫?。常問問題 FAQs。http://web.lib.ntu.edu.tw/question//node/45 國家發展委員會檔案管理局(2023年7月7日)。國家檔案開放應用辦理情形報告。國家發展委員會檔案管理局。https://www.archives.gov.tw/Publish.aspx?cnid=100546 國家發展委員會檔案管理局(2024年3月11日)。國家發展委員會檔案管理局典藏國家檔案主要類別之內容大要。典藏數量及內容大要。https://www.archives.gov.tw/Publish.aspx?cnid=1466 國家發展委員會檔案管理局(2024年4月1日)。國家發展委員會檔案管理局—國家檔案資訊網。檔案資源整合查詢平台。https://across.archives.gov.tw/naahyint/intro.jsp?id=DB3164 張勝富、侯舜仁、鄭宇森、陳永昇(2017)。以詞彙相似度為基礎運用深度學習之個人化新聞推薦系統。TANET2017臺灣網際網路研討會,66-71。 陳光華(1997)。資訊的組織與擷取。圖書館學刊,12,127-141。 陳志銘(2018)。序言。圖資與檔案學刊,92,i。 陳昭妤(2018)。人工智慧自動文本摘要研究(未出版之碩士論文)。淡江大學資訊管理學系碩士班。 陳柏溢、陳冠至(2021)。清代紹興府藏書家之社會網絡分析。圖資與檔案學刊,98,83-131。 陳群凱(2023)。以文字探勘方法預測假新聞-以烏俄戰爭為例(未出版之碩士論文)。國立成功大學工程科學系碩士在職專班。 陶治中、簡睿志(2016)。三元決策理論應用於社群媒體挖掘之情感分析-以UBER在臺營運話題為例。運輸計劃季刊,45(4),301-330。 彭逸帆、白璧玲、薛化元、劉昭麟(2022)。數位人文「文本空間化」的實證研究:以詩歌、傳記、日記為例。數位典藏與數位人文,10,96-137。 曾元顯(2002)。文件主題自動分類成效因素探討。中國圖書館學會會報,68,62-83。 項潔(編)(2011)。從保存到創造:開啟數位人文研究。國立臺灣大學出版中心。 項潔、涂豐恩(2011)。導論—什麼是數位人文。從保存到創造:數位人文研究的發端,9-28。 項潔、陳麗華 (2014)。數位人文--學科對話與融合的新領域。數位人文研究與技藝,11-12。 黃相瑋、廖偉成(2023)。運動新聞之社會學議題探討-以2022世界盃足球賽事為例。嘉大體育健康休閒期刊,22(2),44-72。 黃筠芝(2020)。檔案主題新聞之數位人文研究(未出版之碩士論文)。國立政治大學圖書資訊與檔案學研究所。 劉吉軒(2016)。大數據分析與人文社會科學跨領域研究應用。傳播文化,15,4-46。 劉佳琳(2002)。我國歷史檔案館館藏發展政策訂定之研究(未出版之碩士論文)。國立政治大學圖書資訊與檔案學研究所。 劉苑如、蔡秉霖、邱琬淳、謝獻誼(2023)。遊方與佛教傳播:歷代僧傳移動與空間的數位人文研究。數位典藏與數位人文,11,1-49。 劉苑如、羅珮瑄、邱琬淳、陳雅琳(2019)。魏晉南北朝筆記小說疾病文本的細讀與遠讀。清華中文學報,22,49-115。 鄭文惠、邱偉雲(2019)。數位人文視野下近代中國「新/舊」話語的交鋒與激辯。清華中文學報,22,173-246。 鄭伃庭(2022)。以文字探勘方法檢視社群網站使用者之態度與意見:以流感疫苗為例(未出版之碩士論文)。國立臺灣師範大學圖書資訊學研究所。 黎彥彣(2019)。基於多方面的情感分析模型之共同處理方法(未出版之碩士論文)。國立臺灣科技大學電機工程系。 薛理桂(2004)。檔案學導論。五南出版社。 鍾雪珍、薛理桂(2014)。集體記憶之保存與創新-以新加坡國家檔案館為例。檔案半年刊,13(4),34-45。 韓怡臻、柯皓仁(2021)。應用自動文字探勘於臺灣中文饒舌音樂歌詞之研究。數位典藏與數位人文,8,1-41。 闕河嘉(2019)。庫博中文語料庫分析工具(CORPRO)應用工作坊(第三部份)。香港中文大學圖書館。https://www.youtube.com/watch?v=K6CfxFmATq4 闕河嘉、陳光華(2016)。庫博中文獨立語料庫分析工具之開發與應用。數位人文研究與技藝,6,285-313。 蘇碩斌(2021)。2020年臺灣文學年鑑。國立臺灣文學館。 鐘育騏(2022)。報紙社論對臺灣新冠肺炎疫情之文本分析:以《自由時報》與《中國時報》為例(未出版之碩士論文)。世新大學口語傳播暨社群媒體學系。 |
Description: | 碩士 國立政治大學 圖書資訊與檔案學研究所 111155023 |
Source URI: | http://thesis.lib.nccu.edu.tw/record/#G0111155023 |
Data Type: | thesis |
Appears in Collections: | [圖書資訊與檔案學研究所] 學位論文
|
Files in This Item:
File |
Description |
Size | Format | |
502301.pdf | | 5654Kb | Adobe PDF | 1 | View/Open |
|
All items in 政大典藏 are protected by copyright, with all rights reserved.
|