Loading...
|
Please use this identifier to cite or link to this item:
https://nccur.lib.nccu.edu.tw/handle/140.119/134868
|
Title: | 運用數位人文工具進行網路論壇之檔案主題及情感探勘 The Application of Digital Humanities Tools for Mining Archive Subject and Emotion in Social Networks |
Authors: | 張奕萱 Zhang, Yi-Xuan |
Contributors: | 林巧敏 Lin, Chiao-Min 張奕萱 Zhang, Yi-Xuan |
Keywords: | 檔案貼文 主題分析 文本情感分析 數位人文 NLPIR大數據語義分析平台 中文情感詞彙本體庫 Weka懷卡托智能分析環境 Archive Posts Topic Analysis Text Sentiment Analysis Digital Humanities NLPIR Chinese Emotion Word Ontology Weka |
Date: | 2021 |
Issue Date: | 2021-05-03 10:27:05 (UTC+8) |
Abstract: | 伴隨檔案服務社會化進程的推動,檔案和檔案工作逐漸走入大眾視野,成為社會各界津津樂道的新話題。與此同時,在信息技術的驅動下,網路論壇一步步發展壯大,成為社會大眾表達態度、傳播思想的重要媒介,其中更不乏對檔案議題的討論與交流。藉助數位工具對網路論壇中檔案主題貼文的內容進行探勘,可以了解時下社會最關注的核心主題及對它們的情感和認知,為如何更好地開展檔案工作提供諸多參考。 本研究以風聞社區為來源,收集整理162篇2019年1月1日至2020年12月31日期間針對檔案主題發表的貼文。首先通過NLPIR大數據語義分析平台展開分詞、詞性標註及詞頻統計的文本預處理,接著藉助中文情感詞彙本體庫和Weka進行基於情感詞典和機器學習的文本情感分析。透過以上流程,分析檔案主題貼文呈現出的核心議題以及正負向情感。 研究結果顯示,民眾最為關注的議題整體分為兩種,一是以「毛澤東」、「蔣介石」、「斯大林」及「中蘇」、「國共」和「抗美援朝」為核心的特定人物與事件議題;二是以「檔案工作實務」和「檔案公開」為代表的社會議題。在情感方面,檔案主題貼文整體呈現明顯的負向情感,尤其是在針對特定人物與事件的討論中,負面情緒更為明顯。而在談及檔案工作實務時,則展現出了相對積極的態度和認知。基於以上研究成果,研究認為檔案工作機構一方面要做好本職工作,提升業務水平,另一方面也要多渠道、多角度地開展各種形式的檔案資訊公開和檔案宣傳工作,滿足大眾對檔案的需求和期待,塑造良好的社會形象,提升檔案及檔案工作的社會地位和影響力,促進檔案事業蓬勃發展。 With the process of the socialization of archives service, archives and archives work have gradually become a new topic in society. At the same time, driven by information technology, the Internet forum has developed step by step and become an important medium for the public to express their attitudes and spread their ideas, where has many discussions on archive issues. With the help of digital tools, we can have a data mining on these posts, so as to explore the core topics that the society is most concerned about and their emotions towards them. It could provide many references for archive departments to work better. In this study, we collected 162 articles published on archival topics during January 1, 2019 to December 31, 2020 from the Internet forum. Firstly, use the NLPIR to finish the word segmentation, part-of-speech tagging and word frequency statistics. The text sentiment analysis based on sentiment dictionary and machine learning is continued with the help of the Chinese Emotion Word Ontology and WEKA. Through the above process, the paper analyzed the core issues and emotional implications of the archival theme posts. The results show that the topics that people are most concerned about are generally divided into two types. One is the specific figures and events such as "Mao Zedong", "Chiang Kai-shek", "Stalin", "the Sino-Soviet relations", "the KMT-CPC relations" and " the War to Resist U.S. Aggression and Aid Korea ". The other is the social issues represented by " archival work practice" and "archives opening". Meanwhile, the whole posts about archives present obvious negative emotion, especially in the discussion of specific characters and events. Only when it comes to archival work practice, it shows a relatively positive attitude and cognition. Based on research results, archive departments, on the one hand, should do their job well and enhance the work level. On the other hand, they should also pay attention on how to propagate archives and archives work through various mediums and forms, to meet the public demand and expectation of archives, to shape good social image, to improve the social status and influence of archives and archives work, and to make archival undertaking develop vigorously. |
Reference: | 丁蔚(2017)。基於詞典和機器學習組合的情感分析〔碩士學位論文,西安郵電大學〕。中國知網博碩士論文檢索系統。https://kns.cnki.net/KCMS/detail/detail.aspx?dbname=CMFD201702&filename=1017079251.nh 中央研究院中文詞知識庫小組(2020)。CKIP Lab。檢索自https://ckip.iis.sinica.edu.tw/demo 中國國家檔案局(2020)。中華人民共和國檔案法。檢索自https://www.saac.gov.cn/daj/falv/202006/79ca4f151fde470c996bec0d50601505.shtml 孔杏、林慶(2018)。主觀性文本情感分類研究綜述。信息技術,42(08),126-130+134。https://doi:10.13274/j.cnki.hdzj.2018.08.028 毛國君(2003)。數據挖掘技術與關聯規則發掘算法研究〔博士論文,北京工業大學〕。中國知網博碩士論文檢索系統。https://kns.cnki.net/KCMS/detail/detail.aspx?dbname=CDFD9908&filename=2003084056.nh 王李冬、張慧熙(2016)。基於HowNet的微博文本語義檢索研究。情報科學,34(09),134-137。https://doi:10.13833/j.cnki.is.2016.09.027 王虎、丁世飛(2009)。序列模式挖掘研究與發展。計算機科學,36(12),14-17。 王睿嘉、趙彥昌(2020)。基於數字人文視域下檔案學研究成果述評(2015-2020)。山西檔案。檢索自https://kns.cnki.net/kcms/detail/detail.aspx?dbcode=CAPJ&dbname=CAPJLAST&filename=SXDA20200806000&v=Qf8oCG%25mmd2BHv8jWRmYSO6iaVR7oAUqm%25mmd2BB8BHF0xmU5VURYqWYwenC1mLy6wRwsf2Wvu 王麗坤、王宏、陸玉昌(2002)。文本挖掘及其關鍵技術與方法。計算機科學,12,12-19。 甘肅敦煌研究院(2019)。數字敦煌。檢索自:https://www.e-dunhuang.com/ index.htm 石鳳貴(2020)。基於jieba中文分詞的中文文本語料預處理模組實現。電腦知識與技術,16(14),248-251+257。https://doi:10.14004/j.cnki.ckt.2020.1579 朱令俊(2018)。基於數字人文的檔案資訊資源開發模式構建和實施研究。浙江檔案,452(12),22-24。http://doi.org/10.16033/j.cnki.33-1055/g2.2018.12.010 朱本軍、聶華(2016)。跨界與融合:全球視野下的數字人文—首屆北京大學「數字人文論壇」會議綜述。大學圖書館學報,34(05),16-21。http://doi:10.16603/j.issn1002-1027.2016.05.003 朱本軍、聶華(2017)。數字人文:圖書館實踐的新方向。大學圖書館學報,35(04),23-29。http://doi:10.16603/j.issn1002-1027.2017.04.004 何徑舟、王厚峰(2010)。基於特徵選擇和最大熵模型的漢語詞義消歧。軟體學報,21(06),1287-1295。 吳勝遠(1996)。一種漢語分詞方法。計算機研究與發展,04,306-311。 李志義、沈之銳、義梅練(2014)。貝葉斯分類演算法在社交網站信息過濾中的應用分析。圖書情報工作,8(13),100-106。http://doi.org/10.13266/j.issn.0252-3116.2014.13.017 李孟潔(2009)。利用機器學習作法之中文意見分析〔碩士學位論文,清華大學〕。臺灣學術文獻資料庫系統。http://dx.doi.org/10.6843/NTHU.2009.00633 李岩(2014)。文本情感分析中關鍵問題的研究〔博士學位論文,北京郵電大學〕。中國知網博碩士論文檢索系統。https://kns.cnki.net/KCMS/detail/detail.aspx?dbname=CDFDLAST2015&filename=1015527268.nh 李建華、劉功申、林祥(2017)。情感傾向性分析及應用研究綜述。信息安全學報,2(02),48-62。https://doi:10.19363/j.cnki.cn10-1380/tn.2017.04.005 李振星、徐澤平、唐衛清、唐榮錫(2002)。全二分最大匹配快速分詞演算法。計算機工程與應用,11,106-109。 李偉平、權德慶、蔡軍、魏華、雷文(2013)。西安市城鎮居民體育消費結構及其特徵研究——基於數據挖掘的視角。體育科學,33(09),22-28。http://doi.org/10.16469/j.css.2013.09.008 李朝凱(2011)。從地方菁英到豎旗反清—以清代彰化縣戴潮春家族為例。在項潔(編著),數位人文在歷史學研究的應用(頁111-136)。臺北市:臺大出版中心。 李颯(2006)。基於GATE的中文信息抽取系統的開發和實現〔碩士學位論文,中國科學院研究生院(文獻情報中心)〕。中國知網博碩士論文檢索系統。https://kns.cnki.net/KCMS/detail/detail.aspx?dbname=CMFD0506&filename=2006056626.nh 李慧楠、王曉光(2020)。數字人文的研究現狀——「2019數字人文年會」綜述。情報資料工作,41(04),49-59。 杜振雷(2013)。面向微博短文本的情感分析研究〔碩士論文,北京信息科技大學〕。中國知網博碩士論文檢索系統。https://kns.cnki.net/KCMS/detail/detail.aspx?dbname=CMFD201401&filename=1014031421.nh 杜瑞傑(2012)。貝葉斯分類器及其應用研究〔博士論文,上海大學〕。中國知網博碩士論文檢索系統。https://kns.cnki.net/KCMS/detail/detail.aspx?dbname=CDFDLAST2015&filename=1015574461.nh 汪瑩、周婷、王光岐、張海鳳(2014)。基於數據挖掘的安全管理信息系統研究——以某煤炭企業班組安全管理為例。中國礦業大學學報,43(02),362-368。http://doi.org/10.13247/j.cnki.jcumt.2014.02.025 周立柱、賀宇凱、王建勇(2008)。情感分析研究綜述。計算機應用,11,2725-2728。 季立堃(2019)。基於深度學習的文本情感分析技術研究〔碩士學位論文,北京郵電大學〕。中國知網博碩士論文檢索系統。https://kns.cnki.net/KCMS/detail/detail.aspx?dbname=CMFD201902&filename=1019052691.nh 岳昆(2013)。數據工程:處理、分析與服務。北京:清華大學出版社。 林嘉男(2014年12月26日)。GIS與歷史研究資料的應用—「蘇軾文史地理資訊系統」。檢索自http://www3.ihp.sinica.edu.tw/dhrctw/index.php/2014-06-12-08-44-54/gis/53-gis-2014-12-26 阿曼(2014)。樸素貝葉斯分類演算法的研究與應用〔碩士學位論文,大連理工大學〕。中國知網博碩士論文檢索系統。https://kns.cnki.net/KCMS/detail/detail.aspx?dbname=CMFD201502&filename=1015571626.nh 姚天昉、程希文、徐飛玉、漢思·烏思克爾特、王睿(2008)。文本意見挖掘綜述。中文信息學報,03,71-80。 姚天泓、陳豔梅、劉革、魯超(2019)。基於CIDOC-CRM的數字人文史料資源語義化知識組織研究—以張學良史料資源為例。圖書館學刊,41(07),35-43。http://doi.org/10.14037/j.cnki.tsgxk.2019.07.008 施玥馨、王玉玨、李子林(2019)。數字人文變革對檔案館業務活動的影響。山西檔案,05,80-86。 洪振洲、馬德偉、張伯雍、李志賢、黃仁順(2011)。佛教數位典藏與GID技術應用經驗分享。在項潔(編著),從保存到創造:開啟數位人文研究(頁147-168)。臺北市:臺大出版中心。 洪巍、李敏(2019)。文本情感分析方法研究綜述。計算機工程與科學,41(04),750-757。 紀雪梅(2014)。特定事件情境下中文微博用戶情感挖掘與傳播研究〔博士學位論文,南開大學〕。中國知網博碩士論文檢索系統。https://kns.cnki.net/KCMS/detail/detail.aspx?dbname=CDFDLAST2015&filename=1015528785.nh 胡祖輝、施佺(2017)。高校上網行為分析與數據挖掘研究。中國遠程教育,02,26-32。http://doi.org/10.13541/j.cnki.chinade.2017.02.002 孫茂松、左正平、黃昌寧(1999)。消解中文三字長交集型分詞歧義的演算法。清華大學學報(自然科學版),05,3-5。https://doi:10.16511/j.cnki.qhdxxb.1999.05.027 孫靜娟(2015)。統計學。北京:清華大學出版社。 徐博龍(2019)。應用Jieba和Wordcloud庫的詞雲設計與優化。福建電腦,35(06),25-28。https://doi:10.16707/j.cnki.fjpc.2019.06.006 徐琳宏,林鴻飛,潘宇,任惠,陳建美(2008)。情感詞彙本體的構造。情報學報,27(02),180-185。https:// doi:10.3969/j.issn.1000-0135.2008.02.004 海沫(2016)。大數據聚類算法綜述。計算機科學,43(S1),380-383。 袁丁(2015)。中文短文本的情感分析〔碩士學位論文,北京郵電大學〕。中國知網博碩士論文檢索系統。https://kns.cnki.net/KCMS/detail/detail.aspx?dbname=CMFD201502&filename=1015585923.nh 高瑾(2020)。量化數字人文綜述。圖書館論壇,40(01),54-72。 張志剛(2018)。網路新聞評論情感分析系統的研究與實現〔碩士學位論文,遼寧大學〕。中國知網博碩士論文檢索系統。https://kns.cnki.net/KCMS/detail/detail.aspx?dbname=CMFD201901&filename=1018129542.nh 張清華、王進、王國胤(2015)。粗糙模糊集的近似表示。計算機學報,38(07),1484-1496。 張斌、李子林(2019)。數字人文背景下檔案館發展的新思考。圖書情報知識,06,1-9。https://doi.org/ 10.13366/j.dik.2019.06.068 張紫瓊(2010)。在線中文評論情感分類問題研究〔博士學位論文,哈爾濱工業大學〕。中國知網博碩士論文檢索系統。https://kns.cnki.net/KCMS/detail/detail.aspx?dbname=CDFD1214&filename=1013035233.nh 張璐、齊二石、長青(2014)。中國製造企業管理創新方法類型選擇評價—基於SVM的多案例實證分析。科學學研究,32(11),1747-1753+1760。https://doi:10.16192/j.cnki.1003-2053.2014.11.039 章永來、周耀鑒(2019)。聚類算法綜述。計算機應用,39(07),1869-1882。 郭學敏(2016)。大眾傳媒視角下關于檔案工作者的刻板印象探析。蘭台世界,19,31-34。http://doi:10.16565/j.cnki.1006-7744.2016.19.08 陳志豪(2011)。19世紀初期竹塹社與霄裡肚的「社域」爭議—兼論歷史資料庫的應用。在項潔(編著),數位人文在歷史學研究的應用(頁95-110)。臺北市:臺大出版中心。 陳娜(2006)。數據挖掘技術的研究現狀及發展方向。電腦與信息技術,01,46-49。https://doi.org/ 10.19414/j.cnki.1005-1228.2006.01.013 陳桂林、王永成、韓客松、王剛(2000)。一種改進的快速分詞演算法。計算機研究與發展,04,418-424。 復旦大學歷史地理研究中心(2003)。中國歷史地理資訊系統CHGIS。檢索自:http://yugong.fudan.edu.cn/views/chgis_index.php?list=Y&tpid=700 揭春雨、劉源、梁南元(1991)。漢語自動分詞實用系統CASS的設計和實現。中文信息學報,04,27-34。 曾潤喜(2009)。網路輿情管控工作機制研究。圖書情報工作,53(18),79-82。 童茵、張彬(2018)。董其昌數字人文項目的探索與實踐。中國博物館,4,114-118。 賀鳴、孫建軍,、成穎(2016)。基於樸素貝葉斯的文本分類研究綜述。情報科學,34(07),147-154。https://doi:10.13833/j.cnki.is.2016.07.028 項潔(2011)。從保存到創造:開啟數位人文研究。臺北市:國立臺灣大學出版中心。 黃解軍、潘和平、萬幼川(2003)。數據挖掘技術的應用研究。計算機工程與應用,02,45-48。 黃霄羽(2013)。檔案社會化服務的概念解讀。檔案學研究,03,4-7。https://doi:10.16065/j.cnki.issn1002-1620.2013.03.008 楊小平,、張中夏、王良、張永俊、馬奇鳳、吳佳楠、張悅(2017)。基於Word2Vec的情感詞典自動構建與優化。計算機科學,44 (01),42-47+74。 楊立公、朱儉、湯世平(2013)。文本情感分析綜述。計算機應用,33(06),1574-1578+1607。 楊青生、黎夏(2006)。基於粗集的知識發現與地理模擬—以深圳市土地利用變化為例。地理學報,08,882-894。 楊彪(2014)。基於電子商務的評論文本情感極性等級分析〔碩士學位論文,重慶交通大學〕。中國知網博碩士論文檢索系統。https://kns.cnki.net/KCMS/detail/detail.aspx?dbname=CMFD201501&filename=1014376920.nh 楊開漠、吳明芬、陳濤(2019)。廣義文本情感分析綜述。計算機應用,39(S2),6-14。 楊惠淳(2011)。以主客觀分析與相互資訊檢索探討情感分析之準確度—以電影評論為例〔碩士學位論文,臺北科技大學〕。臺灣學術文獻資料庫系統。http://dx.doi.org/10.6841/NTUT.2011.00675 楊會志(2000)。數據挖掘技術的主要方法及其發展方向。河北科技大學學報,03,77-80。 楊鵬(2014)。網路論壇信息採集技術的研究與實現〔碩士論文,昆明理工大學〕。中國知網博碩士論文檢索系統。https://kns.cnki.net/KCMS/detail/detail.aspx?dbname=CMFD201501&filename=1014353473.nh 葉智豪、王昱鈞、蔡宗翰(2011)。歷史文獻的命名實體擷取——結合主動學習法之半監督式模型。在項潔(編著),從保存到創造:開啟數位人文研究(頁131-144)。臺北市:臺大出版中心。 熊亞軍、廖曉農、李梓銘、張小玲、孫兆彬、趙秀娟、趙普生、馬小會、蒲維維(2015)。KNN數據挖掘算法在北京地區霾等級預報中的應用。氣象,41(01),98-104。 趙康、謝靜、李璐(2014)。我國網路論壇發展狀況分析。科技傳播,6(02),273-275+102。 趙燕青、滕晶、楊洪軍(2015)。基於數據挖掘的現代中醫藥治療抑鬱症用藥規律分析。中國中藥雜誌,40(10),2042-2046。 劉吉軒、賴龍平(2011)。臺灣文官職等升遷預測。在項潔(編著),從保存到創造:開啟數位人文研究(頁113-130)。臺北市:臺大出版中心。 劉振岩(2003)。數據挖掘分類算法的研究與應用〔碩士論文,首都師範大學〕。中國知網博碩士論文檢索系統。https://kns.cnki.net/KCMS/detail/detail.aspx?dbname=CMFD9904&filename=2003063263.nh 劉勘、朱懷萍、劉秀芹(2013)。基於支援向量機的網路偽輿情識別研究。現代圖書情報技術,11,75-80。 劉爽、趙景秀、楊紅亞、徐冠華(2018)。文本情感分析綜述。軟體導刊,17(06),1-4+21。 劉煒、葉鷹(2017)。數字人文的技術體系與理論結構探討。中國圖書館學報,43(05),32-41。https://doi.org/10.13530/j.cnki.jlis.170020 劉慧琳(2019)。數字人文:數據時代下的文化保護與傳承。山西檔案,05,72-79。 蔣佳蓉(2015年12月17日)。威尼斯時光機器數位典藏計畫簡介。檢索自:https://www.archives.gov.tw/ALohas/ALohasColumn.aspx?c=1154 薑傑(2017)。社交媒體文本情感分析〔碩士學位論文,南京理工大學〕。中國知網博碩士論文檢索系統。https://kns.cnki.net/KCMS/detail/detail.aspx?dbname=CMFD201702&filename=1017053541.nh 韓雪丹(2017)。結合ICTCLAS方法的APP用戶體驗評價方法研究〔碩士學位論文,天津大學〕。中國知網博碩士論文檢索系統。https://kns.cnki.net/KCMS/detail/detail.aspx?dbname=CMFD201801&filename=1018061980.nh 魏慧玲(2014)。文本情感分析在產品評論中的應用研究〔碩士學位論文,北京交通大學〕。中國知網博碩士論文檢索系統。https://kns.cnki.net/KCMS/detail/detail.aspx?dbname=CMFD201401&filename=1014177521.nh 魏韡、向陽、陳千(2011)。中文文本情感分析綜述。計算機應用,12,3321-3323。 Aggarwal, C.(2015).Data Mining: The Textbook. New York, USA: Springer International Publishing. Berry, M.,& Linoff, G. (1997). Data Mining Techniques: For Marketing, Sales, and Customer Support. Indiana, USA: John Wiley & Sons. Boukhelifa, N., Bryant, M., Bulatovic, N., Čukić, I., Fekete, J., Knežević, M., Lehmann, J., Stuart, D.,& Thiel, C. (2018). The CENDARI Infrastructure. Journal on Computing and Cultural Heritage,11(2). https://doi.org/10.1145/3092906 Chekanov, S.V. (2010).Scientific Data Analysis using Python Scripting and Java. London, US: Springer. Han, J.W., Kamber, M.,&Pei, J.(2012). Data Mining: Concepts and Techniques. San Francisco, USA: Morgan Kaufmann. Harvard University, Academia Sinica & Peking University.(2019).China Biographical Database. Retrieved from https://projects.iq.harvard.edu/cbdb Li, P.H., Fu, T.J.,& Ma W.Y.(February 2020). Why Attention? Analyze BiLSTM Deficiency and Its Remedies in the Case of NER. Proceedings of the 34th AAAI Conference on Artificial Intelligence. Retrieved from https://arxiv.org/pdf/1908.11046 Ma, W.Y.,& Chen, K.J.(July 2003). Introduction to CKIP Chinese word segmentation system for the first international Chinese Word Segmentation Bakeoff. Proceedings of the Second SIGHAN Workshop on Chinese Language Processing, Sapporo,Japan,168-171.https://doi.org/10.15950/j.cnki.1005-9458.2011.01.040 Rauch, J.(2019). Expert deduction rules in data mining with association rules: a case study. Knowledge and Information Systems,59, 167–195. https://doi.org/10.1007/s10115-018-1206-x Ranade, S.(December 2016).Traces Through Time: A Probabilistic Approach to Connected Archival Data. Proceeding of 2016 IEEE International Conference on Big Data (Big Data),Washington,3260-3265.http://doi:10.1109/BigData.2016. 7840983 Zadeh, L.A.(1965). Fuzzy sets. Information and Control,8(3), 338-353. http://doi.org/10.1016/S0019-9958(65)90241-X |
Description: | 碩士 國立政治大學 圖書資訊與檔案學研究所 108155024 |
Source URI: | http://thesis.lib.nccu.edu.tw/record/#G0108155024 |
Data Type: | thesis |
DOI: | 10.6814/NCCU202100431 |
Appears in Collections: | [圖書資訊與檔案學研究所] 學位論文
|
Files in This Item:
File |
Description |
Size | Format | |
502401.pdf | | 7684Kb | Adobe PDF2 | 409 | View/Open |
|
All items in 政大典藏 are protected by copyright, with all rights reserved.
|