政大機構典藏-National Chengchi University Institutional Repository(NCCUR):Item 140.119/111456
English  |  正體中文  |  简体中文  |  Post-Print筆數 : 27 |  全文笔数/总笔数 : 113160/144130 (79%)
造访人次 : 50753287      在线人数 : 607
RC Version 6.0 © Powered By DSPACE, MIT. Enhanced by NTU Library IR team.
搜寻范围 查询小技巧:
  • 您可在西文检索词汇前后加上"双引号",以获取较精准的检索结果
  • 若欲以作者姓名搜寻,建议至进阶搜寻限定作者字段,可获得较完整数据
  • 进阶搜寻
    政大機構典藏 > 商學院 > 資訊管理學系 > 學位論文 >  Item 140.119/111456


    请使用永久网址来引用或连结此文件: https://nccur.lib.nccu.edu.tw/handle/140.119/111456


    题名: 應用文本主題與關係探勘於多文件自動摘要方法之研究:以電影評論文章為例
    Application of text topic and relationship mining for multi-document summarization: using movie reviews as an example
    作者: 林孟儀
    贡献者: 楊建民
    林孟儀
    关键词: 文字探勘
    多文件自動摘要
    LDA主題模型
    主題關係地圖
    Text mining
    Multi-document summarization
    LDA Topic Model
    Text relationship map
    日期: 2017
    上传时间: 2017-07-31 10:59:24 (UTC+8)
    摘要: 由於網際網路的普及造成資訊量愈來愈大,在資訊的搜尋、整理與閱讀上會耗費許多時間,因此本研究提出一應用文本主題及關係探勘的方法,將多份文件自動生成一篇摘要,以幫助使用者能降低資訊的閱讀時間,並能快速理解文件所欲表達之意涵。
    本研究以電影評論文章為例,結合文章結構的概念,將影評摘要分為「電影資訊」、「電影劇情介紹」及「心得結論」三部分,其中「電影資訊」及「心得結論」為透過本研究建置之電影領域相關詞庫比對得出。接著將餘下之段落歸屬於「電影劇情介紹」,並透過LDA主題模型將段落分群,再運用主題關係地圖的概念挑選各群之代表段落並排序,最後將各段落去除連接詞及將代名詞還原為其所指之主詞,以形成一篇列點式影評摘要。
    研究結果顯示,本研究所實驗之三部電影,產生之摘要能涵蓋較多的資訊內容,提升了摘要之多樣性,在與最佳範本摘要的相似度比對上,分別提升了10.8228%、14.0123%及25.8142%,可知本研究方法能有效掌握文件之重點內容,生成之摘要更為全面,藉由此方法讓使用者自動彙整電影評論文章,以生成一精簡之摘要,幫助使用者節省其在資訊的搜尋及閱讀的時間,以便能快速了解相關電影之資訊及評論。
    The rapid development of information technology over the past decades has dramatically increased the amount of online information. Because of the time-wasting on absorbing large amounts of information for users, we would like to present a method in this thesis by using text topic and relationship mining for multi-document summarization to help users grasp the theme of multiple documents quickly and easily by reading the accurate summary without reading the whole documents.
    We use movie reviews as an example of multi-document summarization and apply the concept of article structures to categorize summary into film data, film orientation and conclusion by comparing the thesaurus of movie review field built by this thesis. Then we cluster the paragraphs in the structure of film orientation into different topics by Latent Dirichlet Allocation (LDA). Next, we apply the concept of text relationship map, a network of paragraphs and the node in the network referring to a paragraph and an edge indicating that the corresponding paragraphs are related to each other, to extract the most important paragraph in each topic and order them. Finally, we remove conjunctions and replace pronouns with the name it indicates in each extracted paragraph s and generate a bullet-point summary.
    From the result, the summary produced by this thesis can cover different topics of contents and improve the diversity of the summary. The similarities compared with the produced summaries and the best-sample summaries raise of 10.8228%, 14.0123% and 25.8142% respectively. The method presented in this thesis grasps the key contents effectively and generates a comprehensive summary. By providing this method, we try to let users aggregate the movie reviews automatically and generate a simplified summary to help them reduce the time in searching and reading articles.
    參考文獻: 中文文獻:
    王聖竣 (2011)。自動文件摘要擷取之探討(未出版之碩士論文),中華大學,新竹市。
    甘子典 (2011)。一個文件相似度測量方法及其應用(未出版之碩士論文),國立中山大學,高雄市。
    何奕叡 (2015)。篇章分析及語言後設論述在英語專業影評及業餘影評的研究(未出版之碩士論文),國立高雄應用科技大學,高雄市。
    沈裕傑 (2008)。以語句為主之LDA模型於文件摘要之應用(未出版之碩士論文),國立成功大學,台南市。
    孟海濤、陳思、周睿 (2009)。基於LDA模型的WEB文本分類。鹽城工學院學報(自然科學版),22(4),56-59。
    袁立安 (2007)。混合式自動文件摘要方法(未出版之碩士論文),國立中山大學,高雄市。
    高立翰、沈大白、鄭惠如 (2013)。台灣電影票房績效模型影響因素之研究。東吳經濟商學學報,82,59-92。
    陳同孝、陳雨霖、劉明山、許文綬、林志強、邱永興 (2006)。結合K-means及階層式分群法之二階段分群演算法。電腦學刊,17(1),65-75。
    陳姿妤 (2007)。運用重複句排除技術於中文文件自動摘要之研究(未出版之碩士論文),淡江大學,新北市。
    張奇、黃萱菁、吳立德 (2005)。一種新的句子相似度度量及其在文本自動摘要中的應用。中文信息學報,2,93-99。
    張明慧、王紅玲、周國棟 (2010)。LDA主題驅動的中文多文檔自動文摘方法。第五屆全國青年計算語言學研討會,中國湖北武漢。
    曹娟、張勇東、李錦濤、唐勝 (2008)。一種基於密度的自適應最優LDA模型選擇方法。計算機學報,31(10),1780-1787。
    黃信捷 (2008)。使用潛在語意分析與自我組織映射於中文文件摘要(未出版之碩士論文),國立清華大學,新竹市。
    黃慶杰 (2016)。以文件間差異為基礎並實作中文摘要(未出版之碩士論文),國立中央大學,桃園市。
    楊佩臻 (2013)。利用文句關係網路自動萃取文件摘要之研究(未出版之碩士論文),國立中央大學,桃園市。
    葉振源 (2001)。文件自動化摘要方法之研究及其在中文文件的應用(未出版之碩士論文),國立交通大學,新竹市。
    葉振源 (2007)。摘錄式多文件自動化摘要方法之研究(未出版之博士論文),國立交通大學,新竹市。
    鄧亦安 (2016)。應用文字探勘於影評文章自動摘要之研究(未出版之碩士論文),國立政治大學,台北市。
    劉政璋 (2005)。以概念分群為基礎之新聞文件自動摘要系統(未出版之碩士論文),國立交通大學,新竹市。
    劉娜、路瑩、唐曉君、李明霞 (2015)。基於 LDA 重要主題的多文檔自動摘要算法。計算機科學與探索,2,242-248。
    蘇哲君 (2001)。中英雙語多文件自動摘要系統研究(未出版之碩士論文),國立臺灣大學,台北市。
    英文文獻:
    Blei, D. M. (2012). Probabilistic topic models. Communications of the ACM, 55(4), 77-84. doi:10.1145/2133806.2133826
    Blei, D. M., Ng, A. Y., & Jordan, M. I. (2003). Latent dirichlet allocation. Journal of machine Learning research, 3(Jan), 993-1022.
    Gupta, V., & Lehal, G. S. (2010). A survey of text summarization extractive techniques. Journal of emerging technologies in web intelligence, 2(3), 258-268.
    Hovy, E., & Lin, C. Y. (1998). Automated text summarization and the SUMMARIST system. Proceedings of a workshop on held at Baltimore, Maryland: October 13-15, 1998, pp. 197-214. doi:10.3115/1119089.1119121
    Kumar, Y. J., Goh, O. S., Basiron, H., Choon, N.H., & Suppiah, P. C.. (2016). A Review on Automatic Text Summarization Approaches. Journal of Computer Science, 12(4), 178-190.
    Kupiec, J., Pedersen, J., & Chen, F. (1995). A trainable document summarizer. Proceeding SIGIR `95 Proceedings of the 18th annual international ACM SIGIR conference on Research and development in information retrieval, pp. 68-73. doi:10.1145/215206.215333
    Mani, I., & Maybury, M. T. (Eds.). (1999). Advances in automatic text summarization. Cambridge, MA: MIT Press.
    McKeown, K. R., Klavans, J. L., Hatzivassiloglou, V., Barzilay, R., & Eskin, E. (1999). Towards Multidocument Summarization by Reformulation: Progress and Prospects. Proceedings of AAAI-99, 453-460.
    Nenkova, A., & McKeown, K. (2012). A survey of text summarization techniques. In Aggarwal, C. C. & Zhai, C. X. (Eds.), Mining text data (pp. 43-76). New York, NY:Springer.
    Salton, G., Singhal, A., Mitra, M., & Buckley, C. (1997). Automatic text structuring and summarization. Information Processing & Management, 33(2), 193-207. doi: 10.1016/S0306-4573(96)00062-3
    Silla Jr, C. N., Kaestner, C. A., & Freitas, A. A. (2003). A non-linear topic detection method for text summarization using wordnet. In Nunes, M. G. V., Aluisio, S. M., Oliveira, L. H. M., & Teles, J. A. (Eds.), Proc. I Workshop em Tecnologia da Informacao e Linguagem Humana (pp. 182-196). Brazil: ICMC-USP.
    Wang, J. H., Zhou, S. G., & Hu, Y. F. (2003). Sentences clustering based automatic summarization. Machine Learning And Cybernetics, 2003 International Conference On, 1, 57-62. doi:10.1109/icmlc.2003.1264442
    Xia, Y., Zhang, Y., & Yao, J. (2011). Co-clustering sentences and terms for multi-document summarization. In Gelbukh, A. F. (Eds.), Computational Linguistics and Intelligent Text Processing (pp. 339-352). Heidelberg, Germany: Springer.
    網路訊息:
    Nielsen(2015年10月15日)。口碑,最佳的廣告形式【新聞群組】。取自http://www.nielsen.com/tw/zh/press-room/2015/news-taiwan-trust-in-ad-2015-ch.html
    Alexa (2017, February 13). Top Sites in Taiwan [Online forum comment]. Retrieved from http://www.alexa.com/topsites/countries/TW
    痞客邦(2014年10月9日)。2014年第三屆痞客邦千萬美妝口碑賞保養部分文章數、人氣數、分享數三大指標分析【新聞群組】。取自https://styleme.pixnet.net/post/83769384
    創市際(2016年7月15日)。創市際雙週刊第六十七期 20160715【線上論壇】。取自http://www.ixresearch.com/reports/%E5%89%B5%E5%B8%82%E9%9A%9B%E9%9B%99%E9%80%B1%E5%88%8A%E7%AC%AC%E5%85%AD%E5%8D%81%E4%B8%83%E6%9C%9F-20160715/
    PIXinsight(2017年2月14日)。這是啥?5個好妙但長見聞的社群關鍵字!【線上論壇】。取自https://www.pixinsight.com.tw/community/post/12
    描述: 碩士
    國立政治大學
    資訊管理學系
    104356028
    資料來源: http://thesis.lib.nccu.edu.tw/record/#G0104356028
    数据类型: thesis
    显示于类别:[資訊管理學系] 學位論文

    文件中的档案:

    档案 大小格式浏览次数
    602801.pdf913KbAdobe PDF239检视/开启


    在政大典藏中所有的数据项都受到原著作权保护.


    社群 sharing

    著作權政策宣告 Copyright Announcement
    1.本網站之數位內容為國立政治大學所收錄之機構典藏,無償提供學術研究與公眾教育等公益性使用,惟仍請適度,合理使用本網站之內容,以尊重著作權人之權益。商業上之利用,則請先取得著作權人之授權。
    The digital content of this website is part of National Chengchi University Institutional Repository. It provides free access to academic research and public education for non-commercial use. Please utilize it in a proper and reasonable manner and respect the rights of copyright owners. For commercial use, please obtain authorization from the copyright owner in advance.

    2.本網站之製作,已盡力防止侵害著作權人之權益,如仍發現本網站之數位內容有侵害著作權人權益情事者,請權利人通知本網站維護人員(nccur@nccu.edu.tw),維護人員將立即採取移除該數位著作等補救措施。
    NCCU Institutional Repository is made to protect the interests of copyright owners. If you believe that any material on the website infringes copyright, please contact our staff(nccur@nccu.edu.tw). We will remove the work from the repository and investigate your claim.
    DSpace Software Copyright © 2002-2004  MIT &  Hewlett-Packard  /   Enhanced by   NTU Library IR team Copyright ©   - 回馈