政大機構典藏-National Chengchi University Institutional Repository(NCCUR):Item 140.119/56502
English  |  正體中文  |  简体中文  |  Post-Print筆數 : 27 |  全文笔数/总笔数 : 113160/144130 (79%)
造访人次 : 50760824      在线人数 : 651
RC Version 6.0 © Powered By DSPACE, MIT. Enhanced by NTU Library IR team.
搜寻范围 查询小技巧:
  • 您可在西文检索词汇前后加上"双引号",以获取较精准的检索结果
  • 若欲以作者姓名搜寻,建议至进阶搜寻限定作者字段,可获得较完整数据
  • 进阶搜寻
    政大機構典藏 > 商學院 > 資訊管理學系 > 學位論文 >  Item 140.119/56502


    请使用永久网址来引用或连结此文件: https://nccur.lib.nccu.edu.tw/handle/140.119/56502


    题名: 應用資料探勘技術於食譜分享社群網站進行內容分群之研究
    A user-based content clustering system using data mining techniques on a recipe sharing website
    作者: 林宜儒
    贡献者: 楊建民
    林宜儒
    关键词: 文字探勘
    資料分群
    text mining
    data clustering
    日期: 2012
    上传时间: 2013-01-02 13:21:51 (UTC+8)
    摘要: 本研究以一個食譜分享社群網站為研究對象,針對網站上所提供的食譜建立了運用 kNN 分群演算法的自動分群機制,並利用該網站上使用者的使用行為進行分群後群集的特徵描述參考。
    本研究以三個階段建立了一針對食譜領域進行自動分群的資訊系統。第一階段為資料處理,在取得食譜網站上所提供的食譜資料後,雖然已經有相對結構化的格式可直接進行分群運算,然而由使用者所輸入的內容,仍有錯別字、贅詞、與食譜本身直接關連性不高等情形,因此必須進行處理。第二階段為資料分群,利用文字探勘進行內容特徵值的萃取,接著再以資料探勘的技術進行分群,分群的結果將會依群內的特徵、群間的相似度作為分群品質的主要指標。第三階段則為群集特徵分析,利用網站上使用者收藏食譜並加以分類的行為,運用統計的方式找出該群集的可能分類名稱。
    本研究實際以 500 篇食譜進行分群實驗,在最佳的一次分群結果中,可得到 10 個食譜群集、平均群內相似度為 0.4482,每個群集可觀察出明顯的相似特徵,並且可藉由網站上使用者的收藏行為,標註出其群集特徵,例如湯品、甜點、麵包、中式料理等類別。
    由於網站依照schema.org 所提供的食譜格式標準,針對網站上每一篇食譜內容進行了內容欄位的標記,本研究所實作之食譜分群機制,未來亦可運用在其他同樣採用 schema.org 所提供標準之同類型網站。
    參考文獻: 1. C. H. Tsai. MMSEG: A Word Identification System for Mandarin Chinese Text Based on Two Variants of the Maximum Matching Algorithm. http://technology.chtsai.org/mmseg/, 1996.
    2. Facebook, Inc., Form S-1 REGISTRATION STATEMENT http://sec.gov/Archives/edgar/data/1326801/000119312512034517/d287954ds1.htm, 2012.
    3. G. Adomavicius, A. Tuzhilin. Toward the Next Generation of Recommender Systems: A Survey of the State-of-the-Art and Possible Extensions, IEEE Transactions on Knowledge and Data Engineering, vol. 17, no. 6, pp. 734-749, Jun., 2005.
    4. C. Haythornthwaite. Social network analysis: An approach and technique for the study of information exchange. Library & Information Science Research, Volume 18, Issue 4, Autumn 1996, pp. 323-342.
    5. G.N. Lance and W.T. Williams. A general theory of classificatory sorting strategies: I. Hierarchical systems. Computer Journal, 9, 373-380, 1967.
    6. M. Montaner, B. Lopez and J. L. Rosa. A Taxonomy of Recommender Agents on the Internet. Artificial Intelligence Reivew 19: 285-330, 2003.
    7. P. V. Marsden and K. E. Campbell. Measuring Tie Strength. Social Forces Volume, 63, Issue 2, pp. 482-501, 2004.
    8. M. S. Granovetter. The Strength of Weak Ties. American Journal of Sociology, Volume 78, Issue 6, pp. 1360-1380, 1973.
    9. U. Y. Nahm and R. J. Mooney. Text Mining with Information Extraction. In Proceedings of the AAAI 2002 Spring Symposium on Mining Answers from Texts and Knowledge Bases, pages 60-67, Stanford, CA. March 2002.
    10. J.Y. Nie, M. Brisebois and X. Ren. On Chinese Text Retrieval. Conference Proceedings of SIGIR, pp. 225-233. 1996.
    11. A. Popescu. Implementation of Term Weighting in a Simple IR System. Personal course project, University of Helsinki. 2001.
    12. P. Fraigniaud, P. Gauron and M. Latapy. Combining the use of clustering and scale-free nature of exchanges into a simple and efficient P2P system. Proceedings of the 11th international Euro-Par conference on Parallel Processing. 2005.
    13. R. Cilibrasi and P.M.B. Vitanyi: Automatic meaning discovery using Google. http://xxx.lanl.gov/abs/cs.CL/0412098, 2004.
    14. Rudi Cilibrasi and Paul Vitanyi, The Google Similarity Distance, IEEE Trans. Knowledge and Data Engineering, 19:3(2007), 370-383.
    15. G. Salton and M. Gill. Introduction to Modern Information Retrieval, McGraw-Hill. 1983.
    16. G. Salton, A. Wong and C. S. Yang. A Vector Space Model for Automatic Indexing. Communications of the ACM, Volume 18, Issue 11, Nov. 1975.
    17. Howard and Rheingold. The Virtual Community: Homesteading on the Electronic Frontier. London: MIT Press. (ISBN 0-262-68121-8), 1993.
    18. J.B. Schafer, J.A. Konstan and J. Riedl. Recommender Systems in Electronic Commerce. Proceedings of the ACM Conference on Electronic Commerce. 1999.
    19. W. Lam and C. Y. Ho. Using a Generalized Instance Set for Automatic Text Categorization. Proceedings of the 21st Annual International ACM-SIGIR Conference on Research and Development in Information Retrieval, 1998, pp. 81-89.
    20. X. Cai, et al. Collaborative Filtering for People to People Recommendation in Social Networks. Lecture Notes in Computer Science, Volume 6464, 2011, pp. 476-485
    21. X Su, T. M. Khoshgoftaar. A Survey of Collaboratiev Filtering Techniques. Advances in Artificial Intelligence, Volume 2009, January 2009.
    22. Y. J. Ko and Y. J. Seo, Text categorization using feature projections, Proceedings of the Nineteenth international conference on Computational linguistics, Volume 1, pp.1-7, 2002.
    23. 朱怡霖,中文斷詞及專有名詞辨識之研究,國立台灣大學資訊工程研究所碩士論文,2002。
    24. 巫啟台,文件之關聯資訊萃取及其概念圖自動建構 (碩士論文),國立成功大學資訊工程學系碩士論文,2002。
    25. 曾元顯,關鍵詞自動擷取技術與相關詞回饋,中國圖書館學會會報,59期,1997。
    26. 楊舜慧,探索資訊時代的網路經濟法則(十二) 解析網路社群的種類和型態, http://www.ectimes.org.tw/shownews.aspx?id=10026,2007
    27. 蔡至欣、賴玲玲,虛擬社群的資訊分享行為,圖書資訊學刊,第 9 卷,第 1 期,2011
    28. 戴尚學,運用事件偵測與追蹤技術於中文多文件摘要之研究,國立雲林科技大學資訊管理研究所碩士論文,2003。
    29. 顧皓光,網路文件自動分類,國立台灣大學資訊管理研究所碩士論文,1996。
    30. 傅仰止,電腦網路中的人際關係:以電子郵件傳遞為例,http://140.109.196.10/pages/seminar/infotec2/info2-9.htm ,中央研究院社會學研究所,2003。
    描述: 碩士
    國立政治大學
    資訊管理研究所
    97356002
    101
    資料來源: http://thesis.lib.nccu.edu.tw/record/#G0097356002
    数据类型: thesis
    显示于类别:[資訊管理學系] 學位論文

    文件中的档案:

    档案 大小格式浏览次数
    index.html0KbHTML2224检视/开启


    在政大典藏中所有的数据项都受到原著作权保护.


    社群 sharing

    著作權政策宣告 Copyright Announcement
    1.本網站之數位內容為國立政治大學所收錄之機構典藏,無償提供學術研究與公眾教育等公益性使用,惟仍請適度,合理使用本網站之內容,以尊重著作權人之權益。商業上之利用,則請先取得著作權人之授權。
    The digital content of this website is part of National Chengchi University Institutional Repository. It provides free access to academic research and public education for non-commercial use. Please utilize it in a proper and reasonable manner and respect the rights of copyright owners. For commercial use, please obtain authorization from the copyright owner in advance.

    2.本網站之製作,已盡力防止侵害著作權人之權益,如仍發現本網站之數位內容有侵害著作權人權益情事者,請權利人通知本網站維護人員(nccur@nccu.edu.tw),維護人員將立即採取移除該數位著作等補救措施。
    NCCU Institutional Repository is made to protect the interests of copyright owners. If you believe that any material on the website infringes copyright, please contact our staff(nccur@nccu.edu.tw). We will remove the work from the repository and investigate your claim.
    DSpace Software Copyright © 2002-2004  MIT &  Hewlett-Packard  /   Enhanced by   NTU Library IR team Copyright ©   - 回馈