政大機構典藏-National Chengchi University Institutional Repository(NCCUR):Item 140.119/78817
English  |  正體中文  |  简体中文  |  Post-Print筆數 : 27 |  全文笔数/总笔数 : 113318/144297 (79%)
造访人次 : 51003293      在线人数 : 922
RC Version 6.0 © Powered By DSPACE, MIT. Enhanced by NTU Library IR team.
搜寻范围 查询小技巧:
  • 您可在西文检索词汇前后加上"双引号",以获取较精准的检索结果
  • 若欲以作者姓名搜寻,建议至进阶搜寻限定作者字段,可获得较完整数据
  • 进阶搜寻


    请使用永久网址来引用或连结此文件: https://nccur.lib.nccu.edu.tw/handle/140.119/78817


    题名: 社群媒體新詞偵測系統 以PTT八卦版為例
    Chinese new words detection from social media
    作者: 王力弘
    Wang, Li Hung
    贡献者: 陳恭
    Chen, Kung
    王力弘
    Wang, Li Hung
    关键词: 中文斷詞
    新詞偵測
    社群媒體分析
    Chinese Words Segmentation
    New Words Detection
    Social Media Data Analysis
    日期: 2015
    上传时间: 2015-10-01 14:30:48 (UTC+8)
    摘要: 近年來網路社群非常活躍,非常多的網民都以社群媒體來分享與討論時事。 不傴於此,網路上的群聚力量已經漸漸從虛擬走向現實,社群媒體的傳播力已 經可以與大眾傳媒比擬。像台大 PTT 的八卦版就是一個這樣具指標性的社群媒 體,許多新聞或是事件都從此版開始討論,然後擴散至主流媒體。透過觀察, 網路鄉民常常會以略帶灰諧的方式,發明新的詞彙去討論時事與人物,例如: 割闌尾、祭止兀、婉君、貫老闆...等。這些新詞的出現,很可能代表一個新的熱門話題的正在醞釀中。但若以傳統的關鍵詞搜索,未必能找到這些含有此類新詞的討論文章。因此,本研究提出一個基於「滑動視窗(Sliding window)」的技巧來輔助中文斷詞,以利找出這些新詞,並進而透過這些新詞對來探詢社群媒體中的新興話題。我們以此技巧修改知名的Jieba 斷詞工具,加上新詞偵測的機制,並以 PTT的八卦版為監測對象,經過長期的的監測後,結果顯示我們的系統可以正確的找出絕大多數的新詞。此外,經過與主流媒體交叉比對,本系統發現的新詞與新話題的確有極高的相關性。
    Internet new residents like to share society current event on the social media website and the influence is propagate to the reality now. For example: On Gossip(八卦版) discussion board of 台大 PTT BBS that had many post are turn into the TV News every day. After some survey we found people like to crate new words to explain society topics, This paper attempt to build up a system to detect the new words from social media. But detect the Chinese new words from unknown words is a thorny problem, on this paper we invent a way – 『Sliding Window』 to elevate the new words detection from Jieba in Chinese words Segmentation, After testing we got 96.94% correct rate and cross valid the detection result by ours system with News and Google Trending we proved the new words detection is a reasonable way to discover new topic.
    參考文獻: [1] 陳鍾誠、許聞廉,(1998),結合統計與規則的多層次中文斷詞系統。
    [2] 陳聰宜,(2012),新聞事件偵測與追蹤結合時間區間之分群分類演算法評比。
    [3] ACID, http://zh.wikipedia.org/wiki/ACID
    [4] Chen. & Bai. , (1998).Unknown word Detection for Chinese by Corpus-based
    Learning Method.
    [5] Chen. & Ma. , (2002). Unknown Word Extraction for Chinese Document.
    [6] DAG,http://www.csie.ntnu.edu.tw/~u91029/DirectedAcyclicGraph.html#1
    [7] http://zh.wikipedia.org/wiki/隐马尔可夫模型
    [8] http://zh.wikipedia.org/wiki/维特比算法
    [9] Jieba 斷詞工具, https://github.com/fxsjy/jieba
    [10]L. Jin , (2013)Number in Chinese: A Corpus-Based Computational
    Investigation.
    [11] Mongodb,http://docs.mongodb.org/manual/core/crud-introduction/
    [12] NoSQL, http://zh.wikipedia.org/wiki/NoSQL
    [13] QX Lin, (2010),結合長詞優先與序列標記之中文斷詞研究。
    [14] Yi-Lun Wu, (2011),多語語碼轉換之未知詞擷取。
    [15] Zhihui. Wu, Hongwei. Liu, Li. Chen, (2014),高效朴素贝叶斯 Web 新闻文本
    分类模型的简易实现,The Simply Implement of Effective Statistical and
    Application 统计学与应用, 3, 30-35。
    [16] Z. Wu, (2014)The Simply Implement of Effective Naive Bayes Web News Text
    Classification Model.
    描述: 碩士
    國立政治大學
    資訊科學系碩士在職專班
    102971012
    資料來源: http://thesis.lib.nccu.edu.tw/record/#G0102971012
    数据类型: thesis
    显示于类别:[資訊科學系碩士在職專班] 學位論文

    文件中的档案:

    档案 大小格式浏览次数
    101201.pdf2416KbAdobe PDF22690检视/开启


    在政大典藏中所有的数据项都受到原著作权保护.


    社群 sharing

    著作權政策宣告 Copyright Announcement
    1.本網站之數位內容為國立政治大學所收錄之機構典藏,無償提供學術研究與公眾教育等公益性使用,惟仍請適度,合理使用本網站之內容,以尊重著作權人之權益。商業上之利用,則請先取得著作權人之授權。
    The digital content of this website is part of National Chengchi University Institutional Repository. It provides free access to academic research and public education for non-commercial use. Please utilize it in a proper and reasonable manner and respect the rights of copyright owners. For commercial use, please obtain authorization from the copyright owner in advance.

    2.本網站之製作,已盡力防止侵害著作權人之權益,如仍發現本網站之數位內容有侵害著作權人權益情事者,請權利人通知本網站維護人員(nccur@nccu.edu.tw),維護人員將立即採取移除該數位著作等補救措施。
    NCCU Institutional Repository is made to protect the interests of copyright owners. If you believe that any material on the website infringes copyright, please contact our staff(nccur@nccu.edu.tw). We will remove the work from the repository and investigate your claim.
    DSpace Software Copyright © 2002-2004  MIT &  Hewlett-Packard  /   Enhanced by   NTU Library IR team Copyright ©   - 回馈