政大機構典藏-National Chengchi University Institutional Repository(NCCUR):Item 140.119/147093
English  |  正體中文  |  简体中文  |  Post-Print筆數 : 27 |  全文笔数/总笔数 : 113656/144643 (79%)
造访人次 : 51719169      在线人数 : 634
RC Version 6.0 © Powered By DSPACE, MIT. Enhanced by NTU Library IR team.
搜寻范围 查询小技巧:
  • 您可在西文检索词汇前后加上"双引号",以获取较精准的检索结果
  • 若欲以作者姓名搜寻,建议至进阶搜寻限定作者字段,可获得较完整数据
  • 进阶搜寻


    请使用永久网址来引用或连结此文件: https://nccur.lib.nccu.edu.tw/handle/140.119/147093


    题名: 以深度學習模型自動序列標記客語詞性之研究
    A study on part-of-speech sequential tagging with deep learning models for Taiwan Hakka language
    作者: 吳明宗
    Wu, Ming-Tsung
    贡献者: 劉吉軒
    Liu, Jyi-Shane
    吳明宗
    Wu, Ming-Tsung
    关键词: 深度學習
    自然語言處理
    中文詞性標記
    預訓練模型
    Simple RNN
    LSTM
    transformer
    Bert
    deep learning
    natural language processing
    Chinese part-of-speech tagging
    pre-training model
    Simple RNN
    LSTM
    transformer
    Bert
    日期: 2023
    上传时间: 2023-09-01 15:39:01 (UTC+8)
    摘要: 目前客語語料的蒐集非常困難,如何利用少許的客語語料,建立出一個詞性對應辭典,進而快速而準確的標記客語詞性,就是一個重要的議題。目前深度學習相關的模型都有此相關的應用,所以透過實際將標記過的資料處理成深度學習相關模型可以讀取的格式後,進行訓練再比較各模型的預測詞性結果,本文先後使用了Simple RNN、Bi LSTM、Bert模型各別訓練更預測後,將結果比較分析,抉擇出較好的詞性預測方法。
    針對Transformer的Bert部分,由於中研院有提供了中文的預訓練模型(Bert-base-Chinese-Pos),本文則是使用了Finetune方式並將客語字彙加入訓練。實驗結果SimpleRNN準確性約為91%、BiLSTM準確性約為93%及Bert準確性約為93%。
    The collection of Hakka language corpus is currently very difficult. How to use a small amount of Hakka language data to establish a part-of-speech dictionary and quickly and accurately tag the parts of speech is an important issue. Deep learning models have been widely applied in this regard. By processing the data into formats readable by deep learning models, different models such as Simple RNN, LSTM, and Transformer were trained and their prediction results were compared and analyzed. Regarding the Transformer model with the Bert component, the study utilized the pre-trained Chinese Bert model (Bert-base-chinese-pos) provided by the Institute of Information Science, Academia Sinica, and fine-tuned it by incorporating Hakka vocabulary during training. The experimental results showed that Simple RNN achieved an accuracy of 91%, BiLSTM achieved an accuracy of 93%, and Bert achieved an accuracy of 93%.
    參考文獻: [1]維基百科自然語言處理,2020-12-19
    https://zh.wikipedia.org/wiki/%E8%87%AA%E7%84%B6%E8%AF%AD%E8%A8%80%
    E5%A4%84%E7%90%86
    [2]《結構句法基礎》(1959年),L.Tesniere。
    [3]詞向量,2019-09-05
    https://ithelp.ithome.com.tw/articles/10213711
    [4]轉換-生成語法
    https://www.newton.com.tw/wiki/轉換生成語法
    [5]畫句法樹的線上服務,2020-09-26
    https://hambao.pixnet.net/blog/post/17704163
    [6] 分佈式語義 Distributional Semantics
    https://academic-accelerator.com/encyclopedia/zh/distributional-semantics
    [7] word2vec的學習心得及glove介紹,2018,gentelyang
    https://www.twblogs.net/a/5b8b200e2b717718832d7a0e
    [8] 客家話怎麼說?基礎客語自學教學與學習筆記(臺灣客家語四縣腔為主)
    https://www.wpchen.net/zh/posts/hakka-language#11_%E5%AE%A2%E8%AA%9E%E7%9A%84%E4%BD%BF%E7%94%A8%E7%8F%BE%E6%B3%81
    [9] 斷開中文的鎖鍊!自然語言處理 (NLP)是什麼?,
    https://aiacademy.tw/what-is-nlp-natural-language-processing/
    [10]自然語言處理-用人工智慧看懂中文,鄭捷,2018.01
    [11] 客語文句轉語音及語音辨認之研究,陳信宏,96 年 8 月 1 日至 99 年 7 月 31 日。
    [12] 中文轉客文文轉音系統中的客語斷詞處理之研究,黃豐隆、余明興、林昕緯、林義証,2014。
    [13] 臺灣客語語料庫,https://corpus.hakka.gov.tw/#/
    [14] 第一個開放的客語斷詞工具(jieba 的演算法替換其詞庫及 HMM 機率表所製作的客家語斷詞程式), https://github.com/ldkrsi/jieba-Hakka
    [15]獨熱編碼,2019-09-18
    https://ithelp.ithome.com.tw/articles/10216967
    [16] [常見的自然語言處理技術] 文本相似度(I): Word Embeddings,2021-09-21,https://ithelp.ithome.com.tw/articles/10268404
    [17]CNN(卷積神經網絡)、RNN(循環神經網絡)、DNN(深度神經網絡)的內部網絡結構的區別,201-02-23
    https://kknews.cc/zh-tw/news/6n84mm3.html
    [18]深度神經網絡(DNN),2017-10-12
    https://zhuanlan.zhihu.com/p/29815081
    [19]Yann LeCun, Yoshua Bengio & Geoffrey Hinton(2015).Deep learning.Nature 521(7553):436-44
    [20] Understanding LSTM Networks,2015-08-27
    https://colah.github.io/posts/2015-08-Understanding-LSTMs/
    [21]Hochreiter, S., & Schmidhuber, J. (1997). Long short-term memory. Neural computation, vol. 9, no. 8, 1735-1780.
    [22]Vaswani, Ashish, et al. "Attention is all you need." Advances in Neural Information Processing Systems . 2017.
    https://arxiv.org/pdf/1706.03762.pdf
    [23] Bidirectional Encoder Representations from Transformers,Bert,https://zh.wikipedia.org/zh-hant/BERT
    [24] [Notes] BERT / BERT 架構理解,Haren Lin,2021。
    https://haren.medium.com/paper-notes-bert-bert-%E6%9E%B6%E6%A7%8B%E7%90%86%E8%A7%A3-31c014d7dd63
    [25]《臺灣客語語料庫》,客家委員會委託國立政治大學團隊建置之國家型語料庫,https://corpus.hakka.gov.tw/#/about-us
    [26] Toxic Language Detection in Social Media for Brazilian Portuguese,João A. Leite, Diego F. Silva, Kalina Bontcheva, Carolina Scarton,2020,P.4。
    [26] Self-Supervised Learning,李宏毅,2021。
    https://speech.ee.ntu.edu.tw/~hylee/ml/ml2021-course-data/bert_v8.pdf
    [27] 李宏毅_ELMO, Bert, GPT,shaoeChen,2021。
    https://hackmd.io/@shaoeChen/Bky0Cnx7L#ELMO-Bert-GPT
    [28]【機器學習】交叉驗證 Cross-Validation,2019,Jason Chen
    https://jason-chen-1992.weebly.com/home/-cross-validation
    [29] Open AI,2023,Wiki
    https://zh.wikipedia.org/zh-tw/OpenAI
    [30] ChatGPT 與 LLM 的技術原理剖析、發展歷程,2023,Kordan Ou
    https://hitripod.com/chatgpt-technical-introduction-history/
    [31] 大型語言模型(large language model,LLM),2023,Wiki
    https://zh.wikipedia.org/zh-tw/%E5%A4%A7%E5%9E%8B%E8%AF%AD%E8%A8%80%E6%A8%A1%E5%9E%8B
    [32] 鍾屏蘭、江俊龍,學術研究基礎建置暨客家文化研究計畫,屏東教育大學客家文化所計畫成果報告書,2009。
    描述: 碩士
    國立政治大學
    資訊科學系碩士在職專班
    105971011
    資料來源: http://thesis.lib.nccu.edu.tw/record/#G0105971011
    数据类型: thesis
    显示于类别:[資訊科學系碩士在職專班] 學位論文

    文件中的档案:

    档案 描述 大小格式浏览次数
    101101.pdf7089KbAdobe PDF20检视/开启


    在政大典藏中所有的数据项都受到原著作权保护.


    社群 sharing

    著作權政策宣告 Copyright Announcement
    1.本網站之數位內容為國立政治大學所收錄之機構典藏,無償提供學術研究與公眾教育等公益性使用,惟仍請適度,合理使用本網站之內容,以尊重著作權人之權益。商業上之利用,則請先取得著作權人之授權。
    The digital content of this website is part of National Chengchi University Institutional Repository. It provides free access to academic research and public education for non-commercial use. Please utilize it in a proper and reasonable manner and respect the rights of copyright owners. For commercial use, please obtain authorization from the copyright owner in advance.

    2.本網站之製作,已盡力防止侵害著作權人之權益,如仍發現本網站之數位內容有侵害著作權人權益情事者,請權利人通知本網站維護人員(nccur@nccu.edu.tw),維護人員將立即採取移除該數位著作等補救措施。
    NCCU Institutional Repository is made to protect the interests of copyright owners. If you believe that any material on the website infringes copyright, please contact our staff(nccur@nccu.edu.tw). We will remove the work from the repository and investigate your claim.
    DSpace Software Copyright © 2002-2004  MIT &  Hewlett-Packard  /   Enhanced by   NTU Library IR team Copyright ©   - 回馈