Loading...
|
Please use this identifier to cite or link to this item:
https://nccur.lib.nccu.edu.tw/handle/140.119/99397
|
Title: | 口語語料庫之建置典藏與應用:以臺灣客語口語語料庫為例 The Construction, Archives and Application of Spoken Corpus: A Case Study of The NCCU Corpus of Spoken Hakka in Taiwan |
Authors: | 王勻芊 Wang, Yun Chien |
Contributors: | 蔡明月 賴惠玲 Tsay, Ming Yueh Lai, Huei Ling 王勻芊 Wang, Yun Chien |
Keywords: | 臺灣客語口語語料庫 語料庫建置 數位典藏 語料加值 語料庫 The NCCU Corpus of Spoken Hakka construction of corpus digital archives value-added corpus |
Date: | 2016 |
Issue Date: | 2016-07-21 09:35:26 (UTC+8) |
Abstract: | 多語族社會下的臺灣,各種語言使用反映臺灣文化的多元。語言不僅是溝通工具,更是文化的載體。然而由於社會變動、經濟發展、文化流動及語言使用,造成臺灣華語仍然是臺灣社會最強勢的語言,臺灣閩南語、臺灣客語、原住民語的不同族語相對較於弱勢,而現行的語言政策及語用實際狀況的落差,以及不同語言及次方言之間相互影響或排擠等因素,更造成這些語言快速消失,導致臺灣語言及文化的多樣性降低,因此語言典藏及保存實是刻不容緩。其中,建置語料庫以提供長期且穩定的語言典藏及研究,是臺灣當前語言政策措施之外,可行而有效的方法之一。有鑑於臺灣的客語正面臨逐漸消失的危機,全球第一個以臺灣客語口語為主的語料庫──「臺灣客語口語語料庫(The NCCU Corpus of Spoken Hakka)(http://140.119.172.200/)」的建置及維護,便具有相當高的前瞻性,且該語料庫仍屬於一個成長的有機體,其應用層面是有可塑性的。
本研究分析「臺灣客語口語語料庫」的建置、典藏及應用。主要目的為:(1)探討語料庫的意義、價值、原理和內涵;(2)概述國內外語料庫的案例、探討語料庫建置典藏與應用文獻,及分析語料庫架構和建置模式;(3)分析「臺灣客語口語語料庫」的建置與典藏;(4)探究「臺灣客語口語語料庫」的加值與應用。語料包含「對話」和「獨白」兩類型,截至2016年6月共收錄83筆語料。主題式對話是由兩至三位語料發音人不限主題以聊天的方式自由進行談話,語料發音人來自桃園(楊梅、新屋、中壢、觀音、平鎮)、新竹、苗栗、臺中(東勢)、高雄(美濃)、屏東、花蓮等地區,涵蓋臺灣客語四縣、海陸、大埔、饒平等不同次方言的口語,經轉寫並完成第二次校訂的語料有15筆公開在本網站。口述故事由單一語料發音人獨自完成,以Mercer Mayer的Frog, where are you?為引,請年輕的客家子弟用客語「看圖說故事」,本網站已公開4筆。另有29筆轉寫完成之語料待公開、35筆語料整理中(截至2016年6月16日)。本研究以跨學科的角度探討語料庫的功能、口語語料庫的作用,利用個案研究法以及內容分析法,剖析臺灣客語口語語料庫的建置、典藏之流程,再由語料的後設資料,以量化呈現此語料庫的建置內容,並進一步探討語料庫未來的應用,達到語料加值的目的。研究最後以臺灣客語口語語料庫應用於教學為例,建議擷取口語語料日常會話的影音編輯,做為聽力及會話的學習材料,提供學習者生活化及道地的客語使用。本研究希望透過對「臺灣客語口語語料庫」的詳盡介紹,能揭示本語料庫對臺灣客語典藏、保存的重要性。 Language is for communication, but mostly importantly it represents a culture. Taiwan is a multi-language society that reflects multicultural diversity. However, due to historical, social and economic development and changes, Taiwanese Mandarin has become the most dominant language in Taiwan. The existing language policy and the actual situation of language usage lead to mutual exclusion among different languages and dialects, causing Taiwanese Hokkien, Taiwanese Hakka and aboriginal languages to face serious language loss. Preservation for the disappearing languages is an urgent issue for maintaining the diversity of culture and language. Among the many measures, the construction of a corpus for long-term and stable preservation and research is a promising way. To this end, The NCCU Corpus of Spoken Hakka (http://140.119.172.200/) is a proactive action. This corpus is still a growing organism and has multiple applications.
This research aims to analyze the construction, archives and application of The NCCU Corpus of Spoken Hakka. The main purposes are: (1) to examine the significance, value, principle and essence of corpora; (2) to analyze domestic and international corpora, focusing on their construction, archives and application; (3) to analyze the construction and archives of The NCCU Corpus of Spoken Hakka; (4) to investigate the value and application of The NCCU Corpus of Spoken Hakka. The corpus contains two kinds—face-to-face conversation and narrative. Up until now (dated 2016/06), 83 items have been collected. Face-to-face conversation records free chatting of two to three speakers; the speakers are from Tao-Yuan (Yang-Mei, Xin-Wu, Zhong-Li, Guan-Yin, Ping-Zhen), Hsin-Chu, Miao-Li, Tai-Chung (Dong-Shi), Kao-Hsiung (Mei-Nong), Ping-Tung and Hua-Lien, encompassing different sub-dialects of Taiwanese Hakka (Si-Xian, Hai-Lu, Da-Pu and Rao-Ping). On the website, 15 tokens of transcribed and proofread are uploaded for accessibility (dated 2016/06/16). Narrative is completed by one speaker to tell a story based on Frog, where are you?. On the website (dated 2016/06/16), 4 tokens of narrative have been uploaded for accessibility. 29 tokens of transcribed data are waiting for uploading, and 35 tokens are being transcribed.
This research, analyzing The NCCU Corpus of Spoken Hakka, integrates interdisciplinary methods, including case study, content analysis, construction and archives, statistical analysis, and the metadata of language materials. Application of the corpus is demonstrated by using the corpus data for teaching Taiwanese Hakka. It is also suggested that the corpus data of authentic Taiwanese Hakka can be designed for language learning materials. In sum, this research provides a thorough examination of The NCCU Corpus of Spoken Hakka, showing the significance of this corpus for the archives and preservation of Taiwanese Hakka. |
Reference: | Gibbs, W. W.(2002)。搶救瀕臨滅絕的人類語言。科學人雜誌,8,49-56。
人類認知的跨科比較研究室(2001)。現代漢語常用字頻統計 – HUMANUM。檢自http://humanum.arts.cuhk.edu.hk/Lexis/chifreq/。
大眾運輸工具播音語言平等保障法(民89年4月19日)。
中央研究院(1990)。上古漢語標記語料庫。檢自http://Old_Chinese.ling.sinica.edu.tw/。
中央研究院(1990)。中文句結構樹資料3.0(Sinica Treebank) 。檢自http://treebank.sinica.edu.tw/。
中央研究院(1990)。中古漢語標記語料庫。檢自http://middle_chinese.ling.sinica.edu.tw/。
中央研究院(1990)。古漢語語料庫。檢自http://hanji.sinica.edu.tw/。
中央研究院(1990)。近代漢語標記語料庫。檢自http://Early_Mandarin.ling.sinica.edu.tw/。
中央研究院(1990)。現代漢語平衡語料庫。檢自 http://www.sinica.edu.tw/SinicaCorpus/。
中央研究院(2001)。台灣南島語語料庫。檢自 http://languagearchives.sinica.edu.tw/cht/index.php@code=list&ids=30.html。
中央研究院(2003)。閩南語典藏-歷史語言與分布變遷資料庫。檢自 http://southernmin.sinica.edu.tw/index.asp。
中央研究院(2007)。閩客語典藏。檢自http://minhakka.ling.sinica.edu.tw/bkg/index.php。
中央研究院(2011)。口語韻律語料庫暨工具平台庫。檢自http://www.aclclp.org.tw/use_mat_c.php#cospro。
中央研究院語言學研究所(2002)。新世紀語料庫-多媒體的呈現與典藏。檢自http://mmc.sinica.edu.tw/。
中國民國客家委員會(2015)。臺灣客語詞彙資料庫。檢自http://wiki.hakka.gov.tw/。
中華民國客家委員會(2007)。細說文史。檢自:http://www.hakka.gov.tw/ct.asp?xItem=28562&ctNode=1773&mp=1771&ps=1。
中華民國客家委員會(2013)。101至102年度臺灣客家民眾客語使用狀況。新北:客委會。
中華民國客家委員會(2016)。客語薪傳師總覽。檢自:http://master.hakka.gov.tw/default/nlp_list.aspx。
中華民國教育部(2006)。臺灣客家語常用詞辭典辭典附錄。檢自:http://hakka.dict.edu.tw/hakkadict/addendum/b07.htm。
王東(1998)。客家學導論。臺北:南天。
世界文化多樣性宣言(中文版)。聯合國教科文組織第20次全體會議報告(2011年11月2日)。
北京大學中國語言學研究中心(2003)。語料庫。檢自http://ccl.pku.edu.cn/corpus.asp。
行政院客家委員會(2006)。95年度臺灣客家民眾客語使用狀況調查。新北:客委會。
何安平主編(2004)。語料庫在外語教育中的應用:理論與實踐。廣東:廣東高等教育。
何萬順(2009)。臺灣華語與本土母語:衝突抑或相容?。海翁台語文教學季刊,3,26-39。
克里斯托(Crystal. D.)(2001)。語言的死亡。臺北:貓頭鷹。(原著出版於2000年)
李文翔、晏蒲柳、夏德麟(2004)。基於內容主題的語料庫系統設計與實現。計算機應用研究,10,149-151。
李佩瑛等(2010)。語料庫建置入門數位化工作流程指南。臺北:數位典藏拓展臺灣數位典藏計畫。
林修澈(2004)。客家學研究史論:客家學的成立與發展。新北:客委會獎助客家學術研究計畫。
邱湘雲(2004)。臺灣閩、客方言比較的意義及其語言比較。問學,6,55-83。
長榮大學(2013)。CJCU EBMP文章語料庫。檢自 http://210.70.165.34/corpus-article/search.php。
長榮大學(2013)。商管專業英文語料庫CJCU EBMP。檢自http://ebmp.cjcu.edu.tw/corpus-new/search1.php。
阿景(2011/5/12)。從隱身到發聲,客語斷層危機仍待克服。臺灣好生活【電子報】。檢自http://www.taiwangoodlife.org/story/20110512/3776。
客家基本法(民99年1月27日)。
柯華葳(2014)。華語文八年計畫「建置應用語料庫及標準體系」103 年工作計畫期末報告。臺北:國家教育研究院。
洪惟仁(1997)。1997臺灣公共場所使用語言調查。載於董忠司(主編)臺灣語言發展學術研討會論文集(29-45頁)。新竹:全民書局。
洪惟仁(2002)。臺灣的語言政策何去何從。施正鋒(主編)各國語言政策──多元文化與族群平等(501-542頁)。臺北:前衛。
烏衣行(2010)。烏衣行客家語輸入法。烏衣行+【部落格】。檢自http://wesingkasu.blogspot.tw/2012/01/blog-post_22.html。
唐鳳、GOV零時政府(未知)。萌典-教育部國語、臺語、客語辭典民間版。檢自https://www.moedict.tw/%E8%90%8C。
馬建奎(2011)。語料庫輔助詞典編撰的歷時演變與功能作用。華章,31,117。
高照明、林慶隆、丁彥平、劉寶琦、陳南蓁(2012)。語料庫建構技術研究報告。教育部國家教育研究院研究成果報告(編號:NAER-101-12-F-2-03-00-3-02),未出版。
高歡(2015)。中國瀕危語言語料庫建設初探──以廣西融水誒話語料庫為例。民族論壇,5,97-99。
國民中小學開設本土語言選修課程應注意事項(民103年3月18日)。
國立中正大學語言所(2012)。國立中正大學臺灣閩南語口語語料庫。檢自http://lngproc.ccu.edu.tw/SouthernMinCorpus/。
國立成功大學外國語文學系。臺灣多國語言學習者語料庫。檢自http://corpora.flld.ncku.edu.tw/。
國立政治大學(2007)。國立政治大學漢語口語語料庫,客語口語語料庫。檢自:http://140.119.172.200/hakka/。
國立政治大學(2007)。國立政治大學漢語口語語料庫,客語口語語料庫對話(Conversation)-CN。檢自:http://140.119.172.200/hakka/index-CN.php。
國立政治大學(2007)。國立政治大學漢語口語語料庫,會員登入。檢自:http://140.119.172.200/newmember/login.php。
國立政治大學(2007)。國立政治大學漢語口語語料庫,語料。檢自:http://140.119.172.200/chinese/nuucchi.php。
國立政治大學(2007)。國立政治大學漢語口語語料庫,檢索系統。檢自:http://140.119.172.200/chinese/searchWord.php。
國立政治大學(2007)。國立政治大學漢語口語語料庫。檢自:http://140.119.172.200。
國立政治大學(2007)。國立政治大學漢語口語語料庫。檢自:http://140.119.172.200/chinese/cmain.php。
國立臺灣大學語言所(2014)。批踢踢語料庫-LOPEN Project。檢自http://lopen.linguistics.ntu.edu.tw/PTT。
國立臺灣大學語言學研究所(2015)。臺大臺灣南島與多媒體語料庫。檢自http://corpus.linguistics.ntu.edu.tw/index_zh.php。
國立臺灣大學語言學研究所。開放語料庫與搜尋工具(COPENS)。檢自 http://lopen.linguistics.ntu.edu.tw/copens。
國立臺灣師範大學華語文教學研究所(2009)。漢語學習者漢字偏誤數據資料庫。檢自http://free.7host05.com/bluekid828/。
國家語言發展法草案,立法院第7屆第1會期第2次會議議案關係文書(民97年2月1日)。
張顯達、張鑑如、柯華葳、蔡素娟(2011)。台灣兒童語言語料庫之建置(NSC96-2420-H-002-030)。臺灣兒童語言語料庫(TCCM)。檢自http://taiccm.org/。
教育部(2008)。臺灣客家語常用詞辭典網路版(試用版)。檢自http://hakka.dict.edu.tw/hakkadict/index.htm。
曹逢甫、黃雅榆(2002)。客語危機以及客家人對客語和政府語言政策的態度。張維安(主編)客家公共政策研討會論文集(12-68頁)。新北:行政院客家委員會。
陳雅文(1995)。內容分析法Content Analysis Method【線上辭書】。檢自:http://terms.naer.edu.tw/detail/1683205/。
陳雅文(1995)。個案研究法Case Study【線上辭書】。檢自:http://terms.naer.edu.tw/detail/1681584/。
陳萬淇(1985)。個案研究法。臺北:華泰。
曾元顯(2012)。詞頻(term frequency)【線上辭書】。檢自:http://terms.naer.edu.tw/detail/1678993/。
程俊琳(2008)。語料庫詞典編纂與電子工具書的互逆現象探究。淮北職業技術學院學報,4,59-61。
黃昌寧、李涓子(2002)。語料庫語言學。北京:商務印書館。
黃宣範(1993)。語言、社會與族群意識──台灣語言社會學的研究。臺北:文鶴。
楊惠中主編(2002)。語料庫語言學導論。上海:上海外與教育出版社。
語言平等法(民92年2月10日)。
語料庫在線(2010)。關於語料庫線上網站。檢自http://www.cncorpus.org/。
蔡永橙、黃國倫、邱志義(2007)。數位典藏技術導論。臺北:臺大出版中心、中央研究院。
盧慧娟、李惠琦、謝文真、黃淑妙(2008)。補助人文及社會科學研究圖書計畫規劃主題──語料庫語言學。行政院國家科學委員會專題研究成果報告(編號:NSC97-2420-H006-040-2E2),未出版。
賴文英(2015)。臺灣客語語法導論。臺北:國立臺灣大學出版中心。
賴惠玲(2006)。客語語法研究議題的開發:以語料庫為本。臺北:行政院客家委員會。
賴惠玲(2010)。客語語料庫之系統化建構與量化分析。臺北:行政院客家委員會。
錢厚生(2002)。語料庫建設與詞典編纂。辭書研究,1,58-68。
靜宜大學(2005)。蘭嶼達悟語口語資料典藏網。檢自http://yamiproject.cs.pu.edu.tw/yami/。
謝杰雄(2006)。語料庫的建置與臺灣客家語VP研究(未出版之碩士論文)。國立新竹教育大學,新竹市。
謝杰雄(2008)。山哈客語語料庫。檢自http://210.240.1.36/~hakka/index.php?inpage=tongue。
鍾屏蘭(2012)。客語語料庫分詞原則探析。客家研究,5(1),149-186。
鍾榮富(2002)。臺灣語言政策與實際語用的現況。張維安(主編)客家公共政策研討會論文集(73-83頁)。新竹:國立清華大學。
羅肇錦(2006)。客語源起南方的語言論證。語言暨語言學.客語專號,2,545-568。
American National Corpus (2002). The Open American National Corpus. Retrieved from http://www.anc.org/
Argamon, S., Dodick, J., & Chase, P. (2008). Language use reflects scientific methodology: a corpus-based study of peer-reviewed journal articles. Scientometrics, 75(2), 203-238.
Bamberg, M. & Marchman, V. (1990). What Holds A Narrative Together? The Linguistic Encoding of Episode Boundaries. IPrA Papers in Pragmatics, 4(1/2)(pp.58-121). Belgium: International Pragmatics Association (IPrA).
British National Corpus (2009) . About the BNC. Retrieved from http://www.natcorp.ox.ac.uk/
Campoy, M.C., & Luzón, M.J.(2007). Spoken Corpora in Applied Linguistics. New York, NY: Peter Lang.
Christopher, M. (2012). Atlas of the World’s Languages in Danger (3rd ed.) Paris, France: UNESCO.
Chui, K., & Lai, H.L. (2008). The NCCU Corpus of Spoken Chinese: Mandarin, Hakka, and Southern Min . Taiwan Journal of Linguistics, 6(2), 119-144.
Chui, K.W. & Lai, H.L. (2008). The NCCU Corpus of Spoken Chinese: Mandarin, Hakka, and Southern Min. Taiwan Journal of Linguistics, 6(2), 119-144.
Crystal, D. (2008). A Dictionary of Linguistics and Phonetics (6th ed.). England: Blackwell.
Du Bois, J.W., Schuetze-Coburn, S., Cumming, S., & Paolino, D. (1993). Talking data: transcription and coding in discourse research. Hillsdale, NJ: Lawrence Erlbaum.
Flowerdew, L. (2012). Corpora and Education. England: Palgrave Macmillan.
Hunston, S. (2002). Corpora in Applied Linguistics. England: Cambridge University Press.
Jahangirian, M., Eldabi, T., Garg, L., Jun, G.T., & Naseer, A. (2011). A rapid review method for extremely large corpora of literature: Applications to the domains of modelling, simulation, and management. International Journal of Information Management, 31(3), 234-243.
Jettka, D., & Stein, D. (2014). The HZSK Repository: Implementation, Features, and Use Cases of a Repository for Spoken Language Corpora. D - Lib Magazine, 20(9).
Kibrik, A A, & Podlesskaya, V I. (2003). Corpora of spoken Russian: transcription principles. Nauchno- Tekhnicheskaya Informatsiya. Series 2(10), 5-12.
Lewis, M. P., Simons, F. G., & Fennig, C.D. (2015). Ethnologue: Languages of the World (18th ed.). Dallas, TX: SIL International.
Mayer, M. (1969). Frog, where are you?. Michigan: Dial Press.
McEnery, T., Xiao, R. & Tono, Y. (2006). Corpus-based Language Studies: An Advanced Resource Book. England: Routledge.
Reilly, J., Losh, M., Bellugi, U. & Wulfeck, B. (2003). “Frog, where are you?” Narratives in children with specific language impairment, early focal brain injury, and Williams syndrome. Brain and Language. Advance online publication. doi: 10.1016/S0093-934X(03)00101-9
Sinclair, J. (1991). Corpus Concordance, Collocation. Oxford, England: Oxford University Press.
Slobin, D.I. (1996). From “thought and language” to “thinking for speaking”. Rethinking Linguistic Relativity, 70-96.
The Corpus of Contemporary American English (2002). History. Retrieved from http://corpus.byu.edu/coca/
UNESCO (2008). Mother Tongue Matters: Local Language as Key to Effective Learning. Paris, France: United Nations Educational, Scientific and Cultural Organization.
UNESCO (2011). UNESCO Project “Atlas of the World’s Languages in Danger”. Paris, France: United Nations Educational, Scientific and Cultural Organization.
UNESCO (2015). Biodiversity and linguistic diversity. Retrieved from http://www.unesco.org/new/en/culture/themes/endangered-languages/biodiversity-and-linguistic-diversity/
Zheng, H.T., Borchert, C., Kim, H.G. (2009). Exploiting Corpus-Related Ontologies for Conceptualizing Document Corpora. Journal of the American Society for Information Science and Technology, 60(11), 2287-2299. |
Description: | 碩士 國立政治大學 圖書資訊與檔案學研究所 103155006 |
Source URI: | http://thesis.lib.nccu.edu.tw/record/#G0103155006 |
Data Type: | thesis |
Appears in Collections: | [圖書資訊與檔案學研究所] 學位論文
|
Files in This Item:
File |
Size | Format | |
500601.pdf | 24415Kb | Adobe PDF2 | 880 | View/Open |
|
All items in 政大典藏 are protected by copyright, with all rights reserved.
|