English  |  正體中文  |  简体中文  |  Post-Print筆數 : 27 |  Items with full text/Total items : 114205/145239 (79%)
Visitors : 52581434      Online Users : 209
RC Version 6.0 © Powered By DSPACE, MIT. Enhanced by NTU Library IR team.
Scope Tips:
  • please add "double quotation mark" for query phrases to get precise results
  • please goto advance search for comprehansive author search
  • Adv. Search
    HomeLoginUploadHelpAboutAdminister Goto mobile version
    Please use this identifier to cite or link to this item: https://nccur.lib.nccu.edu.tw/handle/140.119/150260


    Title: 政府開放資料之個資隱私保護系統設計研究-以臺北市政府開放資料為例
    Design of Personal Data Privacy Protection System for Government’s Open Data – A Case Study of Taipei City Government’s Open Data
    Authors: 王恩力
    Wang, En-Li
    Contributors: 劉昭麟
    Liu, Chao-Lin
    王恩力
    Wang, En-Li
    Keywords: 開放資料
    個人資料
    隱私
    正則表達式
    斷詞斷句
    資料遮蔽
    系統設計
    Open Data
    Personal Data
    Privacy
    Regular Expressions
    Word Segmentation
    Data Masking
    System Design
    Date: 2024
    Issue Date: 2024-03-01 14:11:52 (UTC+8)
    Abstract: 當今數位化蓬勃發展時代,政府如何兼顧開放精神與個資隱私保護將是一大挑戰,本研究盼藉由設計一套提供政府開放資料使用之個資隱私保護系統,並以臺北市政府開放資料為例。為此,本研究先以個資隱私保護系統相關國際與國家標準為法遵基礎,接續以相關個資遮蔽技術進行實作,最後以機器模型評價指標確認成效。
    系統流程主要包含「欄位個資檢測」、「內容個資檢測」、「內容個資遮蔽」、「數值隱私檢測」,從資料的欄位、內容以及數值部分,全面性地為個資隱私保護把關,「欄位個資檢測」使用關鍵詞庫的維護方式;「內容個資檢測」使用正則表達式與中文斷詞斷句技術;「內容個資遮蔽」則接續「內容個資檢測」設定遮蔽規則進行遮蔽;「數值隱私檢測」提供「稀少值」與「離群值」的檢測。
    在實際抽樣共計30項臺北市政府的開放資料集進行實驗後,本系統設計可行,欄位個資檢測平均F1 score達0.91,內容個資檢測在7類個資屬性中,僅中文姓名F1 score為0.7312尚待加強、其餘6類F1 score均獲得0.95以上表現,內容個資遮蔽實驗結果均符合預期,最終,數值隱私分析架構亦可行,結合業務邏輯分析,可於資料開放前確保隱私。
    In the era when digitization thrives massively, it is a significant challenge for governments to balance the spirit of openness and the protection of personal data privacy. This research aims to design a system for safeguarding personal data privacy to provide government agencies to use open data, and takes the Taipei City Government's open data as an example. In order to achieve this goal, this research first adheres to international and national standards related to personal data privacy protection. Subsequently, it implements relevant personal data masking techniques, and finally uses machine model evaluation indicators to confirm the effectiveness.
    The system workflow primarily includes four steps: "Schema Personal Data Detection", "Content Personal Data Detection," "Content Personal Data Masking", and "Numerical Privacy Detection." This system design comprehensively monitors personal data privacy at the levels of data schemas, content, and numerical values. " Schema Personal Data Detection" uses the maintenance method of keyword database. "Content Personal Data Detection" uses regular expressions and Chinese word and sentence segmentation technology. "Content Personal Data Masking" will be masked by setting rules, and is followed by the "Content Personal Data Detection" step. "Numerical Privacy Detection" offers the detection of "rare values" and "outliers."
    After actually sampling 30 items from all open data sets of the Taipei City Government for experiments, this system design proves to be feasible. The average F1 score for Schema Personal Data Detection is 0.91. For Content Personal Data Detection, among the seven categories of personal data attributes, only the F1 score for Chinese names is 0.7312 requiring further improvement, while the F1 score for the other six categories exceed 0.95. The results of Content Personal Data Masking experiments align with expectations. Finally, the numerical privacy detection structure is also feasible. Combined with business logic analysis, privacy can be ensured by this system design before data is opened.
    Reference: 一、中文部分
    [1] 中央研究院資訊科學研究所,〈CKIP Tagger—中文斷詞暨實體辨識系統〉,檢自https://ckip.iis.sinica.edu.tw/resource(上網日期:2023年10月11日)。
    [2] 中央研究院資訊科學研究所,〈ckiptagger 0.2.1 Python Package〉,檢自https://pypi.org/project/ckiptagger,(上網日期:2023年10月11日)。
    [3] 央研究院資訊科學研究所,〈ckiptagger 0.2.1 GitHub說明文件〉,檢自https://github.com/ckiplab/ckiptagger/wiki/Chinese-README(上網日期:2023年10月11日)。
    [4] 王保進,〈第一類型錯誤(Type I Error)名詞解釋〉,國家教育研究院樂詞網,檢自https://terms.naer.edu.tw/detail/8737dc64077e048e184f372de7bd32ef/(上網日期:2023年10月28日)。
    [5] 王保進,〈第二類型錯誤(Type II Error)名詞解釋〉,國家教育研究院樂詞網,檢自https://terms.naer.edu.tw/detail/0fd67eb7cd6a3fa9240c791a10a286a2/(上網日期:2023年10月28日)。
    [6] 王興娟,〈行政院主計總處個資去識別化作業辦理情形與成效〉,主計月刊,第753期,頁75,2018年9月。
    [7] 交通部公路局,〈號牌型式及編碼規則表-相關檔案1.原型式、新式、「一車一號」新編碼方式號牌區分對照表〉,交通部公路局官方網站,檢自https://www.thb.gov.tw/cp.aspx?n=102(上網日期:2023年10月11日)。
    [8] 李世德,〈GDPR與我國個人資料保護法之比較分析〉,台灣經濟論衡,第16卷,第3期,頁69-75,2018年9月。
    [9] 吳仁河,〈物件導向系統分析與設計:結合MDA與UML〉,智勝文化事業有限公司,臺灣,2022年,第七版。
    [10] 吳全峰,許慧瑩,〈健保資料目的外利用之法律爭議-從去識別化作業工具談起〉,月旦法學雜誌,第 272 期,頁45-62,2017年12月。
    [11] 邱皓政,林碧芳,〈統計學:原理與應用,五南圖書出版股份有限公司,臺灣,2022年,第4版。
    [12] 林婷嫻,〈斷開中文的鎖鍊!自然語言處理 (NLP)〉,中央研究院研之有物,2018年7月3日,檢自https://research.sinica.edu.tw/nlp-natural-language-processing-chinese-knowledge-information(上網日期:2023年10月29日)。
    [13] 連中岳,〈臺灣醫療影像資訊標準協會-數位醫學影像去識別化實作指引手冊〉,國立臺北護理健康大學,臺北市,臺灣,2019年。
    [14] 莊盈志,〈我國政府資料開放推動策略與展望〉,國家發展委員會檔案管理局檔案季刊,第14卷,第4期,頁23-25,2015年12月。
    [15] 國家發展委員會民國103年12月31日發資字第1031501471號函。
    [16] 國家發展委員會,〈個人資料保護法〉,全國法規資料庫,檢自https://law.moj.gov.tw/LawClass/LawAll.aspx?PCode=I0050021(上網日期:2023年10月22日)。
    [17] 國家發展委員會,〈個人資料保護法施行細則〉,全國法規資料庫,檢自https://law.moj.gov.tw/LawClass/LawAll.aspx?PCode=I0050022(上網日期:2023年10月22日)。
    [18] 黃國裕,〈最新個人資訊管理系統(PIMS)國際標準〉,政府機關資訊通報,第 352 期,頁1-2,2018年4月。
    [19] 經濟部標準檢驗局,〈CNS 27701安全技術-用於隱私資訊管理之CNS 27001及CNS 27002延伸-要求事項及指導綱要〉,2020年。
    [20] 經濟部標準檢驗局,〈CNS 29100 資訊技術-安全技術-隱私權框架〉,2014年。
    [21] 經濟部標準檢驗局,〈CNS 29100-1資訊技術-安全技術-個資管理系統要求事項〉,2019年。
    [22] 經濟部標準檢驗局,〈CNS 29100-2資訊技術-安全技術-個人資訊去識別化過程管理系統-要求事項〉,2019年。
    [23] 經濟部標準檢驗局,〈CNS 29101資訊技術-安全技術-隱私權架構框架〉, 2017年。
    [24] 經濟部標準檢驗局,〈CNS 29134資訊技術-安全技術-隱私衝擊評鑑之指導綱要〉,中華民國國家標準CNS 29134,2019年。
    [25] 經濟部標準檢驗局,〈CNS 29191資訊技術-安全技術-部分匿名及部分去連結鑑別之要求事項〉,2015年。
    [26] 臺北市政府秘書處,〈臺北市政府個人資料遮罩作業 SOP〉,臺北市法規查詢系統,檢自https://www.laws.taipei.gov.tw/Law/SOPContent/SOPContent?sop_NO=P01000015(上網日期:2023年10月11日)。
    [27] 臺北市政府資訊局,〈臺北市政府個資去識別化平臺標準作業流程〉,臺北市法規查詢系統,檢自https://www.laws.taipei.gov.tw/Law/LawSearch/LawInformation?lawId=P34G2005-20230328&realID=34-07-2005(上網日期:2023年10月11日)。
    [28] 臺北市政府資訊局,〈臺北市資料大平臺—關於網站—關於我們〉,臺北市資料大平臺,檢自https://data.taipei/about/aboutus(上網日期:2023年10月29日)。
    [29] 數位發展部,〈政府資料開放平臺¬—關於平臺〉,政府資料開放平臺,檢自https://data.gov.tw/about(上網日期:2023年10月11日)。
    [30] 數位發展部,〈資料標準列表〉,政府資料標準平臺,檢自https://schema.gov.tw/lists(上網日期:2023年10月11日)。
    [31] 樊國楨,蔡昀臻,〈個人資料去識別之標準化的進程初探:根基於ISO/IEC 2nd WD 20889:2016-05-30〉,經濟部標準與檢驗雙月刊,第196期,頁71-79,2016年7月。
    [32] 樊國楨,蔡昀臻,〈整合性資訊安全管理系統實作初探之一:根基ISO/IEC 27001與個人資料管理系統的全景〉,經濟部標準與檢驗雙月刊,第195期,頁83-88,2016年5月。
    [33] 憲法法庭,〈111年憲判字第13號【健保資料庫案】〉,檢自https://cons.judicial.gov.tw/docdata.aspx?fid=38&id=309956(上網日期:2023年10月29日)。
    二、英文部分
    [34] D. Barber, Bayesian Reasoning and Machine Learning (1st ed.), Cambridge, U.K.: Cambridge University Press, 2012.
    [35] G. Ravikumar, B. Rabi, T. Manjunath, S. Ravindra and R. Archana, “Design of Data Masking Architecture and Analysis of Data Masking Techniques for Testing,” International Journal of Engineering Science and Technology (IJEST), vol. 3, no. 6, pp. 5153–5154, Jun. 2011.
    [36] G. Ravikumar, T. Manjunath, S. Ravindra and I. Umesh, “A Survey on Recent Trends, Process and Development in Data Masking for Testing,” International Journal of Computer Science Issues (IJCSI), vol. 8, no. 2, pp. 535-539, Mar. 2011.
    [37] G. Sarada, N. Abitha, G. Manikandan and N. Sairam, “A Few New Approaches for Data Masking,” 2015 International Conference on Circuits, Power and Computing Technologies [ICCPCT-2015], pp. 1–2, Mar. 2015.
    [38] I. H. Witten, E. Frank, M. A. Hall and C. J. Pal, Data Mining: Practical Machine Learning Tools and Techniques (4th ed.), Elsevier Science, Netherlands: Morgan Kaufmann, 2016.
    [39] Information technology — Security techniques — Guidelines for privacy impact assessment, ISO/IEC 29134:2023, 2023. [Online]. Available: https://www.iso.org/obp/ui/#iso:std:iso-iec:29134:ed-2:v1:en.
    [40] Information Technology — Security Techniques — Privacy Architecture Framework, ISO/IEC 29101:2018, 2018. [Online].Available: https://www.iso.org/obp/ui/#iso:std:iso-iec:29101:ed-2:v1:en.
    [41] Information Technology—Security Techniques—Privacy Framework, ISO/IEC 29100:2011, 2011. [Online].Available: https://www.iso.org/obp/ui/#iso:std:iso-iec:29100:ed-1:v1:en.
    [42] Information Technology — Security Techniques — Requirements for Partially Anonymous, Partially Unlinkable Authentication, ISO/IEC 29191:2012, 2012. [Online]. Available: https://www.iso.org/obp/ui/#iso:std:iso-iec:29191:ed-1:v1:en.
    [43] K. H. Rosen. Discrete Mathematics and Its Applications (7th ed.), New York, NY, USA: McGraw-Hill Education, 2012.
    [44] M. Fotache, A. Munteanu, C. Strîmbei and I. Hrubaru, “Framework for the Assessment of Data Masking Performance Penalties in SQL Database Servers. Case Study: Oracle,” IEEE Access, vol. 11, pp. 18520-18541, Feb. 2023.
    [45]“Open Definition 2.1,” Open knowledge foundation. https://opendefinition.org/od/2.1/en/ (accessed Sep.29, 2023).
    [46] R. Brijesh and B. Jignesh, “Survey on Privacy Preservation Technique: Data Masking,” International Journal of Engineering Research and Technology(IJERT), vol. 3, no. 2, pp. 1590–1591, Feb. 2014.
    [47] Security Techniques — Extension to ISO/IEC 27001 and ISO/IEC 27002 for Privacy Information Management — Requirements and Guidelines, ISO/IEC 27701:2019, 2019. [Online].Available: https://www.iso.org/obp/ui/#iso:std:iso-iec:27701:ed-1:v1:en.
    Description: 碩士
    國立政治大學
    資訊科學系碩士在職專班
    109971005
    Source URI: http://thesis.lib.nccu.edu.tw/record/#G0109971005
    Data Type: thesis
    Appears in Collections:[資訊科學系碩士在職專班] 學位論文

    Files in This Item:

    File Description SizeFormat
    100501.pdf6876KbAdobe PDF0View/Open


    All items in 政大典藏 are protected by copyright, with all rights reserved.


    社群 sharing

    著作權政策宣告 Copyright Announcement
    1.本網站之數位內容為國立政治大學所收錄之機構典藏,無償提供學術研究與公眾教育等公益性使用,惟仍請適度,合理使用本網站之內容,以尊重著作權人之權益。商業上之利用,則請先取得著作權人之授權。
    The digital content of this website is part of National Chengchi University Institutional Repository. It provides free access to academic research and public education for non-commercial use. Please utilize it in a proper and reasonable manner and respect the rights of copyright owners. For commercial use, please obtain authorization from the copyright owner in advance.

    2.本網站之製作,已盡力防止侵害著作權人之權益,如仍發現本網站之數位內容有侵害著作權人權益情事者,請權利人通知本網站維護人員(nccur@nccu.edu.tw),維護人員將立即採取移除該數位著作等補救措施。
    NCCU Institutional Repository is made to protect the interests of copyright owners. If you believe that any material on the website infringes copyright, please contact our staff(nccur@nccu.edu.tw). We will remove the work from the repository and investigate your claim.
    DSpace Software Copyright © 2002-2004  MIT &  Hewlett-Packard  /   Enhanced by   NTU Library IR team Copyright ©   - Feedback