資料集品質評鑑機制研究計畫(草案)

壹、緒論

一、研究緣起

促進透明治理:透明治理之達成,有賴於政府資料開放、公共政策參與以及數位政府服務三者相互串連配合。其中首要的政府資料開放透明,乃是增進民間對公共事務的瞭解、信賴及監督等的基礎建設。

達成政府資料之有效利用:我國自101年推動政府開放資料以來,截至105年5月中央部會已累計開放逾1萬6,000項;然而在民間意見回饋的態樣上,「建議新增資料集」以及「建議增加資料及內容」仍為最主要的回饋類別,顯見資料集開放數量的大幅成長,卻未能滿足民間需求;此外,在「連結有效性」、「資料內容正確性」等的意見反應,顯見於資料集數量持續提升外,需佐以資料品質之改善,方能全面達成資料之有效利用。

創造機關自主滾動修正契機:為使政府資料能被更有效的利用,並帶動政府開放更好用的資料,爰規劃參考國際資料品質評量指標,研擬可滾動修正之資料品質評鑑機制,提供各機關做為資料開放自評的參考,以逐步達成透明治理的政策目標。

二、研究目的

(一) 讓資料易於被民眾使用,降低資料使用門檻,契合透明治理的政策願景。

(二) 以應用為核心發展資料品質檢核機制,俾利民間應用發展創新服務。

(三) 建立可滾動修正之綜合性評鑑指標,型塑機關自主評鑑文化。

 

貳、文獻探討

一、 開放政府與透明

自21世紀以來,歐美各國開始推展開放政府的運作,而開放政府中不斷被提及概念即是建立一個更透明、更具責任、更具參與性及更具協作性的的政府,以在開放政府中居領導地位的美國為例,自美國歐巴馬總統上任的第一天隨即簽署了「透明與開放政府備忘錄(Memorandum on Transparency and Open Government)」(White House, 2009),宣告他將建立一個透明、公眾參與、協作的政府體系,以增進政府效能、強化民主價值。其中對於透明、參與、協作的概念分別定義如下:

(一)     透明:透明可以釐清責任的歸屬,且藉由透明而開放資訊給人民是能夠讓人民理解政府作為的主要管道。

(二)     參與:民眾的參與將能強化政府的效率,且透過群眾智慧,將使政府得以改善決策品質。

(三)     協作:政府內部各個層級及外部人民、團體,能夠使用創新的工具、方法彼此合作,使政府能夠快速尋求公眾回應進而開創新的機會。

然而,自歐巴馬2009年提出了開放政府的概念至今,關於透明和開放政府的概念仍爭論不休,且有許多不同的定義,有些與資訊取得的自由有關,有些則與打擊貪腐、社會課責/或開放政府資料有關。然而,將政府資料至於網際網絡上就足以代表政府透明嗎?Cretu & Cretu(2015)便提出政府透明應從五種型態的透明來討論及實踐,將其分述如下:

(一)    資料透明(data transparency)

主要是指將以往被政府視為資產的資料釋放出來,讓民間與企業能夠自由使用,藉此達到政府課責明確、改善政府施政效能及促進經濟成長等目標。

(二)    過程透明(process transparency)

對人民來說,除了瞭解治理過程中所發生的情形外,能夠參與其中也是關鍵,而人民在過程透明中所扮演的即為諮詢者的角色。諮詢(consultation)是政府在形成政策的過程中需尋求市民的回饋,透過雙向的溝通,讓市民在這樣的過程中提出回饋,藉此達到以下目的:1.提供人民線上或實體(公開會議、民意調查、公聽會、焦點團體、公民投票)的方法,使其具有資訊基礎能夠針對議題進行討論;2.讓因應議題而產生的成果具有更高的能見度與可信度。

(三)    策略透明(strategic transparency)

策略透明指的是政府採用方法或機制讓人民參與決策過程,即為參與式民主(participatory democracy);讓人民透過參與式預算、人民陪審團、焦點團體討論、參與式規劃、線上民意調查、投票模擬選舉等方式,可以在政策提案或政客在政策投入中所扮演的角色中具有決定權。

(四)    變革透明(transformational transparency)

變革透明是指政府改造,與人民共同創造、共同設計政策、服務、策略和調解;其中處理了更多社會課責機制、市民監督與評估公共服務及改善建議的方法。變革透明是政府達到創新、與市民互動的一種方式,市民在其中扮演了探險者(explorer)、創新者(innovator)與實踐者(implementers)的角色。

(五)    徹底透明(radical transparency)

徹底透明則是(聯邦/當地/國家)政府承諾導入資料透明、過程透明、策略透明和變革透明的機制、原則與工具。

從Cretu & Cretu(2015)所提出的「政府5D透明(Government 5D Transparency)」中,可以看到現今政府必須認清透過人民參與(citizen-engagement)所謂的政府5D透明應屬於高層次的政策議題,以期藉此帶回人民對於政府的信任,並與人民共同創造、設計以民為本的服務。

二、開放政府資料階段模型

資料透明(Data Transparency)做為政府透明的基石逐漸被各國所重視,於是近年來開放政府資料倡議行動在全球各地展開,主要訴求公共資料必須在沒有任何限制的情況下,讓每個人自由取用,但公部門在處理公共事務的過程中,蒐集、處理和散佈非常大量的資訊(European Commission, 2003),使得驅動開放政府資料的過程變的相對困難,加上當前所推廣的電子化政府階段模型通常著重在服務,而非以資料為本位考慮,因此勾勒一個明確的開放政府資料階段模型更顯重要(Kalampokis, 2011)。

 

根據Kalampokis規劃的開放政府資料階段模型,針對兩個層面:組織、技術複雜度和對資訊使用者的加值,檢視和描述開放政府資料的活動,為開放政府資料建立明確的進程圖,以下針對此四個階段分別說明:

(一)    政府資料匯集(Aggregation of Government Data)

此階段包含將資料開放並於線上公開資料讓他人取用,同時匯集不同來源的政府資料,像是建立匯整政府公開資料的平台;此階段的最大效益是大眾能夠藉由單一的管道取得許多有價值的資料,但會因為資料重複、即時性、格式無法再利用及欠缺完整的詮釋資料等問題,使得資料使用者必須花費許多時間與心力才能將資料轉換成適當格式,並與其他資料集混搭使用才能有效利用資料解決問題。

(二)    政府資料整合(Integration of Government Data)

此階段是將跨公部門的政府資料進行整合,其最大效益是使不同來源的資料能夠具備完整性及一致性,確保政府所提供的資訊是完整且正確的統一資訊,對此,技術上必須進行資料格式標準化,並制定資料發布標準程序,確保資料的即時性和正確性。

(三)    整合政府資料與非政府之正式資料(Integration of Gov Data with Non-Gov Formal Data)

透過整合非政府的單位所提供的資料如DBpedia與Data.nytimes與來自政府內部的資料,這種公私領域的資料連結使得更多元的運用變得可能,進而創造資料價值的加值效益。

(四)    整合政府資料與非政府之正式及社會資料(Integration of Gov Data with Non-Gov Formal and Social Data)

此處的社會資料指的是大眾自發性的在Twitter和Facebook等社群平臺分享的內容,主要包括了個人意見和偏好,在與此類資料的整合中,政府資料提供了社會資料所呈現的脈絡,讓政府在決策流程中參考民眾的意見,也讓民眾在法律等公共議題上更能輕易且深度的參與。

以此模型檢視臺灣開放政府資料得進程,不難發現我國在第一階段:政府資料匯集(Aggregation of Government Data)及第二階段政府資料整合(Integration of Government Data)的成熟度仍有許多不足,特別是在提供高品質及具有規格的資料上。在進行資料混搭時,便有實作者反應未經適當的品質管控而釋出的資料會損害資料集的再使用性,且需要經過許多資料清洗(data cleansing)的步驟,無形之中增加了社會成本,亦侷限的了資料再使用的可能性。因此,以下將針對資料品質的定義及其評估方法做進一步的介紹。

三、資料品質的定義

資料品質的相關研究開始於1990年代,許多學者提出不同的資料品質定義與品質面向的方法論。由Richard Y. Wang教授領導的麻省理工學院全資料品質管理(Total Data Quality Management)團隊在資料品質領域透過深度訪談後,將資料品質定義為「適於使用」(Wang & Strong, 1996),並提出資料品質的概念性架構,如表1所示。

表1  資料品質概念性架構

資料來源:Wang, R. Y., & Strong, D. M. (1996). Beyond Accuracy: What Data Quality Means to Data Consumers. Journal of Management Information Systems 12(4), pp 5–33.

而美國國家統計科學機構(2001)則認為資料品質的原則為:1.資料是一項產品,對消費者來說除了是成本外,同時也具有價值;2.就產品來說,資料的品質就是資料生成的過程;3.資料品質會仰賴諸多因素,至少包括資料被使用的目的、被誰使用、在什麼時間被使用(引自Cai, L. & Zhu, Y, 2015)。

近年來,Open Data Support (2014)對於資料(詮釋資料)品質的定義是:若資料對於特定目的的使用是適於操作、決策和規劃時,即為高品質的資料。更精確來說,高品質的資料是正確的、可被取得的、完整的、符合標準的、具一致性的、有可信度的、可被處理的、具相關性的且適時的;其所提出的資料品質面向如表2所示。

資料來源:Open Data Support (2014). Open Data & Metadata Quality. Available from: http://www.slideshare.net/OpenDataSupport/open-data-support-service-description. (last access 2016/1/30)

 

從上述的定義看來,資料品質強調的是資料的使用性。而在開放資料上,則是指資料能被任何人自由地使用,再使用與散佈(Open Knowledge, 2012);近幾年,各國政府的開放資料急速成長(Open Knowledge, 2014),然而,實作者卻反應未經適當的品質管控而釋出的資料會損害資料集的再使用性,且為公民決策帶來負面的影響(Vetro, A., et al., 2016)。一旦低品質的資料以開放資料釋出後,資料的再使用需要經過許多資料清洗(data cleansing)的步驟,如此無形之中不僅增加許多的社會成本,亦會侷限資料再使用的可能性。因此,資料品質的評估在資料開放時應為必要進行的工作。

四、資料品質評估

然而,資料品質評估為何?又該如何進行資料品質的評估呢?根據美國國家環境保護局(以下簡稱EPA)的定義,資料品質評估(Data Quality Assessment, DQA)是透過科學和統計的方法,來評價資料自取得開始,是否就採用對的型態與質量以符合其原始用途。在這樣的基礎下,資料品質的概念僅有在該資料符合其原始用途下才具有意義(EPA, 2000)。

圖1代表資料生命週期由三個階段組成:規劃(Planning)、執行(Implementation)與評估(Assessment)。在規劃階段,資料品質目標流程(Data Quality Objectives Process)(或是一些其他系統規劃過程)是被用來定義量化和質化的規範,決定何時、何處、多少樣本數的蒐集可以達到信賴水準;這些資訊與取樣方法、分析步驟、適當的品質保證和品質控制流程均會紀錄在品質保證專案計畫中。接著就會依照品質保證專案計畫的規範蒐集資料。資料品質評估是提供預期目標是否達成的評估結果,在評估階段中,資料會經過驗證並確認其取樣和分析是依照品質保證專案計畫進行;資料品質保證接著會使用經驗證過的資料確認其資料品質是否符合標準(EPA, 2000)。

 

 

而隨著全球提倡開放資料的浪潮,各國政府與民間紛紛提出各自的開放資料策略與作為,同時因應此波浪潮而生的是各種評鑑開放資料的評比機制。早在2006時,Tim Berners-Lee就提出了開放資料五顆星的分類架構,如表3所示。

表3  開放資料五顆星分類架構

在開放資料五顆星分類架構的基礎下,許多的評鑑標準、評比機制因應而生,這些評比機制的範圍與內容不一,但在眾多評比機制中,以開放知識基金會(Open Knowledge Foundation)的全球開放資料指標(Open Data Index)與全球資訊網基金會(World Wide Web Foundation)的全球開放資料評估報告(Open Data Barometer)為最專注與成熟的全球性政府開放資料評比調查,表4彙整了兩項評比調查之評鑑架構、機制及資料集評鑑項目。

表4  全球開放資料指標(Open Data Index)與全球開放資料評估報告(Open Data Barometer)比較表

資料來源:本研究整理

除了上述的兩個評比機制較為人所熟知外,Vetro等人(2016)今年度所提出的開放資料品質測量架構(open data quality measurement framework)則是聚焦在開放政府資料品質指標上的驗證,該研究提出的指標定義及敘述如表5所示。

 

表5  開放資料品質指標定義與敘述一覽表

資料來源:Vetro, A., et al., Open data quality measurement framework: Definition and application to Open Government Data, Government Information Quarterly (2016), http://dx.doi.org/10.1016/j.giq.2016.02.001

 

 

透過以上的文獻可以得知目前資料品質評鑑機制會因應其目標的不同,在評鑑的範圍、指標與方法上而有所差異。因此,本研究將以國內外相關的文獻為基礎,以分析政府資料開放平臺上之資料集現況、、邀請諮詢顧問辦理內審、學者專家辦理外審、挑選試辦機關訪談、實作評鑑、公布及線上問卷以蒐集意見、社群討論會意見回饋步驟,列出評鑑機制分析及處理建議,並根據初期、期中及期末審查修訂,修正評鑑機制。

參、研究方法

依據研究目的,本研究所採用的研究方法如圖2所示。

     

研究流程各項目之研究方法詳細說明如下:

一、資料集盤點暨分析

在建立資料集品質評鑑指標之前,首先需瞭解目前政府資料開放平臺上之資料集問題或現況,如此才能夠針對實際情形及未來一年內國內資料集的改善走向訂定評鑑指標。因此,資料集的盤點範圍限制在截至2016年1月13日止政府資料開放平臺上所有上架的資料集,數量為13,512筆。有關資料集盤點暨分析圖如圖3所示。 

                   

 

資料集的盤點透過以下幾種方式進行:

 

(一) 資料資源連結測試:

主要是以Python Request套件撰寫程式,對資料資源連結發送網路請求,嘗試獲取檔案,並透過回傳連線狀況代碼,瞭解資料資源之連線狀態。

(二) 資料資源格式與實際上傳檔案格式比對:

藉由參照資料資源連結中所標示之網際網路媒體類型(Internet media type)以及檔案本身之副檔名,藉此對照機關填列之資料資源格式,評估是否相同,以檢視檔案格式的符合程度情形。

(三) 資料集屬性歸類曁資料內容欄位與主要欄位比對:

透過文字探勘進行資料集屬性歸類後,再進行資料內容欄位與主要欄位之比對,藉此瞭解個別資料集在分類、內容屬性及資料集內容欄位之呈現狀況。

文字探勘(Text Mining),亦被稱為文本挖掘、文字採礦、智慧型文字分析、文字資料探勘或文字知識發現。一般而言,文字探勘指的是從非結構化的文字中,透過資訊截取、資料探勘、機器學習、統計學、電腦語言學的方法中萃取出有用的重要資訊或知識(維基百科,2012)。

為了能夠將政府資料開放平臺上之資料集進行資料屬性分類,需先透過中文斷詞程式處理資料集名稱及描述。目前較常見的中文斷詞工具有中研院斷詞系統、結巴(JIEBA)斷詞系統等,由於結巴斷詞程式屬於開源軟體,透過許多開發者的不斷修正,功能較為完善(林志傑,2015),因此將其做為本研究進行文字探勘時所採用的工具。

本研究針對截至2016/01/13前平臺上數量約13,512筆之資料集,先針對資料集名稱(title)及資料集描述(field_body_value)透過結巴(JIEBA)中文分詞程式中的繁體詞庫進行斷詞(開源中國社區,2013)後,再採用TF-IDF(Term Frequency – Inverse Document Frequency)加權技術,統計出各個分詞在所有資料集名稱及資料集描述中出現的頻次(楊德倫,2014),將之做為目前資料集屬性分類的依據。

 

二、   國內外資料參照標準整理

蒐集國內外有關資料品質之標準、規範進行整理,參考資源之列表如表6所示:

表6  資料參照資源一覽表

資源名稱 來源
5 Star Open Data(2006) http://5stardata.info/en/
Open Data Index(2015) http://index.okfn.org/methodology/
Open Data Barometer(2015) http://www.opendatabarometer.org/report/about/method.html
Open Data Quality Measurement Framework(2016) http://dx.doi.org/10.1016/j.giq.2016.02.001

資料來源:本研究整理

三、   訂定評鑑標準

(一) 彙整國內外文獻定義初步定義評鑑標準

根據國內外文獻的定義,初步定義的評鑑標準如表7所示。

表7  資料品質評鑑指標(初版)

(二) 召開專家座談會

將初步訂定的評鑑標準於專家座談會提出討論,蒐集各領域專家之意見,專家座談會之會議紀錄與逐字稿詳如附錄一所示。

1.     辦理時間:2016/3/18(星期五),13:30~16:00

2.     辦理地點:聯合報汐止總部102會議室(新北市汐止區大同路一段369號3樓)。

3.     與會名單:

表8  專家座談會與會名單

NO 姓名 服務單位
1 陳景祥 淡江大學統計學系
2 楊新章 國立高雄大學資訊管理學系 教授
3 衷嵐焜 逢甲大學地理資訊系統研究中心
4 鄧東波 台灣開放街圖
5 林錫慶 研究員
6 張維志 計畫發起人
7 鄭立源 國家發展委員會

 

(三) 評鑑標準於政府資料開放平臺上進行公評

將資料集盤點的結果彙整國外相關文獻及專家意見,修訂資料評鑑指標後,公開於政府資料開放平臺(http://data.gov.tw)讓民眾針對資料評鑑指標進行公評,提供回饋意見。

 

(四) 舉辦社群開放座談會

為能廣邀各方建議,並考量未來資料交換的應用層面,亦會舉辦社群開放座談會,透過同行評審(peer review),希冀能夠讓評鑑標準更臻完善。

 

(五) 送交國發會審核

將專家座談會與社群座談會之意見與回饋統整,修訂資料評鑑指標後送交國發會審核。

 

(六) 確立評鑑指標

依據國發會審核結果修改資料評鑑指標後進行公告。

 

四、   實作

針對資料集盤點結果,從資料內容的廣度、深度、多樣性於中央二級單位、中央三級單位、地方政府中各擇一個單位之資料集進行評鑑。

評鑑前將拜會實作單位,說明詳細流程及評鑑項目的內容,並於實作之後提供回饋結果,建立溝通聯繫機制,確保實作單位所提出之問題與建議能夠得到完整的回覆。

 

肆、參考文獻

 內政部(2016)。資料標準Schema。取自:https://standards.moi.gov.tw/8ae0. (last access 2016/2/24)

林志傑(2016)。JIEBA結巴中文斷詞。取自:https://speakerdeck.com/fukuball/jieba-jie-ba-zhong-wen-duan-ci. (last access 2016/2/24)

國家發展委員會(2015)。政府資料開放進階行動方案。取自:http://www.ndc.gov.tw/Content_List.aspx?n=B2A92523DCC12607. (last access 2016/4/2)

張維志(2016)。到底政府開放資料在搞瞎米。取自:https://www.facebook.com/notes/whiski-tajfun/%E5%88%B0%E5%BA%95%E6%94%BF%E5%BA%9C%E9%96%8B%E6%94%BE%E8%B3%87%E6%96%99%E5%9C%A8%E6%90%9E%E7%9E%8E%E7%B1%B3/10154150530281004/. (last access 2016/4/2)

開源中國社區(2013)。Python中文分詞組件jieba。取自:http://www.oschina.net/p/jieba. (last access 2016/1/30)

楊德倫(2014)。文字探勘之前處理與TF-IDF介紹。取自:http://www.cc.ntu.edu.tw/chinese/epaper/0031/20141220_3103.html. (last access 2016/1/30)

維基百科(2012)。文字探勘。取自:https://zh.wikipedia.org/wiki/%E6%96%87%E5%AD%97%E6%8E%A2%E5%8B%98. (last access 2016/1/30)

Berners-Lee, T. (2006). 5 Star Open Data. Available from: http://5stardata.info/en/. (last access 2016/2/23)

Cai, L. & Zhu, Y. (2015). The Challenges of Data Quality and Data Quality Assessment in the Big Data Era. Available from: http://datascience.codata.org/articles/10.5334/dsj-2015-002/. (last access 2016/2/20)

Eurostat (2007). Handbook on Data Quality Assessment Methods and Tools. Available from: http://unstats.un.org/unsd/dnss/docs-nqaf/Eurostat-HANDBOOK%20ON%20DATA%20QUALITY%20ASSESSMENT%20METHODS%20AND%20TOOLS%20%20I.pdf. (last access 2016/2/23)

Global Open Data Index (2015). Global Open Data Index – Methodology. Available from: http://index.okfn.org/methodology/. (last access 2016/1/30)

Open Data Support (2014). Open Data & Metadata Quality. Available from: http://www.slideshare.net/OpenDataSupport/open-data-support-service-description. (last access 2016/1/30)

Open Knowledge (2012). What is open data? Available from: http://opendatahandbook.org/guide/en/what-is-open-data/. (last access 2016/3/23)

Open Knowledge (2014). Open Data Census. Available from: http://census.okfn.org/. (last access 2016/3/23)

Pipraini, B. & Ernst, D. (2002). A Model for Data Quality Assessment. Available from: http://metadata-standards.org/Document-library/Documents-by-number/WG2-N1151-N1200/WG2-N1185-WHU-ROS-017-Baba-DQA.pdf. (last access 2016/2/23)

Tayi, G. K. & Ballou, D. P. (1998). Examining data quality. Available from: http://dl.acm.org/citation.cfm?id=269021/. (last access 2015/11/1)

Understanding Data Quality Management: https://docs.oracle.com/cd/B31080_01/doc/owb.102/b28223.pdf

Vetro, A., et al. (2016) Open data quality measurement framework: Definition and application to Open Government Data, Government Infromation Quarterly, http://dx.doi.org/10.1016/j.giq.2016.02.001.

Wang, R. Y., & Strong, D. M. (1996). Beyond Accuracy: What Data Quality Means to Data Consumers. Journal of Management Information Systems 12(4), pp 5–33.