政府資料品質提升機制運作指引(持續徵集修正意見)
壹、前言
一、目的
- 為提升政府資料開放內容之正確性、易用性、即時性及採適當格式開放,使政府資料開放邁向結構化,爰訂定本運作指引,以期協助各機關建立資料品質概念、逐步提升政府資料之可用性。
二、適用對象
- 行政院及所屬各級機關(以下簡稱各機關)適用之;公營事業機構、公立學校及行政法人,得準用;地方政府得參照。
三、適用範圍
- 本運作指引以符合國際「開放定義」(Open Definition)之政府資料,範圍含括各機關於職權範圍內取得或做成,且依法得公開之各類電子資料,包含文字、數據、圖片、影像、聲音、詮釋資料(metadata)等。
貳、資料品質提升流程介紹
一、資料品質相關標準
- 以資料使用流程為出發點,分為資料可直接取得、資料易於處理、資料易於理解三個面向:
(一) 資料可直接取得- 包含2項指標:
- 1. 資料資源連結有效性:資料資源連結是否可回傳成功的 HTTP 狀態碼(HTTP Status Code)。
- 2. 資料資源可直接下載:使用者能透過資料資源連結直接獲取資料,無需透過登入或任何額外的操作形式。
- 現在遭遇的困擾主要是針對資料庫系統,例如:http://data.gov.tw/node/22129 ;Webservice的提供方式,例如:
(二) 資料易於處理- 就資料描述方式可區分為結構化與非結構化2種形式。
- 1. 結構化資料:
- 指經分析後可分解成多個互相關聯的組成部分,各組成部分間有明確的層次結構:
- (1) 固定欄位結構化資料:
- 單一列(Row)標題的表格式資料,每列資料的欄位數均相同,且無合併儲存格、無公式、無空行、無小計等。
- (2) 非固定欄位結構化資料:
- 資料內容主要為文字,或為無法轉為固定欄位結構化資料,但符合W3C之XML、JSON、JSON-LD標準等結構化資料。
- 2. 非結構化資料:
- 排除結構化資料以外均為非結構化資料。例如一般文字文件、圖檔、影音等。
- 為利資料易於處理,如資料型態允許,應以提供固定欄位結構化資料為優先。
(三) 資料易於理解- 針對結構化之資料資源,於詮釋資料須依「資料集詮釋資料標準規範」提供資料資源之編碼及其主要欄位之描述。
二、資料品質檢驗方式
- 原則均採機器測試進行,7項檢驗指標列示如下:
評核構面 |
評核指標 |
計算基礎 |
判斷方式 |
判斷時點 |
輸出結果 |
結果呈現方式 |
資料可直接取得 |
連結有效性 |
全部資料資源 |
機器測試 |
定期 |
True/False |
雙色長條圖 |
|
資料資源能否直接下載 |
全部資料資源 |
機器測試 |
資料資源異動時 |
檔案載點/網頁連結 |
雙色長條圖 |
資料易於被處理 |
是否屬結構化檔案類型 |
全部資料資源 |
機器測試(並非僅檢驗副檔名) |
資料資源異動時 |
結構化檔案/非結構化檔案 |
雙色長條圖 |
資料易於理解 |
詮釋資料編碼描述與資料相符 |
全部結構化資料資源 |
機器測試 |
資料資源異動時 |
True/False |
依屬結構化部分等距下拉顯示為雙色長條圖 |
|
詮釋資料欄位描述與資料相符 |
全部結構化資料資源 |
機器測試 |
資料資源異動時 |
True/False |
依屬結構化部分等距下拉顯示為雙色長條圖 |
|
資料更新時效性 |
熱門資料集 |
人工檢核 |
定期 |
無逾期/有逾期 |
筆數 |
民眾意見回饋 |
民間回應錯誤之回復效率 |
全部資料集 |
人工檢核(是否於7日內進行回覆)/民間評分低於中間值者 |
定期 |
|
筆數 |
以下為檢核結果示意圖:

p.s.上述示意圖尚未列示人工檢核項目
12/29追加:
- 平臺的檢測流程,預計會將資料資源當中”相同檔名”的不同格式檔案,優先擇開放格式(例:CSV、JSON、XML)進行檢測,其餘同名不同格式檔案則予以略過處理。
- 因此額外提供便於一般使用者使用的格式不會影響檢測結果。
三、資料品質管理重點
- (一) 各部會管理者參考依據結果報告,協助資料集資料提供者進行改善;倘資料產製來源為系統者,可配合於維運週期提供符合結構化資料定義之資料資源。
- (二) 對於非結構化但可轉為結構化之資料資源(如:具有合併儲存格之CSV、報表資料卻僅以PDF檔提供者),應以資料使用者的角度思考其提供方式是否妥適並安排期程改善。
- (三) 對於資料內容為非結構化格式者,應避免進行無意義的檔案格式轉換(如:以Word另存為XML格式)。
- (四) 政府資料開放平臺之資料集均應適用政府資料開放授權條款,各項資料之開放前均應確認其權利完整性(如:著作權等)。
- (五) 民眾回饋意見,機關應於7個日曆天內回復,如屬資料有誤,或重大事件相關之資料資源未能符合民間需求品質,由國家發展委員會協調資料提供機關改善。
參、資料品質提升作法說明
一、建議資料提供方式
(一)通則
- 1. 資料集詮釋資料注意事項
- (1) 「資料集名稱」是資料資源集合的正式名稱,請以可一目瞭然之名稱命名之。
- (2) 「資料集描述」為提供除了資料集名稱外的簡明陳述,讓使用者可進一步瞭解資料集內容。
- (3) 如有說明文件(readme.*、schema.*)、說明網頁連結,應放置於「資料集相關網址(landingPage)」欄位,或與資料資源一併置於壓縮檔內。
- 2. 資料資源注意事項
- (1) 如有多重檔案壓縮之需求,應於資料集"領域別詮釋資料參考網址 (metadataSourceOfData)"提供manifest表單以利使用者理解壓縮檔內各檔案之關聯性。
- (2) 檔案名稱建議以英數為名,避免檔案名稱編碼差異於中文檔名轉換產生亂碼。
- (二)API
- 1. 適用資料類型:高更新頻率資料、已有系統可即時產製資料者。
- 2. 建議資料格式:JSON、XML格式。
- 3. 填列資料集詮釋資料注意事項:
- 建議優先提供符合swagger 2.0之說明文件。
- 4. 參考範例:
- (1) 交通部公共運輸整合資訊流通平台 https://ptx.transportdata.tw/PTX/Service
- (2) 本站提供之政府資料開放跨平臺介接規範 http://data.gov.tw/政府資料開放跨平臺介接規範.yaml
- ************************歡迎提供範例************************
- (三)固定欄位結構化結構化資料
- 1. 適用資料類型:定期產製且未經統計彙整之原始資料(RAW data)、統計資料、地理圖資資料、已有系統可產製資料者。
- 2. 建議資料格式:CSV、JSON、XML、GeoJSON、KML、KMZ、SHP等格式。
- 3. 資料內容注意事項:
- (1) CSV內容請以半形逗號","作為資料區隔,欄位標題以一列為原則(可加註另一列為英文)。
- (2) 結構化資料內容內需無多表合併、無合併儲存格、無空行、無小計。
- 4. 資料集詮釋資料注意事項:
- 主要欄位說明請依「資料集詮釋資料標準規範」填列,欄位區隔建議請一致採用全形頓號"、"。
- 5. 參考範例:
- (1) 消費力統計-各分位載具消費張數金額-資料集 http://data.gov.tw/node/24831
- (2) 社會經濟資料庫 http://210.65.89.57/STAT/Web/Platform/Product/Apply/STAT_ProductApplyFree.aspx
- ************************歡迎提供範例************************
(四)非固定欄位結構化資料- 1. 適用資料類型:會議紀錄、法規函釋等。
- 2. 建議資料格式:建議以JSON格式優先。
- 3. 參考範例:
- (1) 行政院資料開放諮詢小組會議紀錄 http://data.gov.tw/node/16827
- (2) 法務部法規資料庫 http://law.moj.gov.tw/PublicData/DevelopGuide.aspx
- (3) 民間整理組織法 http://ronnywang.github.io/tw-gov-org/
- ************************歡迎提供範例************************
(五)非結構化資料- 1. 適用資料類型:不限制。
- 2. 建議提供資料型態:不限制。
二、檢測流程概要
- (一) 資料品質檢核功能於政府資料開放平臺後臺提供,於資料上傳(手動/批次/介接)階段進行資料資源預載及檢測流程,並以電子郵件通知測試結果,便利資料提供者據以提升資料品質。
- (二) 當資料資源有所異動時,由系統自動排入檢測期程。
- (三) 連結有效性測試將以每週至少一次的頻率進行測試。
- (四) 資料資源是否屬結構化之判斷流程:
- [start]承辦人增修資料資源
- [A]判斷資料資源檔案格式
- 如果是 壓縮檔,到 [B]
- 如果是JSON, XML, GeoJSON, KML, KMZ, SHP檔,到 [C]
- 如果是 CSV 檔,到 [D]
- 如果是 XLS, XLSX, ODS 檔,到 [E]
- 如果是 API, WebService 到[F]
- 如果是 其他檔,直接到 [Z]
- [B] 壓縮檔 (zip, 7z…) file
- 解壓縮後,先排除部分忽略清單(例如 README.* schema.*等)
- 如果只剩一個檔案,回到 [A]
如果有多個檔案則到 [U] //參考範例 http://data.gov.tw/node/6380
- 如果有manifest
[C] JSON, XML, GeoJSON, KML, KMZ, SHP file
[D] CSV file- 進行UTF-8 check
- 屬UTF-8,到 [T]
- 非屬UTF-8,轉存為UTF-8後到 [T]
[E] XLS, XLSX, ODS file- 有合併儲存格、繪製框線、儲存格背景色或使用公式等,到 [Z]
- 有使用多分頁,到 [Z]
- 無以上情形者,到 [T]
[F] API / WebService- 若API / WebService 提供html介面,則到 [X] //參考範例 http://data.gov.tw/node/6065
- 若直接提供json輸出結果,則回到 [C]
[T]進行是否為table格式判定- 嘗試轉換為CSV格式
- 屬table格式,取出CSV欄位值,填至資料集詮釋資料之fieldDescription欄位,於政府資料開放平臺保留轉換後之CSV檔,到 [Y]
- 非屬table格式,到 [X]
- [U]判斷壓縮檔是否包含manifest描述檔
- 無manifest描述檔,到 [Z]
- 有manifest描述檔,採人工判斷 [end]。
- [X] 將這個檔案上架,標記為結構化資料 [end]。
- [Y] 將原始檔案上架,標記為結構化資料,一併將轉存之CSV檔案上架,並註記轉換日期時間[end]。
- [Z] 將檔案上架,標記為非結構化資料,並錄是從哪個流程進到這步,供部會管理者參考[end]。
=========================以下暫存區==================================
政府資料開放平臺(以下簡稱本平臺)的服務對象:
- 主要:開發者/資料使用者,以UTF-8之CSV、JSON、XML等結構化格式作為產出
- 次要:一般資訊公開使用者
- API/Webservice部分有無可直接區分的方法?
- 例如:https://vipmember.tmtd.cpc.com.tw/OpenData/ListPriceWebService.asmx
- 壓縮檔的規範應以zip為主,並應注意zip archive 內的 filename encoding
檢核流程討論
https://g0v.hackpad.com/JSON-XML--lqlPtqrJSZG
1.相同欄位資料建議放置於同一資料資源
2.資料內容若以RAW data方式提供,無須再提供小計、百分比、總計等欄位
3.
【好的結構化範例】
iTaiwan中央行政機關室內公共區域免費無線上網熱點查詢服務
http://data.gov.tw/node/5962
【待議】
數位機會調查(資料有部分缺欄、底部有說明文字,這些都還算OK)
http://data.gov.tw/node/5960
【待改善結構化範例】
景氣指標及燈號(裡面的假XML)
http://data.gov.tw/node/6099
都市及區域發展統計彙編 ─ 10-2. 各縣市政府歲出決算數(多重欄標題、百分比、小計)
http://data.gov.tw/node/6519
參考資料
- http://labs.centerforgov.org/guides/
- ODI:http://theodi.org/blog/exploring-open-data-quality
- 新加坡:https://github.com/datagovsg/data-quality
This pad text is synchronized as you type, so that everyone viewing this page sees the same text. This allows you to collaborate seamlessly on documents!