政府資料品質測試機制(beta)上線
大家好,繼先前po出的「政府資料品質提升機制運作指引」https://gov2g0v.hackpad.com/0T28wqhR2EW
現在已經實作出資料資源的測試function啦!!(灑花
測試網站連結: http://quality.data.gov.tw/
操作方式: 在政府資料開放平臺( http://data.gov.tw/ )找到自己感興趣的資料集,例如 http://data.gov.tw/node/21026 ,就把 21026 這個數字輸入上述網站的搜尋欄位,程式就會即時進行檢查工作(原則上10秒內即可完成測試,除非資料資源file size過大)
以下綠框表格是「資料集」的總輸出(原則各檢測指標結果為「該資料集所有資料資源」測試結果"交集")
以下淺藍框表格是「個別資料資源」的測試結果(有錯誤訊息的話會在最下方顯示):
常見問答:
- 「編碼符合」以及「主要欄位說明符合」均須為結構化格式之前提方有測試意義。
- 提供資料資源如提供相同內容之資料來源,請以相同檔名命名,檢測程式將會優先以結構化檔案(CSV>JSON>XML>其他結構化格式)擇一進行測試,其餘同名檔案則排除測試。
- 壓縮檔的manifest格式 https://paper.dropbox.com/doc/manifest-JijQimxDpYloqlSelAW1j(測試機尚未實作壓縮檔檢測功能,如實作上線會更新)
- 採用 RFC 4180 CSV 填寫,有三個欄位「resource、schema、description」。
- resource 欄為需要被處理的資料集檔案,此欄位為必需。若資料集檔案被放在目錄下,請用 <目錄>/<檔案> 這樣的格式描述。
- schema 欄為資料集的 schema 對應,目前應該暫無此需求,但可待日後被使用,此欄位為選填。
- description 欄為此資料資源檔的描述或是備註等等的資訊,此欄位為選填。
- 不在描述內的檔案一律被忽略。檔案格式由附檔名判斷 。
- 注意事項:
- 此 manifest格式為「大小寫無關」。
- 壓縮檔內的壓縮檔不再進行解壓處理。
- Manifest 的檔名應為 manifest.csv 且需置放在壓縮檔最上層。

接下來這個function將會整併至政府資料開放平臺(http://data.gov.tw)內,目的為能讓公務部門的同仁能快速知道自己的資料資源出了什麼問題(當然非機器能處理的錯誤是抓不出來的),當然也會提供批次檢測的功能。
對於目前的測試狀況,歡迎各位熱心朋友提出建議~
成功case:
- 桃園市各都市計畫-公共設施類型分析表 http://data.gov.tw/node/28232
欄位描述有瑕疵,但格式正確的case:
- 登革熱近12個月每日確定病例統計 http://data.gov.tw/node/21026
CSV欄位描述、編碼描述有誤,但格式正確的case:
- iTaiwan中央行政機關室內公共區域免費無線上網熱點查詢服務 http://data.gov.tw/node/5962
多樣化資料資源的case:
- 勞工體格及健康檢查認可醫療機構 http://data.gov.tw/node/6624
============以下為錯誤紀錄區============
20170517:
http://data.gov.tw/node/39506
資料資源檔案名稱有使用特殊字元,疑似造成判讀錯誤
國發會行政規則§159II2.xml
http://data.gov.tw/node/31778
資料資源之JSON/XML為系統產製,疑似造成延遲
http://data.gov.tw/node/22090
資料資源未填列編碼

http://data.gov.tw/node/10353
資料資源檔名重複,因而造成僅以ODF格式進入檢測
7466d823-bab1-4c94-b9c6-c064c794a30f.xlsx
7466d823-bab1-4c94-b9c6-c064c794a30f.ods
http://data.gov.tw/node/31770
其JSON與XML均非單層結構,因而無法判斷其主要欄位名稱

20170523:
缺乏資料內容,程式修正中(會另外回傳資料為空)
http://data.gov.tw/node/5996
CSV lint回傳錯誤



20170524:
http://data.gov.tw/node/17182
看來是正規JSON,疑為測試程式bug。
[update][20170603]已修正
20170602:
http://data.gov.tw/node/8572
使用Google Drive的案例。
參考修正方式:http://beauto.biz/36
新增問題:能否提供批次下載連結?
============以下為意見分隔區============
Q1.
以 不動產買賣實價登錄批次資料 http://data.gov.tw/node/6213 為例,第二項資料資源"不動產買賣實價登錄批次資料(CSV)" 已可直接下載,但其為不具zip且未有manifest表單,
因此錯誤訊息是否應直接適用"不符合規範",而非"沒有檔案可供檢測"?

Q2: 主要欄位註記是否能加強容錯?例如採用連字號、冒號(包含全形、半形)等
Q2:(已修正)
綠框部分的”結果”,建議標示為”資料集檢測結果”;
藍框的部分,看能不能表示為 ”資料資源%d-%s(資料資源描述)”
Ex: 同樣以http://data.gov.tw/node/6213來說,第二筆資料資源建議顯示” 資料資源2-不動產買賣實價登錄批次資料(CSV)”
