政府資料品質測試機制(beta)上線

大家好,繼先前po出的「政府資料品質提升機制運作指引https://gov2g0v.hackpad.com/0T28wqhR2EW

現在已經實作出資料資源的測試function啦!!(灑花

測試網站連結: http://quality.data.gov.tw/

操作方式: 在政府資料開放平臺( http://data.gov.tw/ )找到自己感興趣的資料集,例如 http://data.gov.tw/node/21026 ,就把 21026 這個數字輸入上述網站的搜尋欄位,程式就會即時進行檢查工作(原則上10秒內即可完成測試,除非資料資源file size過大)

以下綠框表格是「資料集」的總輸出(原則各檢測指標結果為「該資料集所有資料資源」測試結果"交集")

以下淺藍框表格是「個別資料資源」的測試結果(有錯誤訊息的話會在最下方顯示):

常見問答:

  1. 「編碼符合」以及「主要欄位說明符合」均須為結構化格式之前提方有測試意義。
  2. 提供資料資源如提供相同內容之資料來源,請以相同檔名命名,檢測程式將會優先以結構化檔案(CSV>JSON>XML>其他結構化格式)擇一進行測試,其餘同名檔案則排除測試。
  3. 壓縮檔的manifest格式 https://paper.dropbox.com/doc/manifest-JijQimxDpYloqlSelAW1j測試機尚未實作壓縮檔檢測功能,如實作上線會更新

接下來這個function將會整併至政府資料開放平臺http://data.gov.tw)內,目的為能讓公務部門的同仁能快速知道自己的資料資源出了什麼問題(當然非機器能處理的錯誤是抓不出來的),當然也會提供批次檢測的功能。

對於目前的測試狀況,歡迎各位熱心朋友提出建議~

成功case:

欄位描述有瑕疵,但格式正確的case:

CSV欄位描述、編碼描述有誤,但格式正確的case:

多樣化資料資源的case:

============以下為錯誤紀錄區============

20170517:

http://data.gov.tw/node/39506

資料資源檔案名稱有使用特殊字元,疑似造成判讀錯誤

國發會行政規則§159II2.xml

http://data.gov.tw/node/31778

資料資源之JSON/XML為系統產製,疑似造成延遲

http://data.gov.tw/node/22090

資料資源未填列編碼

http://data.gov.tw/node/10353

資料資源檔名重複,因而造成僅以ODF格式進入檢測

7466d823-bab1-4c94-b9c6-c064c794a30f.xlsx

7466d823-bab1-4c94-b9c6-c064c794a30f.ods

http://data.gov.tw/node/31770

其JSON與XML均非單層結構,因而無法判斷其主要欄位名稱

20170523:

http://data.gov.tw/node/6830

缺乏資料內容,程式修正中(會另外回傳資料為空)

http://data.gov.tw/node/5996

CSV lint回傳錯誤

http://data.gov.tw/node/5997

http://data.gov.tw/node/29225

20170524:

http://data.gov.tw/node/17182

看來是正規JSON,疑為測試程式bug。

[update][20170603]已修正

20170602:

http://data.gov.tw/node/8572

使用Google Drive的案例。

參考修正方式:http://beauto.biz/36

新增問題:能否提供批次下載連結?

============以下為意見分隔區============

Q1. 

以 不動產買賣實價登錄批次資料 http://data.gov.tw/node/6213 為例,第二項資料資源"不動產買賣實價登錄批次資料(CSV)" 已可直接下載,但其為不具zip且未有manifest表單,

因此錯誤訊息是否應直接適用"不符合規範",而非"沒有檔案可供檢測"?

Q2: 主要欄位註記是否能加強容錯?例如採用連字號、冒號(包含全形、半形)等

Q2:(已修正)

綠框部分的”結果”,建議標示為”資料集檢測結果”;

藍框的部分,看能不能表示為 ”資料資源%d-%s(資料資源描述)”

 

 Ex: 同樣以http://data.gov.tw/node/6213來說,第二筆資料資源建議顯示” 資料資源2-不動產買賣實價登錄批次資料(CSV)”