大家好,繼先前po出的「政府資料品質提升機制運作指引」https://gov2g0v.hackpad.com/0T28wqhR2EW
現在已經實作出資料資源的測試function啦!!(灑花
測試網站連結: http://quality.data.gov.tw/
操作方式: 在政府資料開放平臺( http://data.gov.tw/ )找到自己感興趣的資料集,例如 http://data.gov.tw/node/21026 ,就把 21026 這個數字輸入上述網站的搜尋欄位,程式就會即時進行檢查工作(原則上10秒內即可完成測試,除非資料資源file size過大)
以下綠框表格是「資料集」的總輸出(原則各檢測指標結果為「該資料集所有資料資源」測試結果"交集")
以下淺藍框表格是「個別資料資源」的測試結果(有錯誤訊息的話會在最下方顯示):
常見問答:
接下來這個function將會整併至政府資料開放平臺(http://data.gov.tw)內,目的為能讓公務部門的同仁能快速知道自己的資料資源出了什麼問題(當然非機器能處理的錯誤是抓不出來的),當然也會提供批次檢測的功能。
對於目前的測試狀況,歡迎各位熱心朋友提出建議~
成功case:
欄位描述有瑕疵,但格式正確的case:
CSV欄位描述、編碼描述有誤,但格式正確的case:
多樣化資料資源的case:
============以下為錯誤紀錄區============
20170517:
資料資源檔案名稱有使用特殊字元,疑似造成判讀錯誤
國發會行政規則§159II2.xml
資料資源之JSON/XML為系統產製,疑似造成延遲
資料資源未填列編碼
資料資源檔名重複,因而造成僅以ODF格式進入檢測
7466d823-bab1-4c94-b9c6-c064c794a30f.xlsx
7466d823-bab1-4c94-b9c6-c064c794a30f.ods
其JSON與XML均非單層結構,因而無法判斷其主要欄位名稱
20170523:
缺乏資料內容,程式修正中(會另外回傳資料為空)
CSV lint回傳錯誤
20170524:
看來是正規JSON,疑為測試程式bug。
[update][20170603]已修正
20170602:
使用Google Drive的案例。
新增問題:能否提供批次下載連結?
============以下為意見分隔區============
Q1.
以 不動產買賣實價登錄批次資料 http://data.gov.tw/node/6213 為例,第二項資料資源"不動產買賣實價登錄批次資料(CSV)" 已可直接下載,但其為不具zip且未有manifest表單,
因此錯誤訊息是否應直接適用"不符合規範",而非"沒有檔案可供檢測"?
Q2: 主要欄位註記是否能加強容錯?例如採用連字號、冒號(包含全形、半形)等
Q2:(已修正)
綠框部分的”結果”,建議標示為”資料集檢測結果”;
藍框的部分,看能不能表示為 ”資料資源%d-%s(資料資源描述)”
Ex: 同樣以http://data.gov.tw/node/6213來說,第二筆資料資源建議顯示” 資料資源2-不動產買賣實價登錄批次資料(CSV)”