政府資料品質提升機制運作指引(持續徵集修正意見)

最後編輯:2017-05-12 建立:2016-11-08 歷史紀錄

    LEO C壹、前言

LEO C一、目的

  • 為提升政府資料開放內容之正確性、易用性、即時性及採適當格式開放,使政府資料開放邁向結構化,爰訂定本運作指引,以期協助各機關建立資料品質概念、逐步提升政府資料之可用性。

二、適用對象

  • 行政院及所屬各級機關(以下簡稱各機關)適用之;公營事業機構、公立學校及行政法人,得準用;地方政府得參照。

三、適用範圍

  • 本運作指引以符合國際「開放定義」(Open Definition)之政府資料,範圍含括各機關於職權範圍內取得或做成,且依法得公開之各類電子資料,包含文字、數據、圖片、影像、聲音、詮釋資料(metadata)等。

 

 

    LEO C貳、資料品質提升流程介紹

LEO C一、資料品質相關標準

  • 以資料使用流程為出發點,分為資料可直接取得、資料易於處理、資料易於理解三個面向:

    (一) 資料可直接取得

    • 包含2項指標:
    • 1. 資料資源連結有效性:資料資源連結是否可回傳成功的 HTTP 狀態碼(HTTP Status Code)。
    • 2. 資料資源可直接下載:使用者能透過資料資源連結直接獲取資料,無需透過登入或任何額外的操作形式。
      Leo Cheng現在遭遇的困擾主要是針對資料庫系統,例如:http://data.gov.tw/node/22129 ;Webservice的提供方式,例如:

      (二) 資料易於處理

      • 就資料描述方式可區分為結構化與非結構化2種形式。
      • 1. 結構化資料:
        • 指經分析後可分解成多個互相關聯的組成部分,各組成部分間有明確的層次結構:
        • (1) 固定欄位結構化資料:
          • 單一列(Row)標題的表格式資料,每列資料的欄位數均相同,且無合併儲存格、無公式、無空行、無小計等。
            Leo Cheng常見檔案格式為CSV,以及可轉為表格型態的JSON、XML、GeoJSON、KML、KMZ、SHP等(包含大多數以API/WebService回傳之資料)。
        • (2) 非固定欄位結構化資料:
          • 資料內容主要為文字,或為無法轉為固定欄位結構化資料,但符合W3C之XML、JSON、JSON-LD標準等結構化資料。
      • 2. 非結構化資料:
        • 排除結構化資料以外均為非結構化資料。例如一般文字文件、圖檔、影音等。
          Leo Cheng常見檔案格式為PDF、ODS、XLS、XLSX、ODT、DOC、DOCX、PNG、JPG等。
      • 為利資料易於處理,如資料型態允許,應以提供固定欄位結構化資料為優先。

      (三) 資料易於理解

      • 針對結構化之資料資源,於詮釋資料須依「資料集詮釋資料標準規範」提供資料資源之編碼及其主要欄位之描述。

二、資料品質檢驗方式

  • 原則均採機器測試進行,7項檢驗指標列示如下:

*

以下為檢核結果示意圖:

p.s.上述示意圖尚未列示人工檢核項目

 

12/29追加:

  • 平臺的檢測流程,預計會將資料資源當中”相同檔名”的不同格式檔案,優先擇開放格式(例:CSV、JSON、XML)進行檢測,其餘同名不同格式檔案則予以略過處理。
  • 因此額外提供便於一般使用者使用的格式不會影響檢測結果。

 

 

三、資料品質管理重點

  • (一) 各部會管理者參考依據結果報告,協助資料集資料提供者進行改善;倘資料產製來源為系統者,可配合於維運週期提供符合結構化資料定義之資料資源。
  • (二) 對於非結構化但可轉為結構化之資料資源(如:具有合併儲存格之CSV、報表資料卻僅以PDF檔提供者),應以資料使用者的角度思考其提供方式是否妥適並安排期程改善。
  • (三) 對於資料內容為非結構化格式者,應避免進行無意義的檔案格式轉換(如:以Word另存為XML格式)。
  • (四) 政府資料開放平臺之資料集均應適用政府資料開放授權條款,各項資料之開放前均應確認其權利完整性(如:著作權等)。
  • (五) 民眾回饋意見,機關應於7個日曆天內回復,如屬資料有誤,或重大事件相關之資料資源未能符合民間需求品質,由國家發展委員會協調資料提供機關改善。

 

    LEO C參、資料品質提升作法說明

LEO C一、建議資料提供方式

    (一)通則

  • 1. 資料集詮釋資料注意事項
    • (1) 「資料集名稱」是資料資源集合的正式名稱,請以可一目瞭然之名稱命名之。
    • (2) 「資料集描述」為提供除了資料集名稱外的簡明陳述,讓使用者可進一步瞭解資料集內容。
    • (3) 如有說明文件(readme.*、schema.*)、說明網頁連結,應放置於「資料集相關網址(landingPage)」欄位,或與資料資源一併置於壓縮檔內。
  • 2. 資料資源注意事項
    • (1) 如有多重檔案壓縮之需求,應於資料集"領域別詮釋資料參考網址 (metadataSourceOfData)"提供manifest表單以利使用者理解壓縮檔內各檔案之關聯性。
    • (2) 檔案名稱建議以英數為名,避免檔案名稱編碼差異於中文檔名轉換產生亂碼。

      (二)API

      • 1. 適用資料類型:高更新頻率資料、已有系統可即時產製資料者。
      • 2. 建議資料格式:JSON、XML格式。
      • 3. 填列資料集詮釋資料注意事項:
        • 建議優先提供符合swagger 2.0之說明文件。
      • 4. 參考範例:
        • (1) 交通部公共運輸整合資訊流通平台 https://ptx.transportdata.tw/PTX/Service
        • (2) 本站提供之政府資料開放跨平臺介接規範 http://data.gov.tw/政府資料開放跨平臺介接規範.yaml
        • ************************歡迎提供範例************************

      (三)固定欄位結構化結構化資料

      • 1. 適用資料類型:定期產製且未經統計彙整之原始資料(RAW data)、統計資料、地理圖資資料、已有系統可產製資料者。
      • 2. 建議資料格式:CSV、JSON、XML、GeoJSON、KML、KMZ、SHP等格式。
      • 3. 資料內容注意事項:
        • (1) CSV內容請以半形逗號","作為資料區隔,欄位標題以一列為原則(可加註另一列為英文)。
          • Tonyq Wang(可加註另一列為英文) 覺得這個說明有點恐怖。 header/data 兩區我覺得不應該再多出一個「可能是第二個 header 的區域」,而且跟既有 csv reader 也不相容啊。
            Leo Cheng這塊的考量是在對照社會經濟資料庫的編輯方式,這裡會有更好的描述方式嗎?
        • (2) 結構化資料內容內需無多表合併、無合併儲存格、無空行、無小計。
      • 4. 資料集詮釋資料注意事項:
        • 主要欄位說明請依「資料集詮釋資料標準規範」填列,欄位區隔建議請一致採用全形頓號"、"。
      • 5. 參考範例:
        • (1) 消費力統計-各分位載具消費張數金額-資料集 http://data.gov.tw/node/24831
        • (2) 社會經濟資料庫 http://210.65.89.57/STAT/Web/Platform/Product/Apply/STAT_ProductApplyFree.aspx
        • ************************歡迎提供範例************************

    (四)非固定欄位結構化資料

    • 1. 適用資料類型:會議紀錄、法規函釋等。
    • 2. 建議資料格式:建議以JSON格式優先。
    • 3. 參考範例:
      • (1) 行政院資料開放諮詢小組會議紀錄 http://data.gov.tw/node/16827
      • (2) 法務部法規資料庫 http://law.moj.gov.tw/PublicData/DevelopGuide.aspx
      • (3) 民間整理組織法 http://ronnywang.github.io/tw-gov-org/
      • ************************歡迎提供範例************************

 

    (五)非結構化資料

    • 1. 適用資料類型:不限制。
    • 2. 建議提供資料型態:不限制。

二、檢測流程概要

  • (一) 資料品質檢核功能於政府資料開放平臺後臺提供,於資料上傳(手動/批次/介接)階段進行資料資源預載及檢測流程,並以電子郵件通知測試結果,便利資料提供者據以提升資料品質。
  • (二) 當資料資源有所異動時,由系統自動排入檢測期程。
  • (三) 連結有效性測試將以每週至少一次的頻率進行測試。
  • (四) 資料資源是否屬結構化之判斷流程:
    • [start]承辦人增修資料資源
    • [A]判斷資料資源檔案格式
      • 如果是 壓縮檔,到 [B]
      • 如果是JSON, XML, GeoJSON, KML, KMZ, SHP檔,到 [C]
      • 如果是 CSV 檔,到 [D]
      • 如果是 XLS, XLSX, ODS 檔,到 [E]
      • 如果是 API, WebService 到[F]
      • 如果是 其他檔,直接到 [Z]
    • [B] 壓縮檔 (zip, 7z…) file
      • 解壓縮後,先排除部分忽略清單(例如 README.* schema.*等)
        • 如果只剩一個檔案,回到 [A]
        • 如果有多個檔案則到 [U] //參考範例 http://data.gov.tw/node/6380
        • 如果有manifest
    • [C] JSON, XML, GeoJSON, KML, KMZ, SHP file
      • 進行syntax check
        • 失敗到 [Z]
        • 通過到 [T]
    • [D] CSV file
      • 進行UTF-8 check
        • 屬UTF-8,到 [T]
        • 非屬UTF-8,轉存為UTF-8後到 [T]
    • [E] XLS, XLSX, ODS file
      • 有合併儲存格、繪製框線、儲存格背景色或使用公式等,到 [Z]
      • 有使用多分頁,到 [Z]
      • 無以上情形者,到 [T]
    • [F] API / WebService
      • 若API / WebService 提供html介面,則到 [X] //參考範例 http://data.gov.tw/node/6065
      • 若直接提供json輸出結果,則回到 [C]
    • [T]進行是否為table格式判定
      • 嘗試轉換為CSV格式
        • 屬table格式,取出CSV欄位值,填至資料集詮釋資料之fieldDescription欄位,於政府資料開放平臺保留轉換後之CSV檔,到 [Y]
        • 非屬table格式,到 [X]

 

  • [U]判斷壓縮檔是否包含manifest描述檔
    • 無manifest描述檔,到 [Z]
    • 有manifest描述檔,採人工判斷 [end]。
  • [X] 將這個檔案上架,標記為結構化資料 [end]。
  • [Y] 將原始檔案上架,標記為結構化資料,一併將轉存之CSV檔案上架,並註記轉換日期時間[end]。
  • [Z] 將檔案上架,標記為非結構化資料,並錄是從哪個流程進到這步,供部會管理者參考[end]。

 

 

 

 

 

=========================以下暫存區==================================

政府資料開放平臺(以下簡稱本平臺)的服務對象:

  • 主要:開發者/資料使用者,以UTF-8之CSV、JSON、XML等結構化格式作為產出
  • 次要:一般資訊公開使用者

 

  • API/Webservice部分有無可直接區分的方法?
  • 例如:https://vipmember.tmtd.cpc.com.tw/OpenData/ListPriceWebService.asmx

 

  • 壓縮檔的規範應以zip為主,並應注意zip archive 內的 filename encoding

 

  • 應強化說明文件以降低各機關承辦窗口客服壓力

 

檢核流程討論

https://g0v.hackpad.com/JSON-XML--lqlPtqrJSZG

 

 

 

 

 

1.相同欄位資料建議放置於同一資料資源

2.資料內容若以RAW data方式提供,無須再提供小計、百分比、總計等欄位

3.

 

【好的結構化範例】

iTaiwan中央行政機關室內公共區域免費無線上網熱點查詢服務

http://data.gov.tw/node/5962

 

【待議】

數位機會調查(資料有部分缺欄、底部有說明文字,這些都還算OK)

http://data.gov.tw/node/5960

 

【待改善結構化範例】

景氣指標及燈號(裡面的假XML)

http://data.gov.tw/node/6099

都市及區域發展統計彙編 ─ 10-2. 各縣市政府歲出決算數(多重欄標題、百分比、小計)

http://data.gov.tw/node/6519

 

 

 

參考資料

 

 

This pad text is synchronized as you type, so that everyone viewing this page sees the same text. This allows you to collaborate seamlessly on documents!