政府資料開放委外專案研究計畫審查會議紀錄(逐字稿)

錄音檔:https://drive.google.com/file/d/0B2dONNyJR5n2QmswSFV4dTFPTEk/view?usp=sharing

(檔案大小約140MB)

*

http://www.slideshare.net/ChiachunYeh/105-v14-20160606

簡處長宏偉:

因為我們在去年開始推 Open Data 的時候,我們在第一個階段是希望以量為主,先讓各機關把 Open 的文化建立起來,所以的確我們那時候先不談品質,因為我們希望各機關至少願意接受什麼叫做 Open Data,那他的品質我們就是針對授權、針對分類做了一些規範,可是在去年年底的時候,那我覺得其實量應該OK了,接下來應該要談品質。那這也是回到先前,像是嘉良、Ronny一直在談的Open Data 其實要看品質,這個我贊成,只是它是一段、一段階段式的,所以我們在今年有一個時程是說,六月要完成一個資料集品質評鑑,先出來然後找一些機關試辦。

那品質這些事情其實不容易定義,所以其實團隊蠻辛苦的一件事就是說,要談品質就要回到目的,因為你有目的你才能去做評鑑的指標,因為你做評鑑指標都是要朝向這個目的,那所以我們的團隊其實就用好一陣子,盈志這邊跟團隊的合作,今天就有一個初版。

今天找各位來不是說初版就是這個樣子,因為我們的想法畢竟有限,團隊有團隊的侷限性,我們有我們的侷限,所以想聽聽看不同領域的專家學者,那從你們以前見過的品質評鑑或者參與的品質評鑑裡面,給我們一些指教。

我希望這個品質評鑑他是階段性的,今年先做一個基礎的一個評鑑,那之後其實類似POC概念,那就算階段性也適合今年做這樣,明年馬上翻成另一個,這樣也不OK。所以方法論和架構是我在意的,所以今天就會請四位專家學者,包括學術界、實作的、公務體系,希望聽聽看各位的意見,那給我們一些指教,之後我們再來做適度的修正。那這個品質研究的指標的訂定,他們有在問我,我說OK的,就算是草案放出來大家討論也都是OK的,那所以今天的討論結果,簡單的會議資料到時候也都是全部公開,那不知道四位委員這樣OK嗎?

委員們:

OK

簡處長宏偉:

那我們希望透過大家一起來,我們品質評鑑作好,我的看法是你今年下去做,就是把它做好,那也不會是一步到位,但就是一步一步的逐步把它做好,所以今天也不要覺得說,因為大家都熟,就不好意思講,沒關係就當作我不在,你們就盡量講,那你們也不要在意說這個品質研究的顧問是誰,這個品質研究的顧問,他的意見也不見得就是對的,這個顧問的意見有時候也會被我打槍,所以今天就是說,我們討論就是就事論事,不要因為誰有幫忙,搞不好他真的是錯的,就是這樣,我們就麻煩各位多給我們指導。

鄭分析師立源:

接下來就麻煩團隊做一個簡報。

黃副總經理雅慧:

謝謝主席,還有各位委員大家好,那我先簡單介紹我們團隊,這是Whisky,我想不用特別介紹,大家應該都認識,那我是Joren,是這個專案的協同專案經理跟專案統籌的部分,那這是我們專案經理Calvin、另一位專案經理Poya,那他也會是這個專案計劃的統籌者,跟我們的研究員家俊。

等會主要的品質評鑑跟結構化的部分會由Poya做完整的介紹,那API的部分就會請家俊報告。

在Poya進行簡報之前,我們要特別感謝一下處長以及盈志科長,因為的確這份研究計劃生出來的很不容易,大概歷經幾個月的時間,來回跟會內做了數次的討論,坦白說,的確3月份的初版,我們是把它放得比較操作性,但就如主席說的,如果品質沒有先界定,沒有先談到目的,後面的要做操作性都會沒有一個核心基礎,所以我們在過去的兩到三個月的時間,我們也參考一些文獻,跟會內幾次溝通後,大概有一個定調,那這個部分會對準到整個國家在開放資料所談的是為了透明治理的晉升,所以我們會從透明治理這個部分開始論述,談到透明的幾個階段,談到資料透明,再從資料驅動對準到資料品質怎麼做。

細節的部份我們就請Poya來做完整的介紹。

簡報(略)

莊科長盈志:

剛剛由團隊的整個研究方法,團隊所採用的是六階段的歸納分析方法,那其實它本身是動態循環的架構,評鑑的指標出來之後,之後會產生部會自評的作業,那自評的作業中我們定出來的指標,經過部會的自評後續可以做一個滾動的調整修正,以上說明。

王委員向榮:

我這幾天有整理一些(https://ronnywang.hackpad.com/20160606--U0LArJy9Q6h),因為我自己本身也是資料使用者,因為是資料使用者,所以資料要是乾淨的能被使用,是很重要的事情,那我這邊大概整理了一些當做一個去檢核這個資料品質好不好的一個方向,譬如說以大部分被使用的資料都是CSV的格式,或是JSON,那CSV其實就會有一種蠻客觀的話,去看它是不好的CSV,例如說,今天一個好的CSV應該第一行是欄位,第一行以後全部都是數字,這應該是所有CSV都要是這樣,只要不是這樣這就是一個不好,要被扣分、被改進的CSV。然後內容的部分可能就要被排除掉,它後面只能有值不能有一些像是總計、與去年比、與上個月比這種可以被計算出來的資料,還有逗號,如果它是數字的話應該就是純數字,然後單位的話,最好能夠被分出來放到Meta Data之類的,那我下面也會在提到。

那所以說現在還蠻多CSV,它是把 Excel 直接轉成CSV來用,那它Excel它不是拿來用的,它是拿來看的、它是拿來排版的,那所以這樣一變成CSV之後,就變成完全是不能用的東西,那我之前,去年十月我有對之前12月那個時候,Data.gov.tw那個資料,就哪邊有什麼問題,譬如說它欄位有空白的有多少,第一行的欄位有沒有重複,因為有重複就很奇怪,為什麼有兩個金額或兩個人口之類的,代表它的欄位內容說明不清楚,或者是說它有沒有它的欄位上面有沒有純數字的,因為欄位不應該有純數字這種東西,就我有把一些狀況大概整理出來,那這邊我這幾天有跑一個現在的版本,那如果想要做研究可以再參考看看。

那再來就是我覺得很重要是裡面的資料,如果有些純量,像是人口、金額這種純量就算了,但是如果有一些是屬於比較像是名稱性質的話,最好就要以代碼加上名稱來取代原來的名稱的部分。像假如本來是台北市,那能不能變成兩個欄位,像是 65 台北市 ,那65就是內政部的行政區域代碼;或者是假如說今天是有一個公司的名稱的話,譬如說原本是台灣積體電路股份有限公司,再加上統編一個欄位,這樣兩個欄位來取代一個,那主要的原因是,今天你純用名稱的話,其實很容易會有混淆問題,像是最常見的「台」、「臺」問題,或者是說有個資料集,像是2010年以前的台南市跟2010年以後的台南市,其實兩個指的是完全不同的個體,但是如果你今天是用行政區代碼再加上這個資訊的話,那你就會知道它指的是以前的縣轄市還是以後的直轄市,然後,像有一些簡稱問題,像是台大醫院跟國立台灣大學醫學院附屬醫院,其實它講的都是同一個東西,但是很多資料集裡面,因為它只用中文字寫的時候,你就不知道它其實講的是同一個東西,很難做資料的連結,所以我覺得說,如果今天不是純量性質的資料,而是這種民間性質的資料,如果能的話,最好是能夠再加上一個代碼,如果沒有代碼的話,能不能生出一個代碼出來,只要有代碼,那這個代碼就應該有一個獨立的網址,這個網址是能夠進去裡面,看到這個代碼這個描述的個體裡面最新的狀況,例如說像經濟部之前商業司有做過一個這個網址,它是一個RDF,就是你只要把後面統編換掉,進去裡面就會看到RDF格式顯示這個公司的最新資料,只是最近好像爛了好一陣子,好像都不能用,那我覺得其實這個東西是不錯的例子,就是說今天統一編號的這個東西,那可能衛福部可能對醫院用健保代碼做後面的網址,然後可以做一個醫院相關的,那教育部可能對各級學校,內政部對行政區代碼,其實只要手上有代碼的,都可以做出一個類似像這樣的服務,然後這樣的服務的好處,一來是可以鼓勵說,所有的民間的開發者,可以鼓勵他們把自己的服務,只要用到政府的資料都可以連結回來,那這樣只要大眾在使用這些開發者的東西的時候,它其實可以回頭過來檢驗最新資料,是不是和當時呈現的版本有落差,那它就可以判斷說,得到的資訊是不是要額外再做一些額外的判斷。

然後,我覺的資料版本也很重要,就是資料除了呈現整個資料集的版本時間以外,我覺得如果能的話呈現每一筆的話更好,譬如說這一筆是什麼時候被建立,什麼時候被修改的,那這樣也是方便說,如果民間的應用開發者,能夠把這些資訊呈現在應用上,那使用者至少可以知道這個是很新的資料,還是落差一兩年的資料,然後這樣它在使用的時候可以瞭解多一點狀況,比較不容易誤判。

那我覺得資料的評分方式,其實如果所有的資料集都用一模一樣的評分模式的話,我覺得不是很理想,其實每個資料集都有不同的屬性,就像是男生、女生我們要評鑑生理健康狀況,男生可能就會有一些像精蟲數量或什麼的,但這種東西就不能套到全人類,所以資料集可能要先列說,這個資料集是什麼樣的屬性,然後再決定說,這個屬性的情況下會不會有什麼評分的基準,譬如說這個資料集,它是不是一個一次性的資料,像是譬如說2013年的什麼研究案或是研究成果,這樣的資料集,其實它就不會再變了,所以對它來講,假如你用更新頻率和它有沒有定期更新去檢核它,就是很奇怪的事情。

然後,這些資料是一次性的,還是會持續更新的,或是它會累加,就是舊的資料不會再更新,但是會隨時冒出新資料的,先知道這些狀況,然後我們後面再去評斷說,這三種不同的情況,會有不同的評分方式。那至於像內容的話,我覺得也是要把每一個欄位列出來看,這個欄位是怎樣的屬性,譬如說這個欄位是名稱的屬性,它是台北市、它是馬英九、吳敦義候選人、它是台大醫院,就像剛剛提到前面幾個,如果這樣的名稱的話,是不是能加個代碼,那這樣的話,它就是一個好的品質的資料,那如果代號的話,那我覺得它也要去講說,這個代號有沒有一個Meta Data上面怎麼說,這個代號你可以去哪裡對應,瞭解它所指的是什麼東西,然後日期、時間、數值之類的,有沒有講清楚它的單位,數值是不是一個乾淨的數值,中間有沒有去掉逗號,需不需要再做額外處理;或者是地址,我覺得地址也是處理政府資料蠻常遇到的問題,就是很多地址是因為,它是手填的,所以它的地址是錯誤的,就郵局可以寄的到,但實際上你去找那個地址你是找不到的,以及說,如果今天一個資料集裡面,它有沒有Primary Key,就是有沒有這個資料集的主Key是能夠代表它的,如果有的話,那這個東西就可以決定這個東西有沒有一個URI可以當做評分依據,那如果這個資料集本身沒有這個東西的話,就不需要看它有沒有URI了。

所以,以上就是我對品質的一些想法。30:57 

高委員嘉良:

剛剛Ronny講的就是很多實際上使用資料會用到的問題,那我們現在想的是如何讓評鑑的機制會improve這個東西,因為這個沒辦法去跟每個單位說,這一筆需要被糾正,我們現在其中的一個目的是說,經過這個標準、經過這個評鑑的方式,這個品質的定義之後,上面這些東西都自動被解決了,Ideally 是這樣。那我們遺憾是說一直再講目的性,那這可能是評鑑,你怎樣讓它這個品質出來,所謂符合品質就是好的資料,那所以我覺得就是剛剛的報告有好幾個不同的層次混在一起,就是說你說這個現有的評鑑,像是Open Data Index ,它是評品質的評鑑,它是品質的評鑑嗎?其實並不是阿,它是說有沒有這個資料,主要是看這個資料有沒有開放,那其實我們今天這個研究的重點是Word檔裡面那個表,你如何定這個分數,那報告裡面其實沒有,我們今天會針對這個討論嗎?

 簡處長宏偉:

都可以。

高委員嘉良:

好,那就是說如果我們今天Focus在這個資料就已經是Open Data了,那剛剛在那個Hackpad最後面,就是我們今天重點應該是這個東西,最後就會變成評分的內容,我們的問題就是這個評分的內容,有沒有辦法導致Ronny剛剛提出上面的問題被解決了,所以我就從這個目的性來看,那這個東西到底有沒有辦法針對這個我們覺得有問題的地方,來改善它。因為以這邊來講,如果我們評鑑的目標都已經是Open Data了,那這個Section完全不用,因為它就是Open才會被我們評鑑,那所以這也許就可以去考慮,這可能是一個最基礎的metadata,就是有這個資料我卻不給你,但現在是有這個資料而且現在已經在open data上了,這可能不是評鑑的內容,這是資料有沒有在,就是我們所有部會有的所有資料,應該有個列表,希望大多數都是在open data上,那這個東西應該是在那個列表,而不是在品質評鑑裡面,那再來裡面才會是可不可以處理。

廖柏雅:

報告委員,不好意思,因為這一塊是我們在專家座談會前所定的表格,然後這邊有一個最新版的,我直接投影最新版的。

最新版的這一份,裡面上次我們其實有跟處長報告過,那這一塊還有很多不足的地方,但最起碼這一塊是我們有再次做過修正。

那我們就會去比較去針對細項的東西,不會去看它是不是開放的東西,因為它已經是在評開放的了,我們在去做資料集盤點的時候,機關去填寫所謂的詮釋資料的時候,它們所填的內容跟實際釋放出來的內容,是有不一致的狀況,所以我們才會去定了它是不是符合標準規範,符合標準規範的意思是說,它到底在資料集詮釋標準規範,它符合的比率是多少,這一塊是一個,再來就是公布延遲性,因為平台上有所謂的預計發布年月,那機關它到底是不是符合它原本預計開放的年月,然後去做定期的資料集公開,這一塊也是我們希望評的,再來就是一些更新軌跡、檔案格式符合程度,下面的話其實是我們針對每個細項做的說明,但是因為我們這一份計劃其實有分三個階段:期初、期中、期末,那期初的部分其實是針對我們現在提出的研究計劃的方向或是框架有沒有需要修改的地方,然後期中跟期末才會慢慢去產出這些規範再去做實作。

簡處長宏偉:

可是譬如說其實對於所謂五星開放資料,這個我一直很有意見

高委員嘉良:

這個我們可以討論

簡處長宏偉:

因為我覺得,你所謂定義的五星資料是什麼。因為我一直覺得是說對政府來講,我問的是說我對五星的定義是什麼,什麼是五星。

廖柏雅:

報告處長,這塊對五星的定義,我想大家其實都會有一些爭論,那這些我們初步定出來的指標,都是可以去做修改,那為什麼會把五星的標準放進去,其實是因為在《開放資料行動進階方案》已經有明定說各機關它所開放的資料,要符合所謂的三星標準。

簡處長宏偉:

為什麼我們只寫到三星。

廖柏雅:

我在猜想主要的原因是只要機關能夠達到基本的三星要求,它其實就可以做基本的資料流通。

簡處長宏偉:

如果我要推到五星,那我為什麼不要一開始就寫我要五星資料,因為對政府機關來講,能夠解決授權的問題,能夠解決格式的問題,能夠解決讓機器可讀的問題,我認為對政府機關來講就夠了,那我們有試做過從一個機關的一個資料集,從所謂的不能開放、從資料清理一直到把它變成LOD,它要花多少時間、要花多少錢,坦白說不值得。

所以說為什麼我們在《開放資料行動進階方案》說要三星,是因為這樣,因為我認為四星跟五星是民間可以去處理的,而不是由政府機關來處理,所以你把五星資料開放標準納入評分,那就代表隱含著我要所有政府機關往五星發展,那個成本是非常高的,我們談的不是百萬也不是千萬,我們再談的是幾億,那政府花這種錢有沒有價值?沒有。

因為其實對五星這一塊,所以先前你在報告,我對這一點很有意見,因為沒有所謂星等多就是好,而是四星跟五星,其實某種情況讓民間去做,那個才會有產業出現,那政府機關做到三星,讓它解決格式的問題,讓它是開放格式,這樣就OK了。

所以我還是認為不應該把五星開放資料放在評鑑裡面,因為你這會引導所有政府機關去做這件事情。

黃經理雅慧:

不好意思,我稍微打岔一下,其實剛才Poya也提到,我們團隊當初花了很多時間在訂這些criteria,但我們也發現,我們有侷限性,這也是為什麼我們再這樣的審查會議之前,我們已經召開了專家學者座談會,我們先做了一個專家會議,也是希望把一些比較不適合的指標做一些調整,或甚至直接修正。

簡處長宏偉:

是,因為我覺得有些東西像我講的,評鑑它會引導政府機關往這邊做,評鑑不會一次到位,那我覺得本來就是大家彼此溝通。

高委員嘉良:

那我繼續,我覺的是這樣,就是回到目的,如果今天這個東西出來,它有沒有辦法達到就是說大家如果認真按照這個評鑑去Follow的話,資料就會變好,這中間有很多環節,包括剛剛Leo有講到說,大家一聽到評鑑就想是不是要花很多力氣,所以評鑑的可執行性,跟這個東西裡面有沒有主觀的東西,像是五星的部分你可能要花人工去檢驗它是不是五星,除了剛剛處長講的之外,所以我也覺得這可能不是一個好的指標,那包括符合標準規範的比率,當然還是有用各個欄位的difference去把它加起來,那這個變成你今天publish的meta data是這樣,那你實際真的內容沒有辦法用機器檢測的話,那這個是單位自己填的還是誰填的?就是你真的所謂符合真正的內容,你是要用機器去檢核嗎?還是找一群人去檢核每一筆資料?還是請單位自己填,但是單位它自己不是已經填過了嗎?那這個就變成它可能也不是一個很好的可執行的部分,所以雖然它是不是accurate是很重要,但它可不可以執行是另外一回事。

應該是講說我們應該要把品質跟是否符合標準稍微切開來看,那還有就是說,你有提到參考Barometer,Barometer裡面有提到它會參考影響性,那這個東西你怎麼把它出現在這裡面,這目前沒有看到。

因為我們現在講五星,其實你就會進入semantics,你就必需要定義這個vocabulary,那如果你看過國內它做的五星,你就會發現它可能是樣子做的像五星,可是就跟用Excel轉出來的CSV一樣,因為它每個vocabulary都是自己定的,所以沒有辦法跟任何人聯結再一起,所以我覺得我們可以找一個中介的方式。

我們現在的meta data比較講的是這個資料集,那有沒有辦法去規定它meta data要解釋欄位,欄位你可以叫它用 existing vocabulary,這個欄位的意思是跟FOAF 裡面的人一樣,這個欄位裡面跟Geo Location一樣,所以它不用定一個資料集的標準,但是他要告訴我每一個欄位它跟現有標準如何對應。那這個是比較中介,比較簡單可執行的方法,因為你有這個之後,其實你的data 內容跟這個meta data的內容就可以半自動化去檢測,那所以這我覺得是比較可以執行,而且quality真的變高,而且不是說一個分數而已,而是這個東西真的變可用,因為你有semantics你開始往五星的方向去,可是你又沒有強迫它做成一個五星的樣子。

再來就是說這個資料集跟這個部會,或著是說更細的負責單位,它的核心的業務關係是什麼,它是不是一個很重要的關係,舉例來說,因為Ronny有講到一個標準的部分是很多的東西是entity,很多東西是你refer到一個公司、一個縣市、一個單位,那所有負責維護一個官方列表的單位,其實這是他業務裡面最重要的事情,就是這是一個合法的學校、這是一個合法的補習班之類的這種東西,這一部分我覺得,因為我們會分階段,我覺得第一最早的階段,能不能去要求這種東西給它比較嚴謹的評鑑標準,因為這種東西的更新延遲性比較不重要,那再來就是說,它做為一個標準,其他資料要去refer它,才可去Refer,就像是公司行號的資料、所有學校的資料、所有基金會的資料這些東西,如果我們會分不同階段的話,我們能不能第一個階段,這個應該是所有單位它業務內不管是正面表列還是負面表列,它自己要維護的資料,是不是用好的方式釋出。在這個基礎之上,你其他要做連結的東西才能夠指向這個資料,這樣講會不會很複雜,應該還好吧。

那再來最後面有講到,這個研究會是一個Cycle,就是我們提出來之後,讓機關去嘗試執行後,我們再評估一次,我有點懷疑這個Cycle能夠有幾次,因為這個還蠻麻煩的,你叫機關改成這個樣子,然後這也不是叫它改成A版本,你必須叫它把A版本生出來,然後你再評估一次,這個Cycle真的可以進行嗎?一年內可以進行幾次,所以我說,如果我們鎖定這種列表型的,這種顯然比較是核心的資料,對於社群來說是比較容易有Feedback,所以也許可以朝那類的資料去做。

那後面我有看到為什麼要看機關網站的新聞跟新聞稿是不是結構,這是不是另外一個東西,就是網站結構化,跟我們這個沒有關係吧?

廖柏雅:

這份專案裡面包含三份研究,第一份是資料品質,第二份是網站資料結構化,這兩塊為什麼要放在一起講,其實是因為我們最終希望達到的目的是能讓機關跟機關之間的資料能夠整合和串接,那在網站資料結構化這一塊,我們是希望可以去建立一個共通性語彙,讓未來的社群使用者在做爬網的時候,可以去做資料跟資料之間共同屬性的聯節。

高委員嘉良:

所以你們設定是以新聞稿做對象?

廖柏雅: 

當初設定是新聞稿,這一塊我們都有找到schema.org裡面找到不管是屬性的內容,還是標籤的語法,可以套用在國內的政府機關內

簡處長宏偉:

關於這一塊,盈志這一塊他們有提供你電子化作業要點,它是再講metadata的部分,

張維志:

處長是在說 Dublin core的部分,

簡處長宏偉:

那是我們主政的業務,就是說網站的規範其實是國發會定的,然後我們要求各機關,在他每一個page,都要有metadata,去說明那個page是做什麼,那你剛剛在講這一部分,在meta data是明確的定義,我知道有一些機關改版之後不見得follow,我的意思就是說,如果它已經有要求,我們這邊又有一個不同的做法的話,那我們是要去修這個規範,是這個意思嗎?

張維志:

是一個擴充,因為現在的東西其實是不符合網站的需求,像那十九個裡面有一個叫做description,那其實大家怎麼做,大家就是把description丟到裡面,那我們希望是說,藉由Schema.org裡面,像是Artical屬性,我該有哪些欄位要篩出來,這都有利於搜尋引擎更好的找到內容,第二個是網站資料結構化之後對於寫爬蟲的人也好,對於後面想要把它擷出使用的人也好,因為我們缺的就是資料是沒有描述的

高委員嘉良:

等一下,因為現在Focus在網站的內容,但你真的有資料的東西,不會在網站的內容,它會在另外一個系統。

張維志:

不是,網站上的東西都被視為資料,content都被視為資料,所以一個新聞稿也被視為資料。

高委員嘉良: 

對,但我意思是說,大家會去爬的有價值的資料不會在網站上面。

張維志: 

其實網站上面的東西都很有價值的,只是沒有人去把他爬出來。

高委員嘉良: 

但他已經提供RSS了。

張維志:

沒有, 像我去新竹市政府,他們告訴我網站上面最受歡迎的是新聞稿,那新聞稿要怎麼使用,的確是有RSS,那真對內文裡面的呢,像是聯絡人,它會不會搜出來,不會,你會發現它其實不是一個資料結構化。

現在Data on the web就是在講這個東西,我要的東西是每個政府的content都被結構化,讓它變成一個資料的概念,不是跟現在所謂rss的概念,你現在爬網站是把所有內容爬下來,在寫parser去把東西抽出來嘛,可是如果我們先把每個欄位,依照schema.org把欄位都定義出來之後,你在寫爬蟲的時候會更方變一點。

簡處長宏偉: 

所以在那一塊的話,就會是擴充現有的詮釋

張維志:

對,它是擴充現有的詮釋

簡處長宏偉:

對,我必須確認這一點,有的時候團隊有沒有先去看過現有的東西,那除非必要我覺得應該是能夠讓他相容,要不然對機關其實是很大的衝擊。

張維志:

從更原始的地方,把比較大的類別定出來,為什麼要做這種事情,沒人想過要把它做成開放資料,這一塊其實跟品質有一點點關係,它比較像是從源頭的地方去做好資料,你還是在你的網站上面,變成開放資料的話,不是每個政府都依照自己的方向去走,而是依照data on the web 方式去做。

簡處長宏偉:

瞭解

莊委員庭瑞:

我覺得剛剛講得有三個面向的問題,因為我們在講品質,一個面向是資料集的品質,另外一個面向是政府機構提供開放資料,提供的服務品質,第三個面向是使用者經由這個服務,他有沒有得到一個價值,那這個價值也是可以被評比的。

那前面這個資料品質的部分,我是覺得我們都同意開放資料最少是三星,而且我們只要討論三星就好,第一個是他沒有授權的問題,第二個是他是機器可已處理,第三個是他格式是開放的,那格式開放的意思是最少有一個開放源碼的程式可以處理它,要達成這三項,是must,一定要有的,如果沒有就不用去評鑑。

但這三個門檻其實是很低的,但他的品質可能不好,可能你沒有講清楚這個表單他每個欄位是不是有做編碼,有編碼我們會覺得他的品質比較好,比如說第三點開放格式的話,比較理想的是它的格式,是有一個schema,是有一個型態的條件,政府機關發布這個名稱的資料集的時候,我有一個程式可以查核他裡面不會塞一些垃圾,品質好不好就從這三點是不是,一個政府機關提供一個protocol 上面放很多資料,那品質好不好就從他是不是都講得很明確,開放授權是不是走開放授權條款,機器可以處理是哪個層次可以處理,是哪個程式可以處理,你要說清楚,meta data是不是一個詳盡的表單schema,那這是資料集本身,只要它符合這個條件,它就是開放資料,它不一定要放在平台上,那像我提供一個平台,譬如國發會平台上,容不容易搜尋,能夠依照資料名稱、發布日期等來做搜尋,

Service你這個服務的品質是不是穩定的,這個網站是不是持續營運,如果他的發布週期是不是符合,服務的品質是什麼

第三個層次是說對使用者而言,你有一個資料集從網站上面提供,但基本上沒什麼對他沒什麼用處,因為提供的資料集對他的價值不高,我覺得這也是品質可以評鑑的一個面向,但這個面向要怎樣看對哪一個使用者價值高,像是你這個平台是不是至少可以是discover,我是覺得你可以從這三個面向去看data quality of service , value to the user。

簡處長宏偉:

這邊我能不能請教老師一個問題就是,我們在講品質的時候,就會回到這個資料集好不好用、可不可以用、資料有沒有價值,品質這個指標就是等於有點要引導說

我們在談資料的價值的時候,我們怎麼有品質的評鑑去衡量出來?

莊委員庭瑞:

價值跟品質不大容易接在一起,這個我同意,但是我覺得我們要思考,然後前面第一個面向品質,就是很容易找一些例子,像是你政府機關提供資料給我之後,我還要不要做清理,如果我還要做資料清理才能夠用,那這個品質就是不好,因為你自己已經做好表單schema.org,我們可以做你資料給我,我們檢查程式run一遍,沒有問題的話,就表示不用在清理一次,這是一個一致性的檢核程式。

謝委員宏利:

今天這個身分來發言有點尷尬,既是提供者又是參與者,但是我覺得我有一些不錯的分享經驗,其實我們內政部的平台有在做資料檢核,那我們有設計這樣的概念,不管是零值、空值、甚至說數值,就是說作邏輯檢核,我覺得系統檢核只能做到邏輯,他絕對沒有辦法檢核到裡面的資料正不正確。

我們的平台被票選最有restful的示範格式,那所以對於restful有一些具體的做法,有助於資料品質跟資料蒐尋易用的層次,在我們的平台上可以提供一個csv,系統會去做一些邏輯的檢核,文字的部分作邏輯檢核,空間的話他會把地址轉為X-Y值,其實相對來說對資料的品質已經有一定的提升,做了這樣的檢核後,使用者就可以用restful參數的方式,去下載取得資料的範圍,它可以去下一定的條件,之後他的使用、應用的程度就非常高。

我現在個人的想法是,這個東西是需要一個工具、一個平台,他沒有辦法給所有格式,可是他可以給最大宗的CSV格式,來去做下手跟處理,我算過內部平台有500項CSV,如果都透過restful的機制來走的話,至少空值、地理空間轉換,就省去很多effort,我個人的理想是中央部會的自建平台應該強化後台的功能而不是前台的功能,我們甚至不排除內政部平台收掉,因為收掉之後,我們能更專注在我後台資料的品質跟介接的機制。

剛剛高先生說得很好,他的概念說是把meta data做成五星的架構,我們那時候曾經為了空間的資料去做open data,把出生年月日、日期時間、地址資料做成統一格式,我們發現好難好難,因為每個單位都說我們要改很困難,這時候就是運用一些工具去輔助他們做篩選做一些應用。

另外我建議是不同的資料屬性一定要分級,空間資料一定不能跟MIS資料相提並論,這兩個的檢核方式也是完全不同的,甚至一個統計報表跟一個raw data這兩個評鑑完全意義不同,統計報表他只能做數字的呈現,但是raw data它本身重點是裡面資料的正確性

簡處長宏偉:

針對不同領域要有不同的品質評鑑?但這樣是不是像交通部要有資料品質評鑑指標,環保署也定出他的品質評鑑指標,但這還保署根交通氣象局的資料有重複

謝委員宏利

應該不用定到那麼細,我們原則上區分空間屬性資料跟MIS屬性資料,不會因業務單位去區分,原則上只區分兩大類,我們現在的做法是依照這兩塊去做區隔,兩個的評鑑跟計分方式也是完全不同的。

 

張維志:

那地籍登記資料是屬於空間資料還是MIS資料?

 

謝委員宏利:

那這就是它的衍生物,我們大概評鑑就是希望,一般提供地址就是給開發者和民間去做另外應用,就是你可能要另外把他轉成X-Y座標,就把他的經緯度跑出來,那我們把這個MIS的資料轉出一個經緯度的X-Y的值出來後,我們只是把這個資料去做加分,這不是標準,那只是鼓勵、方便使用者去做,所以這件事其實和評鑑是脫鉤的,只是方便使用者利用這樣的服務,那這其實不是標準,只是把標準轉成X-Y。

 

張維志:

但是有一個問題是,我們都會Google去轉地址沒有錯,可是很多地址其實是Google轉不出來的,那很多也是TGOS轉不出來,那是不是要拉回來說地址裡面也該有自己的標準。

謝委員宏利:

所以目前我們自己內政部的做法是我們透過檢核,只要透過檢核篩選出來,比如說一千筆資料哪一筆篩選出來是沒有辦法轉的,我們就Show出來,再請業務單位再去重新檢核,去提昇他的品質,所以我反而這個評鑑的機制,是不是應該有一個model或是平台,是給大家都可以用,去提升特別的項目,譬如今天開放資料平臺有85%的資料都是csv,那是不是要從這邊下手,快速的處理,大家使用的介接資料又很方便,應該挑一個大宗跟主流的,去做這樣push的動作,而不是把所有的effort去切成五分之一,應該是要集中火力,集中在一個最需要用的共同格式、跟檔案資源。

 

莊委員庭瑞:

我這邊想要補充一下,剛剛有提到門牌地址,我覺得這是一個很好的例子,就是說我可能比較關心的不是這個門牌位置要先轉成座標位置,而是說這個單位所提供的門牌地址是不是有一個標準表達方式,也就是他是不是它一定要有區號碼,有的話區號碼寫在哪裡,行政區是不是東區、南港區,這需不需要寫,是不是通通都要寫,然後街道名稱、巷道的數字是國字的數字還是阿拉伯數字,全型半型等等,這個它有一個標準的表達式,然後每一個地址都會通過這個表達式的檢核,所以對於處理資料的人,他就可以相信這個資料不用再清理,因為他已經透過這個表達式做檢核,那這個表達式這個副程式可以叫用,所以我這個地址,即使不做空間位置的對照,我也很好處理,很容易找出郵遞區號115的,或是門牌號碼13號的是比較不好的之類的。就是說如果可以做這種資料標準化的限制的話,那就便利很多,如果內政部有制定這樣的標準表達式,然後各個單位都用,那資料就可以互通。

 

謝委員宏利: 

我大概補充一下,其實我們有制定這個標準,也有頒布下去,但是取決於現有的系統要修正,必需要花很多的經費,因為那個資料庫比如說地址好了,有的用全形的鄰里,有的用半型的鄰里,這樣再電腦的應用上,差異是非常大的,只能期許以後的新系統能夠建成這樣。

 

莊委員庭瑞:

這我瞭解,如果是我發佈這個資料轉換的時候,你依照這個表達式去把它轉換出來,就是一個converter的功能,那他轉成CSV,大家的CSV格式都是一樣,我說的是這種轉換的功能。

 

謝委員宏利:

沒錯

簡處長宏偉:

現在是說現在談資料品質必須有一個資料的標準化,現在資料的標準化是有標準但是沒有哪些機關可以有硬性的說你一定要按照標準,所以這造成資料的不一致,那相對來說,品質這邊,同樣的資料,可能因為他的格式不同,或是表達方式不同,其實他是沒辦法互通。現在回過頭來看品質這一件事,你做了這些檢核以後,我們如果拿先前看到的資料,像教育部,它的資料是國中國小分開來發布的時候,他的資料品質也許都符合,但這個資料是不是有用,我們就會希望用評鑑引導機關把有用的資料發佈出來,要不然如果說,我們的評鑑沒有辦法引導這個方向,到最後機關的資料都會符合你的評鑑,可是可不可以用、或是好不好用,沒辦法創造價值,所以我就很想知道資料品質評鑑裡面,有沒有辦法去引導創造有價值這一塊來談。

 

高委員嘉良:

我覺得這蠻難的,但可能有一些撇步,就是說如果我們把資料的owner單位,down到它是一個處、一個比較小的真的業務單位,那這個業務資料是不是你這個單位的核心資料,譬如說維護列表的單位,教育部這個單位,比如說是高教司的這個單位,這個是它最主要的業務,但他總會有另一個單位,有整理所有學校的成績,那這個是它的主要核心業務,那我們有沒有辦法去列出所有單位到底在幹嘛,它手上最重要的資料到底是什麼。

從評鑑裡面大概只蠻難的,大概只能自評這個是不是我業務單位最重要的資料,或是第幾重要的資料。

 

簡處長宏偉:

因為其實對品質評鑑,我可以理解從政府機關的角度它是可以被自動檢核的,但是我換個方面講,只要有這個東西是可以被自動執行的,其實你找不出它邏輯上的錯誤,你只能找出它的不一致,可是你沒辦法找出來,它這個資料像是之前有一些機關試做LOD,因為它是為了LOD而LOD,所以他聯結到最後會把原住民聯結成漢人,那其實這是邏輯上的錯誤,但是以機器來看的話,這個是對的,它的屬性是對的。所以才會覺得資料品質評鑑不容易做是在這裡,如果你都要求要自動化,其實你找不出它邏輯上的錯誤。

 

高委員嘉良:

我們剛剛都focus在資料的標準化,然後使用上是不是便利,那這個比較質化的它到底是不是一個好的、可以創造價值的,因為創造價值這件事很弔詭,因為你已經發現它會創造價值,早就有人創造價值,所以我覺得我的想法是比較反過來,去看這個資料是不是這個機關最重要的資料。

簡處長宏偉:

我們會做這個原因之一,就是我們一直遇到人家的挑戰說,為什麼政府機關沒有釋放出有用的資料,可是當你要定義有用的時候,每個人都不一樣。

  

莊委員庭瑞:

方式是說各個機關所發布的開放資料,是不是彼此機關也有使用,就是說我就是自己的消費者,比如說我內政部是不是有用環保署的開放資料,或是說衛福部是不是有用教育部的,那如果說我教育部發佈的國中小的地址資料連衛福部它都不用,他寧願自己維護一套,那就知道教育部發佈的資料沒有很高,因為自己都不用。

 

高委員嘉良:

莊老師的意思是data citation ,以Citation 當作評斷的標準,就是你這個資料有被refer 那到時候它的分數就會很高,那就回到你如果是維護一個官方列表,這一定最會被refer到,你很多其他的資料,不管是檢核還是什麼都會用到這個東西。或許可以從這方面去下手,以citation 和 cross reference的部分。

莊委員庭瑞:

有這樣的一個想法,但真正的評鑑指標要怎樣去評比,這是另外一回事,如果各機關間不用其他機關發佈的資料,那這個開放資料不大能用,因為連自己人都不用。

簡處長宏偉:

對,譬如說對機關來講這個資料集有十個欄位,可是對機關來講,它需要的是第十一、十二個欄位,可是這兩個欄位是沒有辦法開放,以這個為例你就很難去講Citation,因為我們前陣子去做資料比對,這個資料是比對到個人,所以這個資料是不能夠開放,可是因為跨機關,整個政府內部在做施做的時候,它是非常重要的。

高委員嘉良:

可是如果我們以開放資料來講的話,這本來就會被排除掉。

簡處長宏偉:

回到剛才老師說的,它就會變成這些open 的 data被政府機關引用是低的,那如果用這個當成指標,會不會造成誤解。

莊委員庭瑞:

前面第一到第十這個欄位是一致的,而且來源是相同的,就是我A機關準備一個十一、十二欄位,這兩個欄位是敏感性的,提供給B機關的同時,我也把A機關一到十的欄位放進來,然後B機關會說A機關我們拿到的,而且我們拿到的那一份就是發佈在網站上那一份,只是另外兩個隱藏。

簡處長宏偉:

變成B機關替A機關背書,可是這個就不會是機器可操作,它就變成人工的。

徐高級分析師嘉臨:

補充一下好了,其實機關跟機關間要資料它不會從open data,內部其實有個資料交換平台,而且它是依照這個法規依據去要資料,因為它 Open 出來的就是 Public的所以機關倒不會特別去從open data 去找資料,這大概是比較大的問題

莊委員庭瑞: 

如果同一個機關它提供給其他機關的資料,跟它Open 出來的資料,這兩個資料準備的流程是不一樣的,那我們就會說這兩個資料準備流程不一樣,這整理的流程是不一樣,所以是不是讓這兩個整理流程在前端怎樣讓它可以合在一起,只是說我提供給B機關的這個品質很好的,給公眾的就是有一部分是隱藏的,然後我就確定說這樣的品質比較一致,只是實務上要怎麼用我不曉得,不曉得這個程序是怎樣?

張維志:

品質很難定義到實際的實用性,因為這是機關的專屬業務,可是業務會表現在什麼層次上,會表現在他們的網站上面,只要是它們業務講到的事情,它就要放在網站上面,這是機關運作的方式,剛剛講到其實處下面還有組,小組那個組長才是第一線會處理每個業務,上次去能源局它下面有四個組,我才知道它每個組會負責一個項目,那這個東西在每個政府的網站上都有相對應的頁面,因為每個部會都有自己的公布欄的地方,所以你會發現所有的業務其實都已經在網站上面了,那我們再說資料的實用性,我必須要說一件事情,現在資料沒人用就是因為它就是沒有創造力,就這麼簡單阿,並不是資料不好用,而是說沒人知道這個資料該拿來做什麼問題、要怎麼用,基本上就是會用資料的就是那些人,去問廠商它們要用的資料都是本來要花費,他們希望你直接開放出來,這樣他們就可以直接拿過來用,或是說其他廠商的標案子的計劃做的資料,我要不到,所以它做下一個標案時有所謂的優勢在裡面,廠商希望現在把它開放出來,你可以發現這是從商業競爭的角度來看開放資料,跟我們再想的不大一樣,我想講的是像是地址是內政部有一套,郵局也由一套,那這裡面,我們是不是該問,希望哪哪一塊走,所有的品質是不是該問我希望每一塊都往哪邊走,我的所有不管是住址也好,像Ronny講的,你從人口的index list中出來,我們試著在每個領域找出一個list,把它變為標準,把它放進來,因為我們希望資料可以跨機關流通,可是我該有個標準告訴他們,你們要做新系統的時候,整個評鑑應該回過頭來解決這個問題,回到資料的單位那一塊,你的東西是csv可以呀,CSV第一個欄位給我title不如給我schema的單獨檔案,就是code book概念,有允許的值的時候就可以檢驗裡面的品質,我們希望的是所有產出這個資料的單位,都能自動化的產出這個東西出來,除了標頭下面的欄位內容。你可以看到很多電話是9XXX..的,因為前面那個零被當成是數字去掉了,那這些都是因為裡面的內容沒有被視為文字。

簡處長宏偉:

像是交通票證它們也有自己欄位的標準,所以你講的是,針對每一個特定領域,像是GIS可能只有一個標準,地址可能只有一個標準,只要你符合這個標準,原則上它的資料這會是一致性的,所以譬如以這一頁為例,在C1裡面所謂符合標準規範,就應該是符合特定領域資料的標準規範,而不是只有在資料集詮釋。

 

張維志: 

對,因為詮釋資料真的是太侷限了。

 莊委員庭瑞:

但這邊是有一個更上層的問題,台灣政府機關中間對於特定型態值的標準規範,是不是有一個權責單位,可以做修訂。

謝委員宏利:

之前國發會有要求要把編碼的部分都開放出來,其實這有一個很大的問題,像是內政用的戶籍資料跟主計總處開發的又是不一樣的,我們內政部的戶政跟地政又是不一樣,完全是不同,所以說這整個要用一個標準,真的是很難。

簡處長宏偉: 

我的想法是這樣,戶政跟地政這事情你們自己協調,現在是我們自己內部有一個計劃要做,是說我們要定出標準的標準規範,然後要求各部會依照你的領域,去follow 這個規範定出你們的標準,比如說我們現在性別的標準誰來訂,以內政部來說應該是性平處來訂,性平處來定義男女是0、1嘛,之後還有原住民男、原住民女...,這對我就是一個問題,當你是男的時候跟原住民男你要填哪一個,其實這個標準有點怪,所以我們打算定出標準的標準規範,譬如說以名字來講,要有姓、要有名、欄位大概長度多少,以出生年月日來講,應該是三碼年、兩碼月、兩碼日,還是四碼年、兩碼月、兩碼日,坦白說現在的確還是沒有一個標準,所以我們想去定出一個標準規範出來,接下來我們想要求各部會,像是內政部你應該就內政的業務去定出一個標準,然後各機關只要用到你們的部分,就要用這個標準,那這個地方會涉及舊的資料要怎麼辦,其實我認為就的資料你不要去改它,前面有一個gateway去做轉換就好,這個技術不難,我覺得如果這個標準有的話,其實標準的符合性就相對容易處理,以現在來說,我們覺得資料不一致,其實是資料沒有標準,大家各自定義,所以像Ronny來講,你要處理資料就會很麻煩,因為大家都不一樣的講法,但問題還是沒有解決,我資料品質評鑑這件事情。

王委員向榮: 

我想問一下大家有沒有看過社會經濟資料庫的詮釋資料,我覺得那個是做的最好的。

張維志: 

事實上你是可以告訴我你是用什麼標準的,我就用這套標準來檢驗你,所以說地址的話,如果你告訴我你是用地政系統,我就用地政系統來檢驗你。這就不用去改以前的東西,可是會要求部會去檢討一下,要部會自己去看一下是用哪一套標準。

王委員向榮:

社會經濟資料庫裡面的資料就是這樣,它每個欄位都會有這種標準欄位,它英文欄位是什麼、中文欄位是什麼,它是文字還是數字,數字的單位是人還是格式長什麼樣子,它的備註是什麼,它都寫得清清楚楚的。

張維志:

這就是我所謂的code book,code book要把這個東西寫在裡面,我就可以檢驗資料的內容品質到什麼樣的程度,我可以用自動化來處理這個東西。

謝委員宏利:

但是你知道這個資料要上傳上去要花多少的檢核嗎?光這個平台自己就要檢核很多次,才有辦法產出這樣的品質,這個社會經濟資料庫為什麼敢這樣做,是因為它是統計資料,它的爭議度不大,而且都已經經過很多次的驗證了。

高委員嘉良:

具體來說,詮釋資料包含欄位詮釋,大概摘要剛剛講的重點,詮釋資料大概就是你不用整個資料集是完全符合某個標準,但是你可以說它的欄位型別,譬如說你可以說日期是他西元年,西元年ISO 8600,比較詳細的就比較高分,比較模糊就低分,重點就是說你還是要有一個方式去給欄位的meta data,meta data越細又是可重用的標準化的標準,而不是說自己定的東西,等於是他去描述它採用的標準,才不用改來改去。

 

簡處長宏偉:

等於說對於一個資料釋放出來的時候,它同時在它的meta data的時候就每一個欄位它符合哪一個標準。

 

高委員嘉良:

現在蠻多在做資料標準的,它會捨棄直接建立一套所有的標準,假設是學校好了,就不是學校就要有一個學校的標準,譬如說有沒有洗手間、有沒有能力分班,不一定每個地方都有,我的意思是說,現在大家的傾向,比較不會是針對全世界的學校建立一個標準,而是說你自己要維護一個學校,你裡面每一個欄位,它使用的標準是什麼,地址的標準是什麼,等於是自己去定義自己的meta data,而不是找一個通用的標準。

莊委員庭瑞: 

我覺得國發會這邊可以做比較上位的,就是說這些欄位型態值的建議、跟編碼方式,比如說性別、地址、行政區,這是你們的code book ,你們就掛在這邊,建議採用這個就是品質好。

 

謝委員宏利:

其實我非常希望是國發會定,我們曾經想做這件事,但實務面就是我們業務單位把資料給你資訊單位,你資訊單位就是要把男就是1、女就是 2 轉出來,就是它會把流程推給資訊單位,這時候所有的負擔都會在資訊單位,狀況就是業務單位不願意改,改一個兩個OK阿,但改幾千個就不大可能。所以我一開始是想要有一個model、要有一個平台,給這些共用的格式去做一致的轉換,這樣轉換出來就有一定的水準。

 

 

謝委員宏利:

因為我們大概跟社群這邊交手,它們的好用跟易用,就是你把資料做到符合它想要的,我覺得好用、易用的定位比較是在使用者的心態,但這在政府的角度是對立的,因為我們在推動的是國家標準,但他們想要的是最易用的業界標準,就會有一個兩難的做法。

 

簡處長宏偉:

我的看法是這樣,我對標準的次序是,有國家標準、國際標準、業界標準如果說我們這個資料集出來的時候,同時也有這個資料集他採用的標準是什麼,政府當然還是採用他自己的標準。

 

高委員嘉良:

我想這個project有沒有鎖定幾個現有的資料集來看怎麼樣是好的meta data,怎麼樣它的內容是比較好的,是不是有提供幾個使用案例,做 sample data展示我們用什麼方式去評鑑他,這樣比較容易有回饋也比較明確。

莊委員庭瑞: 

我想建議的是欄位型態的限制描述,它有沒有一個大家可以用的查核程式,就是有時候你文字會講很多,但是你要透過一個查核程式比較能確切檢核。

高委員嘉良:

就是你的type用現有的標準,你不用把你的data set符合一個標準,但是你要說明你要你的標準是採用哪一種。

 

簡處長宏偉:

所以我們真正想要做的是資料標準的標準規範,資料的標準其實是各主管機關要去定的,比如說跟戶政相關、跟地政相關,可是地政裡面跟戶政相關的欄位,就應該採取戶政標準。

 

[API]

謝委員宏利:

對不起,是否有針對上述這六個機關先去做查訪根瞭解,我覺得要去瞭解,現在這六個單位一定有他們各自的現況跟問題,是不是有什麼建議,我覺得這個沒有匯整出來,提在這個會上來討論意義不大,要有實際狀況我才能進入實際的下一步討論。

黃副總經理雅慧:

委員報告一下,其實我們有想到,的確是應該做機關的訪談,因為我們12月在做這份報告時,只有一個機關接上這個API,那其他5個這是這一兩個月才陸續接上。

 

簡處長宏偉:

那是不是先去訪談一下這六個部會,設計一下問卷,讓問題不要太發散,之後再來討論。

謝委員宏利:

跟團隊建議一下,目前這份資料沒有說明資料介接再拋轉怎樣的資料型態,到底你meta data哪個資料要被介接出來、要被更新的,你們應該都不知道,希望這個資料能夠再完備一點。

高委員嘉良:

我順便問一個問題,現在這個譬如說是內政部的catalog 會publish到國發會的嘛,然後它不用到各個地方去找,可是它上面會談到這個data set 是在哪裡有標示說這個資料是從內政部來的,內政部會一直更新它。

鄭分析師立源:

這邊我來說明一下,國發會目前跟其他部會介接的時候,我們是希望自己成為一個超級入口網,所有政府機關的開放資料都接到我們這,所以每一個data set上面都會有一個它的OID,原本資料來源的OID,那他介接過來的時候,我們會根據它介接的來源去,檢驗它所提供的資料機關是否正確,就可以這筆資料資源來自哪裡,那資料資源的連結其實都會是原機關提供的連結,然後目前介接的狀況蠻多的。

 

謝委員宏利:

建議這個研究從兩個方向來做,第一個是公布門內部自己的介接應該要怎麼做,第二個是社群或者是業界,他們想要拉政府入口網的資料的時候,應該需要怎樣的標準或是有怎樣的機制,有沒有把更新日期去做同步

 

高委員嘉良:

建議如果是外界Read的部分,就不需要API KEY 就可以介接。

裡面那個資料更更新的時候,大部分的標準就是說你的response header last modifier是不是要去更新他的header,你沒有辦法去判斷他有沒有更新,可能他的header都是最新的,可是他其實內容沒有更新。

 

莊委員庭瑞:

他的檔案如果是一個目錄資料的話,他應該有版本號,是不是可以在後設目錄資料可以看。

 

 

[網站資料結構化]

 

廖柏雅:

跟大家報告一下,網站資料結構化的部分,其實我們之前已經有統整了有關於國發會公布的政府網站版型及內容管理規範的部分,我們有去做出一個通用性的內容,裡面有一些共通項目,像是新聞文章、機關聯絡資訊、相關連結、常見問答、活動訊息、人物介紹、資料下載、民意信箱、相關影音,會做這個個分類是因為schema.org已經有針對這幾項,有規定它的標籤屬性,所以我們會以這幾個共同欄位去做發展,那抓出來的共通屬性會希望在tag的部分可以加註標示,有相對應的參照標準。

簡處長宏偉: 

所以你們建議是說,要在現在的詮釋規範裡去增訂這一些。這樣我瞭解了。

高委員嘉良:

我覺的是這樣,剛剛那個新聞是一個,我覺得更重要的是說,你發現他是共有都有這些東西,但每個網址都不一樣、每個連結說明都不一樣,今天在講網站的schema 或是 data 的話,這些東西應該標注出來,尤其是國發會本來就要求它應該揭露的東西,那每一個單位會有一個不同的方式去呈現它們,那每一頁可能都不一樣,有的連結到它自己法規的資料庫,有的連結到它自己一個很醜的網頁,但這些link可能要有一個vocabulary要去link它,就是現在已經規範你要有的東西,現在就是有一頁應揭露事項,但每一個其實你要給它一個名字,可以發現這個單位到底有沒有這些頁面,就是link 的 標注。

王委員向榮:

大部分的政府網站都有網站地圖,所以那些網站地圖裡面每一個連結出去要在加上這個連結出去是什麼,是連到哪一個頁面。

 

張維志:

就是說不要再繞一層才把開放資料做出來,就是你把資料上傳到網站的時候,你已經開始在做結構化,開始做所謂的分類,到時候你要找開放資料就是很簡單的事情,現在比較像你業務單位需要我有一個報告把東西抽出來,在把開放資料丟上來,在去這個平台填寫,所以我們希望拉到更源頭的地方,你已經要處理這一塊東西,讓他更有效率的處理。給人看以外,插入一些micro data也可以讓機器看的懂,就可以自動化看的懂。

莊委員庭瑞:

這些註解是說它本來在查詢的時候,可以讓搜尋引擎聰明一點,它用意不是要做一個資料集,是要它可以在搜尋的時候知道語意上的關聯。

張維志: 

像Google嘛,依照你網頁裡面的結構化程度,跟你的插入的micro data跟schema.org裡面的東西相對應,如果對的起來的話,它的搜尋結果就會顯示說作者是誰、下面的內容在講什麼東西,它都可以很容易的把裡面的東西定義的更清楚,像這種東西就是機器在自動爬的地方,對我來說,這比較像是Tim-Berners Lee講的下一代的網站,我想像是這應該是下一代政府網站長的樣子,那現在W3C講Data on the web也是這講這個東西。

高委員嘉良:

他現在講的是比較這個方式的開端,應用可能有限,但應該是個蠻好的開始,看一下國發會的網站,我剛剛講的是現在好像有十幾個每個網站都應該主動揭露政府資訊,這個是法定要揭露的部分,我的意思是說每個部會都會有這樣的頁面,但是他會在你無法預期的地方,不一定找的到,所以是說這個頁面本身跟他link的每一個東西,你在這個link annotate 說這個欄位的預決算網址就在這邊,所以基本上現在沒有一個annotation去找預算,沒有描述這個link,這裡沒有semantics,所以基本上現在沒有一個annotation去找預算,沒有描述這個link,這裡沒有semantics,所以如果這邊有一個semantics去講他的name space是政府資訊公開法裡面的應揭露事項的話,那這邊的話就可以discover出來,第二個方式是在上面那些meta裡面那邊包含這個部會的預算在哪裡,還有這個部會所有應揭露的網頁在哪裡,那是在這個很複雜的網址嗎?有這個事情你就可以瞬間找所有部會的預算的那一頁,可以瞬間找所有部會的法規那一頁,不用每一個去找它在哪裡這樣子。

徐高級分析師嘉臨:

我們其實有訂網站板型規範,我印象中我們有規定你依據政府資訊公開法,你應該要有一個項目,第一個是它有沒有要求我們要公開成國發會那個文字,目前現在是沒有對不對。

謝委員宏利:

說穿了它就是網站地圖啦,其實就是呈現的形態不同。

徐高級分析師嘉臨:

其實現在各部會呈現的,它呈現的是資訊公開法裡面要求的項目是不一樣的,應該說都有呈現可是不見得是有一個完整的頁面去做呈現,應該是這樣。

張維志:

剛剛一直用網站地圖的概念來講,其實不是網站地圖,其實是網站路標,路標的概念比較像,我到這裡面的話我看路標我可以找到什麼樣的東西,地圖是完整的架構的描述,那其實是不大一樣的概念,我們希望的是下面有預算相關連結,可是它可能長的不大一樣,我就是用路標的概念,一個TAG的概念,去告訴他這個東西就叫做預算,我們要做的事情就是這樣。

徐高級分析師嘉臨:

我請問一下,現在這個Title叫做本會預算,這樣子爬不可以知道嗎?

張維志:

大家的寫法不一樣

徐高級分析師嘉臨: 

所以那是另外的議題嗎,因為我想Tag其實都有,只是說naming是一致的,就回到剛剛那個議題,我怎樣要求各地方你的naming是要一致的。

張維志:

如果我放micro data進去的時候,我就做那麼多複雜的parsing

徐高級分析師嘉臨:

所以你是說你要針對政府資訊公開法那幾個,比如說新聞稿、訊息、預算等等在前面有一個Tag,讓爬這個網站的時候一次就可以到位的意思嗎?

張維志:

我就可以知道哪些東西在哪裡。

莊委員庭瑞:

這邊就牽扯到,整個網站是Dublin Core那這些標簽語彙就是常用的啦,那你現在要行政機關揭露的資訊,有沒有一個通用的micro data標註語彙。

張維志:

所以我說從政府資訊公開法裡面來談,因為這個每個網站都有的東西,只是因為每家廠商依照自己的想像寫法不同,可是我們都知道他們都是在講一樣的事情。

莊委員庭瑞:

那這邊有沒有一個共用的語彙。

徐高級分析師嘉臨:

第一這是一個問題,第二要解決這個問題其實有其他的做法,我舉個例子來說,你能不能要求每個網站在menu的部分就有一個主動公開專區,就把所有依據政府資訊公開法把它列出來,這也是一個解決方式,也可以很direct去找到資訊。

張維志:

其實有更簡單的方式,google會幫大家做sitemap,那為什麼我要推這種東西,因為google 在用。

徐高級分析師嘉臨:

對,我的意思是說,我們過去本來就有meta data,google本來就會去讀我們的meta data,因為這件事情很早就開始做了。

張維志:

可是我剛剛不是講了嗎,你十九項裡面其實沒有講到下面每一個欄位、每一個連結在講什麼事情,那一個新聞稿裡面,你上面十九項能夠告訴我說發稿人、發稿單位、發稿時間嗎?其實都沒有在裡面。

徐高級分析師嘉臨:

幫我點一下新聞稿,看一下我們新聞稿的原始碼。所以你覺得這欄位裡面,有哪些是不夠,比如說他的title?

張維志:

我能不能定出大家都有的東西,我能不能把它定出來,讓它更好用,我也說新竹市已經把這邊變成開放資料、桃園市也是,但它們是玩自己的格式。

徐高級分析師嘉臨:

那我覺得這要呈現什麼資料的格式,會不會因為每個資料的類型會不一樣。

張維志:

所以我用新聞稿來當作範例,美國政府網站上它分為兩類而已,一個是文章、一個是活動,它的meta data 你在裡面只填寫你要填的東西,不是每個都要填寫。

徐高級分析師嘉臨:

沒錯,你看我們這個也不是每個都要填寫。

張維志:

我的意思是說,我要讓它更好用的時候,我要讓它結構化,結構化的意思是讓它重點攔位挑出來,把重點攔位挑出來的時後,我有一個叫做國際標準,把它變成結構化的內容。

徐高級分析師嘉臨:

我覺得是這樣的,從剛剛看到很多額外建議的欄位,以機關的角度,來看這種規範的施行,每一個欄位是大家共同需要的,是從誰的角度來看這樣的事情,那這就是一個問題。

張維志:

Schema.org, 這就是國際標準。

徐高級分析師嘉臨:

那比如說像新聞稿的話它有針對這個去定義嗎?

張維志:

有,Schema.org。像你們用Dublin Core不會是國發會自己選的吧,所以是一樣意思。

簡處長宏偉: 

今天這個專家學者會議不會是一次而已,因為我是覺得我們有盲點,團隊也有盲點,我希望大家能夠一起幫忙。

高委員嘉良:

接下來會有公開徵詢Feedback的機制嗎?大概會在什麼時候

簡處長宏偉: 

這件事情我是不是就請立源處理,循你放在hackpad的方式我覺得是ok的,那個機制你來設計。

張維志:

我們其實是希望辦一個實體的社群、或是有心人都好,希望大家都能進來發表意見。