[20121121 update]
1. 剛剛發現之前爬的資料沒有存到座標,所以我剛剛把程式改了一下並且更新 realprice20121117.zip 了,不過我發現他座標的算法好像改了,所以之前的一萬七千筆我有保留座標在 old_pos 變數上..先來研究看看新舊座標是差在哪裡...
=========分隔線=========
呼,終於把九月的實價登錄資料爬完了,資料數量從 17,826 筆增加到了 41,078 筆
內政部把總價和門牌改成圖片這件事本來真的有點讓我想放棄爬資料的,因為改圖片這件事讓我原來的爬資料程式邏輯整個無用
還好我後來在洗澡時想到解決方式,這次總算還是把資料跑出來了
廢話不多說了
Dropbox 位置: https://www.dropbox.com/s/q11dzzhmo3oc5md/realprice20121117.zip
Google Drive 位置: https://docs.google.com/file/d/0B_CxAZD9rYXMNm1PeWtGakl2TlE/edit
不過因為內政部這次把地址和總價改成圖片,因此將圖片還原回文字這件事讓我花了不少功夫
總價部份我應該是全部還原了,但是 41,078 筆中有 4,767 筆資料是我沒有 100% 確定數字是正確的
因為這 4,767 筆是用 OCR 加上我一筆一筆檢查確認的,不敢保證是否有疏漏(我也檢查了快一小時)
不過應該也有 95% 以上的準確度吧
這 4,767 筆靠 OCR 加人工檢查的資料放在 http://ronnywang-public.s3.amazonaws.com/opendata/realprice/20121117/guess.html
如果有人有更好的 OCR 工具或是有閒的話也可以再幫我驗算一次,如果有錯我就馬上修正資料囉
在輸出的 json 中,如果是我無法確定數字正確的部份,我在 fields 那個欄位有增加一個 "交易總價原始圖檔" 資料
這一欄的資料會長成 "A2CB10110020011-01.png" 這個樣子
只要到 http://ronnywang-public.s3-website-ap-northeast-1.amazonaws.com/opendata/realprice/20121117/totalprice/A2CB10110020011-01.png 就可以看到原始圖片
所以如果要做服務的人也可以把這圖片加進去讓 user 可以看到來自實價登錄網站上總價圖片
同樣地址的圖片我也有放在 http://ronnywang-public.s3-website-ap-northeast-1.amazonaws.com/opendata/realprice/20121117/address/[caseNo]-[caseSeq].png
而原始圖片 41,078 筆資料的打包檔我也放在 Dropbox 和 Google Drive 了
地址原始圖片 Dropbox 22.37M: https://www.dropbox.com/s/4p9ol2xjib6v9zk/images-address-20121117.zip
總價原始圖片 Dropbox 14.2M: https://www.dropbox.com/s/bajbhbsan4vvol7/images-totalprice-20121117.zip
而門牌的部份有 16,393 筆資料我無法抓出文字的(因為我沒有中文 OCR 工具),不過因為已經有座標資訊了,大部份的應用這些資訊應該都足夠了
最後再來碎碎念一下
如果這次內政部網站不惡搞把總價改成圖片,其實我的爬資料程式是可以程式跑下去就等他跑完,新的匯出檔就產生好了
這樣之後我的人工部份幾乎就是打個指令按下 enter ,剩下就是上微網誌發文請大家下載了
但是內政部這次這樣一搞我為了解決圖片問題昨天大概花了四個小時再那邊檢查
很多人會認為爬資料的人本來就是一種惡意行為,政府讓我們這些人難做是正確的
但是我想聲明幾點,有看我程式的人應該會知道,我爬資料的過程,每一個連線之間都會 sleep 0.5 ~ 1 秒,只是為了讓爬資料的過程所造成的 loading 不要超過人類的操作
另外我把資料爬出來之後,其他人就可以直接拿我的資料,不需要再去爬一次,這樣子也可以減少很多人也去爬資料
如果政府今天能自己放出一個打包檔,鬼才會想去寫程式爬資料
這些資訊既然政府決定公開了,就不應該用防賊的方法這樣處理
很多話已經有很多人說過了,我也不多說了
Code for Tomorrow-奶娘國家的KPI
留言列表