公告版位
我是公告

目前分類:未分類文章 (31)

瀏覽方式: 標題列表 簡短摘要

我這幾年比較常在做資料處理分析,但是我用的工具不是 R 也不是 Python ,我主要用的是 PHP 
主要也是因為寫了好幾年 PHP ,對於 PHP 也比較熟,也知道一些寫法可以讓效能更好
 

在資料處理上,常會有一個需求,就是我有兩份資料,我想要做條件性的 join ,例如 A 資料是各公司所在縣市資料, B 資料是各公司營業資料
假如我想要 B 資料中只有新北市的資料,寫法可能會是:

$fp = fopen('company_county.csv', 'r');
$match_companies = array();
while ($rows = fgetcsv($fp)) {
    list($id, $county) = $rows;
    if ($county == '新北市') {
        $match_companies[] = $id;
    }
}
fclose($fp);

$fp = fopen('company_data.csv', 'r');
while ($rows = fgetcsv($fp)) {
    list($id, $data) = $rows;
    if (!in_array($id, $match_companies)) {
        continue;
    }
    // 這邊處理只有新北市的公司
}
 

但是上面的寫法,如果公司數量很多的話,速度可能會很慢,原因是因為 in_array 用的是 binary search ,他要從 $array 找東西的話,array 越大要找越久。
但是這種情況只要稍微改一下寫法,就可以讓速度快超多。

 

$fp = fopen('company_county.csv', 'r');
$match_companies = array();
while ($rows = fgetcsv($fp)) {
    list($id, $county) = $rows;
    if ($county == '新北市') {
        $match_companies[$id] = true;
    }
}
fclose($fp);

$fp = fopen('company_data.csv', 'r');
while ($rows = fgetcsv($fp)) {
    list($id, $data) = $rows;
    if (!array_key_exists($id, $match_companies)) {
        continue;
    }
    // 這邊處理只有新北市的公司
}
 

(有變更的部分改成紅色)

改用 array_key_exists 取代 in_array 的話,速度可能可以快好幾倍,原因是 array_key_exists 是直接檢查 key 是否存在,這是 O(1) 的動作,幾乎可以說是秒殺動作。

所以在使用 in_array() 時,可以多想想,如果後面的 array 很大的話,能不能改成 array_key_exists 的寫法。

[Updated]

  • Jimmy 有提到也可以用 isset() ,在這邊的 case 的確也可以用 isset() 沒問題,可以少打幾個字。但是我自己的習慣是因為 $a[1] = null; isset($a[1]) 會回傳 false 這個行為常常會讓我搞錯,為了避免踩到這個雷,因此我很久沒使用 isset( ) 了,寧可多打幾個字用 array_key_exists( ) 來減少 isset 踩到雷的機會。

[update


榮尼王 發表在 痞客邦 留言(0) 人氣()

最近因為被告的關係,想知道自己的案件什麼時候偵結,到底是會被起訴還是不起訴,因此我每天都會上台北地檢署的偵察終結公告看看我的案子。我的案子是在 2014/10/31 在地檢署開完偵察庭,到現在檢察官還沒偵結,真是超久的說...
不過也因為每天都去翻公告的關係,我注意到了一些有趣的事情。

首先在 2014/12/10 的偵結公告中,出現了一筆 「年股103年偵字19480」的案件,案由是妨害名譽
20141219-1

這個案子特別吸引到我目光,因為我的案子也是妨害名譽,而且告我的人也叫葉○傳 XD ,然後看到簡○峰這名字就覺得很眼熟,果然,下午就有新聞出來了 搜尋姓名跳出「黑道」市議員葉林傳怒告Google ,我猜的完全沒錯(不過照理說葉林傳應該是同時告我和 Google 吧,為什麼告 Google 的偵結了,告我的還在苦苦等待...)

過了幾天, 2014/12/15 ,我在偵結公告中又看到幾筆特別的記錄
20141219-2
很妙的是被告超級多人,而且好像還有被告同時是原告
結果下午一點就有新聞出現了 (PS: 這個連結我加了 rel="nofollow" ,因為這種外遇新聞實在是不想增加他的 ranking)
看到這個新聞我就好奇了,為什麼記者可以得到這麼詳細的案情資料? 是當事人賣給記者的嗎? 還是檢查機關交給記者的?
正常來說在偵結前因為偵察不公開,照理說記者不該拿的到這些東西
而偵結之後,明明公告上也只能查到簡單的案由,而且偵結當天當事人也不會去,連當事人都要等偵結後十幾天才會收到紙本的起訴書或不起訴書才會知道,所以這些新聞也應該不是記者跟當事人買的,到底是哪來的呢?

Google 了一下,找到了一篇 檢察官違反偵查不公開怎麼辦?--《法官法》教戰手冊之偵查不公開篇 裡面有提到


二、媒體何時可看見起訴書部分,實務上案件對外公告時,僅公告被告姓名、案由、偵結之情形,媒體查看公告欄後,會挑選其有興趣之案件,即要求檢方提供新聞資料。由於案件已終結,故檢方得提供新聞資料,本署之作法係由承辦檢察官列印書類原稿並將當事人個人資料作處理後,送交襄閱主任檢察官,經篩選後,蓋上「新聞資料」字樣,即提供予媒體,故媒體係取得新聞資料,非取得書類正本。


這是依據 檢察機關辦理刑事訴訟案件應行注意事項 第 100 條

一百、(偵查不公開)
偵查不公開之,如依法令或為維護公共利益或保護合法權益有必要
,而需公開揭露偵查中因執行職務知悉之事項時,應注意檢察、警
察暨調查機關偵查刑事案件新聞處理注意要點之規定,妥適發布新
聞,以免因違反偵查不公開而受行政或刑事處罰。(刑訴法二四五


(不知道是不是用這個法條,因為這個法條似乎是針對偵查中,而不是偵查後的,不過目前也只查到這個比較像)

另外還有一個 檢察、警察暨調查機關偵查刑事案件新聞處理注意要點 有更詳細的規則可以參考。

所以主要是為了「維護公共利益或保護合法權益」,讓媒體可以即早讓民眾知道案件被偵結並且起訴或是不起訴的原因,其實這樣的規定立意是良好的,像是今天早上偵結的高雄氣爆事件,如果現在不能透過媒體公開的話,就要等到之後進入司法判決有罪或無罪大家才能知道詳情了,這個又要再等半年一年了,假如今天檢查官直接不起訴,那就沒人知道到底事情是怎樣了。

但是當然就遇到一些問題,因為當事人要等地檢署整理成書函並寄出,可能就需要十天左右才會收到,但是媒體第一天就可以拿到,就會發生當事人說「我也是看新聞才知道的」,這是真的,不是當事人在說謊。

而另外的問題就是,讓媒體朋友可以調閱是對了公共利益,但是媒體調閱一些外遇或是婚外情的起訴書對於公共利益有什麼幫助呢? 這只對媒體的收視率換來的商業利益有幫助吧? 但是公共利益是什麼要寫成法條也是不太可能的吧。

我想,也許解法可以是由地檢署每日公布媒體申請新聞資料記錄,像是:
「2014/12/10 蘋x日報記者申請年股103年偵字19480案由妨礙名譽告訴人葉x傳被告簡x峰不起訴書」
如此一來也可以由全民來評論,到底這些媒體是基於公共利益、人民知的權力來申請資料
還是純粹為了收視率弄些無關緊要的案件。

榮尼王 發表在 痞客邦 留言(0) 人氣()

這次也是延續之前兩次畫選舉地圖,我想趁這次一口氣把資料都整理好吧
所以我就把 1994 - 2010 年之間,一共 4 次直轄市長選舉和一共 3 次省轄市長選舉的藍綠地圖畫出來囉
畫縣市地圖的好處是除了少部份縣市(臺東、花蓮、金門、連江)是無半個綠營參選人以外,除此以外都是兩邊各有派人,因此也可以畫的出藍綠版圖出來

下面我就用 GIF 動畫的型式把他列出來吧

1994-2010 年藍綠版圖變化
output_1PMlLC

如果想要看更完整的,可以到
http://github.ronny.tw/ronnywang/50d50v/blob/master/20141027/1994-2010_bluegreen.json 直接操作地圖看看

註1:
count-csv.php 處理將 kiang/db.cec.gov.tw 內的縣市長選舉資料依照年份 ex: 1994.csv, 1997.csv ...
然後再用 merge-year.php 將上面那些 csv 合併成一個1994-2010_bluegreen.csv,就可以畫成地圖了

註2:
有些縣市只有藍軍出馬沒有綠軍的,因此我就直接讓他留白,列出縣市如下:
    2009 縣市長選舉
  • 花蓮縣 傅崐萁(56.37%)無黨籍, 杜麗華(25.44%)中國國民黨, 張志明(18.18%)無黨籍

  • 金門縣 李沃士(37.27%)中國國民黨, 吳成典(30.04%)無黨籍(國民黨轉新黨), 陳水在(29.89%) 無黨籍(地方家族)

  • 連江縣 楊綏生(57.18%)中國國民黨, 劉增應(41.39%)中國國民黨, 陳財能(1.42%)無黨籍


    2005 縣市長選舉
  • 台東縣 吳俊立(59.18%)無, 劉櫂豪(38.23%)無(後加入民進黨), 彭權國(2.59%)無

  • 金門縣 李炷烽(54.28%)新黨, 陳福海(43.59%)無, 陳平(2.13%)無

  • 連江縣 陳雪生(52.90%)親民黨, 楊綏生(44.51%)無, 吳軾子(2.59%)無


    2001 縣市長選舉
  • 連江縣 陳雪生(55.80%)親民黨, 劉立群(44.20%)中國國民黨


    1997 縣市長選舉
  • 金門縣 陳水在(58.61%)中國國民黨, 李炷烽(41.39%)新黨

  • 連江縣 劉立群(61.00%)中國國民黨, 曹原彰(39.00%)新黨


榮尼王 發表在 痞客邦 留言(0) 人氣()

hackpad.com_sU3bohwTXDA_p.52952_1413100545058_Screen Shot 2014-10-12 at 15.48.53

為了響應李慕約發起的 「五十天五十個選舉圖表
我認領了 2014/10/14 以及之後的一共七個日期

台灣一共有 7830 個村里,我這一次想拿村里的資料在地圖上畫畫看,來看看能看出些什麼有趣的東西
第一個畫的是台灣所有村里長的年齡分布,來看看不同縣市不同區域是否有什麼年齡的趨勢?

(關於以下圖片都可以到 http://github.ronny.tw/ronnywang/50d50v/blob/master/20141014/2010-village-age.json 直接在地圖上玩玩看喔)

各村里年齡分布圖


taiwan-age
顏色挑選了比較跳躍的光譜,是希望能夠更清楚呈現不同年齡層

事實證明,這張圖片非常混亂,看不出任何趨勢可言,其實想一想這樣也是正常的,村里長有許多都是地方勢力或是家庭的延續,可能父親是前任村里長或是議員之類的,兒女繼承父業,並且因為父親的人脈而當選,因此村里長應該看不太出來特別的年齡趨勢,順帶一提,我有將幾個最年輕的村里長找了一下看看

新竹市東區下竹里 莊雅婷 1987 年次: 因為以大量遷戶籍但未實際居住方式參選被判選舉無效
高雄市三民區川東里 李宜靜 1985 年次: 父親為前任里長
臺北市內湖區金瑞里 孫碩彥 1985 年次: 無找到相關背景
桃園縣桃園市大豐里 彭俊衡 1985 年次: 無找到相關背景,幹掉了連任的里長
花蓮縣新城鄉大漢村 傅緯豪 1985 年次: 父親是花蓮縣議員
高雄市楠梓區中興里 陳柏村 1983 年次: 無找到相關背景
臺南市大內區內郭里 楊筱琪 1983 年次: 父親為前鄉代
臺北市中山區行仁里 陳義偉 1983 年次: 無找到相關背景

看了八個人,有三個算是繼承勢力,如果看更多不知道比例會是多少
不過七千多個村里也不可能每個都看,因此是想看看如果能找到前幾任村里長資料,是否能夠透過姓氏來找出關聯來
也可以來算算看挑戰者的成功機率有多高

各村里長性別分布圖



配色用的是最單純的藍男紅女
可以看的出來村里長是男多女少,不過城鄉看不出來有什麼明顯的趨勢差距

村里長藍綠分布圖



藍色是國民黨,綠色是民進黨,白色是無政黨(去掉國民兩黨,總共也只有台聯x2, 中華統一促進黨x2, 親民黨x1, 綠黨x1 ,所以我就沒有特別標出其他政黨了)

可以看的出來村里長還是藍大於綠,不過其實無黨籍還是大宗,其實村里長選舉跟政黨關係不大,比較有影響的還是地方家族勢力,對許多村里長來說其實他們完全不需要靠國民兩黨就可以勝選,而國民兩黨派任何人也贏不了他們,因此政黨資訊在村里長層級反而就沒那麼重要了)

像某個告我妨害名譽要選市議員的候選人,他雖然是國民黨提名,但是他的競選海報上完全看不到「國民黨」三個字以及黨徽,這也代表他是地方勢力,沒有國民黨他也能贏的人。

不過可以值得研究的是有很多村里長是以無黨籍選上之後再被政黨邀請加入,這個要是拿兩屆來比對一下也許也可以找到些有趣的地方。

總結


我拿了「年齡」、「性別」、「政黨」三個資訊來做現任村里長地圖,不過看起來這三個資訊都對於村里長選舉沒什麼影響,也許取得了過去的歷任資料來做跨時間的比較會能得到更多,例如說同姓氏連任幾次的村里分布,就可以知道哪些村里是比較有當地家族勢力的。

工具與資料


感謝 kiang 整理的中選會選舉人資料
整理好的資料以及整理程式放在 GitHub ronnywang/50d50v/20141014 上面
github.ronny.tw 上面也可以直接操作上面那些資料喔

榮尼王 發表在 痞客邦 留言(0) 人氣()

以前我總有個疑惑,「農曆」的名稱有個農字,應該是因為農業而生,那為什麼農曆用的是月亮曆法而不是太陽曆法呢?
農業上太陽應該遠比月亮重要多了吧?
太陽的位置影響了四季的變化以及二十四節氣,而這些對農業才是最重要的
(事實上二十四節氣是陽曆的東西而不是農曆的東西)
相對起來月亮好像對漁業影響比較大

後來K了維基百科以及一些 Google 上面的說明,才解決了我的疑惑。
事實上我的疑惑本身就是錯的,農曆並不是只用月亮曆法,而是陰陽合曆,太陽月亮皆使用。
(所以把農曆稱為陰曆其實是很不準確的)

先說一下如果純粹用陽曆會遇到什麼問題
陽曆是靠太陽曆法,能觀測到的包括一年大約 365 個日夜,太陽和天上大部份星星就會跑到同一個位置(其實應該是地球跑到同一個位置)
對北半球來說
一年中會有某一天正午時間影子會是往北最長 (冬至)
一年中會有某一天正午時間影子會是往南最長 (夏至)
春天中會有一天白天跟夜晚長度一模一樣(春分)
秋天中會有一天白天跟夜晚長度一模一樣(秋分)
除此以外,似乎就無法觀測到什麼特徵了
等於是我們只能知道冬至是哪一天、夏至是哪一天,其他天可能就只能用 「今年夏至後72天」來記錄
如果跟別人約時間時說我們約在「今年春分後34天」見面,別人應該會數到瘋吧
而且像「白天跟夜晚長度一模一樣」這種東西,你不觀察一整天怎麼可能會知道..

至於現今所用的公曆的一年 365 天、大月 31 天、小月 30 天、二月 28 或 29 天,四年一閏、百年不閏、四百年又閏
這些是靠規定出來的(1582年教宗格列高利十三世頒行的格列曆),而不是靠自然現象觀察出來的
沒有透過強力的政治力去推行以及工具的輔助(印出日曆、月曆),對於一般人來說是很難使用的

相對起來使用月亮曆法就簡單多了,月亮平均 29.5 天繞地球一圈
只要挑月亮不見和月最圓的一天當做初一和十五,這樣子我看到月球今天的圓缺就大概能知道今天是在一個月中的幾號了
比起冬至到夏至中間會有 180 天以上要記簡單 12 倍! (這樣算好像怪怪的 XD)
所以我可以跟人約「這個月十七號」、「下個月初三」見面,只要透過月亮圓缺大概比較一下就不會搞錯天了

但是如果只用月亮曆法並沒辦法解決跟四季節氣相關的問題
所以農曆又訂出了結合了二十四節氣來決定月份的規則
首先以冬至所在月份一定是十一月(又名冬月)

然後再以二十四節氣中的大寒訂在十二月,雨水訂在一月,春分訂在二月,穀雨訂在三月,小滿訂在四月、夏至訂在五月、大暑訂在六月、處暑訂在七月、秋分訂在八月、霜降訂在九月、小雪訂在十月
如果正好兩個節氣直接隔到兩個月,就插一個閏月在中間,至於插在前一個月還是後一個月,由中氣來決定

上面好像很複雜吧?不過也只要由國內管曆法的人處理
對一般農民只要知道冬至是哪一天來慶團圓一下,隔壁老王說下個月要過年了表示現在是十二月,隔壁老李好像在包粽子表示快到五月初五了,牛郎織女被鵲橋連在一起了表示現在七月了
閏幾月有那麼重要嗎? 好像也沒有那麼重要
閏幾月就交給官府那些欽什麼監的人去煩惱就好了
我只要自己透過月亮就可以知道今天是幾號了

金庸小說俠客行最後面史婆婆約石破天約在三月初八如果不見就投河自盡,等石破天想到時發現已經過了一個月了以為為時已晚,但是不知道有閏二月,結果剛剛好準時到達

白萬劍道:「是啊,今日是初八。」白自在又問一句:「三月初八?」白萬劍點頭道:「是三月初八。」白自在伸手不住搔頭,道:「我們臘月初八到俠客島,在島上耽了一百多天,怎地今日仍是三月初八?」白萬劍道:「你老人家忘了,今年閏二月,有兩個二月。」

此言一出,白自在恍然大悟,抱住了石破天,道:「好小子,你怎麼不早說?哈哈,哈哈!這閏二月,當真是閏得好!」石破天問道:「什麼叫閏二月?為什麼有兩個二月?」白自在笑道:「你管他兩個二月也好,有三個二月也好,只要老婆沒死,便有一百個二月也不相乾!」眾人都放聲大笑。


也許小說中的故事在古代很常發生吧

事實上農曆的閏月也是相當複雜而且甚至各國還會不一同,像是2012年台灣和中國都閏三月,韓國卻是閏四月,造成當年兩邊的端午節差一天。不過這也不是我們需要煩惱的,以現代來說,這個給中央氣象局去煩惱吧!
(交大資工蔡神的計算機概論都會出寫格列曆的萬年曆程式,如果之後出農曆萬年曆程式的話就該要煩惱了 XD)

榮尼王 發表在 痞客邦 留言(1) 人氣()

在 COSCUP 第二天中午因為跟 g0v 的大大們一起吃飯聊天,其中聊到了台灣媒體亂象
之後我就一直思考台灣的媒體有哪些問題,能不能各個擊破一一解決

其中有想到的問題包括
1. 新聞錯誤百出未經查證 (這個問題是客觀的,只要拿證據或是原始來源就可以打臉了)
2. 新聞價值觀偏頗,刻意引導讀者思考方向 (這個就比較難處理了,只能列出其他面向的說法鼓勵大家都看看了)
3. 新聞生命週期太短,往往喧螣一時,結果一個月後就被大家給遺忘,尤其是 Facebook 的出現更助長了這種風氣,很多消息超過12小時可能就消失無蹤了。

這幾個問題都滿需要被解決的,可是要怎麼解決呢?

晚上我突然想到一個方法,馬上在微網誌上面貼了出來

如果弄一個叫「我Lag了」的Facebook專頁,他每天只做一件事,就是分享四大報頭版,但是...他分享的是30天前的,這樣子不知道對於降低大家的新聞遺忘症會不會有幫助...

這時候就在想像如果有個這樣的粉絲專頁會發生什麼事?

大家很常會發現「幹!原來30天前的頭條新聞是這個?我怎麼忘了」「對喔,30天前那麼大的新聞,現在到底怎樣了?後續呢?」
這樣子對公民健忘症是不是一帖良藥?

於是心動不如馬上行動,趕緊在#g0v IRC 問有沒有人知道哪邊有四大報頭條的整理資訊,然後開始寫程式來爬,當晚就先弄出了一個 http://oldpaper.g0v.ronny.tw/ 把整理好的資料列出來,接著就是註冊一個粉絲專頁,原先想的「我Lag了」 感覺名稱不夠直觀,想說那叫LagNews好了,但是還是要有個響亮的中文名字比較好,想到 PTT 上很常故意把你Lag了說成你腿了,那就叫腿新聞吧! 於是粉絲專頁開好,圖片就去 Google Image 搜尋有開放使用授權的圖片並搜尋 Leg 和腿,就挑了一張照片使用,粉絲專頁就開好了!

再來是寫好發送訊息到 Facebook 粉絲專頁的程式,一切就打完收工了!!

LagNews腿新聞  

程式碼我 open source 在 https://github.com/ronnywang/lagnews 給大家參考囉!

希望能透過 LagNews腿新聞,逐步改善公民新聞健忘症,那麼再來剩下的問題就是媒體的客觀錯誤以及立場偏頗了!

這週六(8/10) g0v 第四次國民大會黑客松,我提了「新聞小幫手」的想法,希望能夠解決客觀錯誤的問題!
讓我們更進一步邁向健全的公民社會!

榮尼王 發表在 痞客邦 留言(4) 人氣()

最近開始玩一些 Open Data 的東西,除了爬實價登錄以外,開始想爬一些好玩的東西來看看
這次我爬了台灣經濟部商業司登記的公司資料,找出 46 萬家公司的資料(照商業司的資料目前有六十幾萬家公司,所以我還有十幾萬家公司的資料是沒有找到的,我還要想想看是哪些我沒找到的)
我找出來的資料包括公司的代表人、資本額、營業項目、經理人名單等...

這些都是公開資料,所以我爬這些資料做些統計應該不違法吧

這邊我先公開一下,我這些找出的資料中, 46萬家台灣公司,資本總額前十名的公司是哪十家吧!
我貼的資料會包括該公司的統一編號,有興趣的人可以到 http://gcis.nat.gov.tw/pub/cmpy/cmpyInfoListAction.do 把統一編號輸入進去確認看看資料是否正確。

其實這數字不代表他就是台灣最大的,因為這邊的資本額資料只是單一公司,但是很多公司都是屬於同一個集團,而該集團的老闆都會是同一人,如果以集團來算的話,前十名可能就不是這十家了。另外我列出的董監事主要代表是以董監事名單依照股權列出來的,不代表這就是那個法人所掌控的公司, 所以以下十家僅供大家參考。

第十名  52242444 台灣自來水股份有限公司
資本總額: 1375億元
實收資本額: 1285億元
代表人: 阮剛猛
董監事主要代表: 經濟部

第九名 80333992 中國信託金融控股股份有限公司
資本總額: 1500億元
實收資本額: 1316億元
代表人: 辜濂松
董監事主要代表: 70845988宜高投資股份有限公司, 23360934仲成投資股份有限公司, 53325695長基投資有限公司

第八名 30414175 中國鋼鐵股份有限公司
資本總額: 1700億元
實收資本額: 1531億元
代表人: 鄒若齊
董監事主要代表: 經濟部, 勞工保險基金, 高雄市中國鋼鐵股份有限公司企業工會, 70748331景裕國際股份有限公司, 97159912群裕投資股份有限公司, 97159878高瑞投資股份有限公司, 28292730鴻高投資開發股份有限公司

第七名 89390656 南亞科技股份有限公司
資本總額: 1910億元
實收資本額: 1866億元
代表人: 吳嘉昭
董監事主要代表: 75370905南亞塑膠工業股份有限公司, 14001199福懋興業股份有限公司,20807329培仁股份有限公司

第五名 70827383 中華開發金融控股股份有限公司
資本總額: 2000億元
實收資本額: 1445.6億元
代表人: 陳木在
董監事主要代表: 12650176興文投資股份有限公司, 03557311臺灣銀行股份有限公司, 03705903兆豐國際商業銀行股份有限公司, 22522756國亨化學股份有限公司...

第五名 86517321 萬泰商業銀行股份有限公司
資本總額: 2000億元
實收資本額: 162.3億元
代表人: 盧正昕
董監事主要代表: 荷蘭商 S.A.C.PEI Taiwan Holdings B.V.

第四名 11085292 中華映管股份有限公司
資本總額: 2450億元
實收資本額: 647.9億元
代表人: 林蔚山
董監事主要代表: 11083673中華電子投資股份有限公司, 21222725仁寶電腦工業股份有限公司, 27335280綠能科技股份有限公司

第三名 47217677 聯華電子股份有限公司
資本總額: 2600億元
實收資本額: 1295億元
代表人: 洪嘉聰
董監事主要代表: 70761592迅捷投資股份有限公司, 22099202矽統科技股份有限公司, 財團法人聯華電子科技文教基金會

第二名 22099131 台灣積體電路製造股份有限公司
資本總額: 2705億元
實收資本額: 2592億元
代表人: 張忠謀
董監事主要代表: 行政院國家發展基金管理會

第一名 03795904 台灣電力股份有限公司
資本總額: 4000億元
實收資本額: 3300億元
代表人: 黃重球
董監事主要代表: 經濟部, 03557311臺灣銀行股份有限公司, 03700301臺灣土地銀行股份有限公司

以上就是單純以資本總額排序的前十名公司,以上資料不代表前十大企業,因為一個企業下面可能有很多家不同公司的,另外董監事名單不代表這家公司是掌握在這些董監事手中,可能只是這些法人在董事名單中佔相對比較多股權。我自己對公司組織這方面比較沒那麼多了解,所以純粹以資本總額做排序列出前十名。如果有人對公司組織更了解的,應該能跑出更有意義的排名出來,我這邊應該下週就會丟出我爬出來的 46萬 個公司的公開資料,也希望能有其他更了解公司組織的人能丟出更有意義的統計數據出來了!

PS: 我也希望看這篇文章的人能夠抱持著懷疑的心來看,你可以假設我也許是被某個財團某個政黨買通的情況下寫出了這篇文章,因此裡面可能有偏頗的地方,若是你有懷疑的地方,可以自己試著去查證看看,並且在下面留言的地方留下你的看法。
因為我覺得現在很多台灣人會無條件接受媒體或是部落客給你的資訊,我還是希望大家能有對資料來源有所懷疑的心態來看所有的東西,這樣子大家才比較不容易被媒體輕鬆的牽著走。

榮尼王 發表在 痞客邦 留言(15) 人氣()

[20121121 update]
1. 剛剛發現之前爬的資料沒有存到座標,所以我剛剛把程式改了一下並且更新 realprice20121117.zip 了,不過我發現他座標的算法好像改了,所以之前的一萬七千筆我有保留座標在 old_pos 變數上..先來研究看看新舊座標是差在哪裡...

=========分隔線=========

呼,終於把九月的實價登錄資料爬完了,資料數量從 17,826 筆增加到了 41,078 筆
內政部把總價和門牌改成圖片這件事本來真的有點讓我想放棄爬資料的,因為改圖片這件事讓我原來的爬資料程式邏輯整個無用
還好我後來在洗澡時想到解決方式,這次總算還是把資料跑出來了

廢話不多說了

Dropbox 位置: https://www.dropbox.com/s/q11dzzhmo3oc5md/realprice20121117.zip
Google Drive 位置: https://docs.google.com/file/d/0B_CxAZD9rYXMNm1PeWtGakl2TlE/edit

不過因為內政部這次把地址和總價改成圖片,因此將圖片還原回文字這件事讓我花了不少功夫
總價部份我應該是全部還原了,但是 41,078 筆中有 4,767 筆資料是我沒有 100% 確定數字是正確的
因為這 4,767 筆是用 OCR 加上我一筆一筆檢查確認的,不敢保證是否有疏漏(我也檢查了快一小時)
不過應該也有 95% 以上的準確度吧
這 4,767 筆靠 OCR 加人工檢查的資料放在  http://ronnywang-public.s3.amazonaws.com/opendata/realprice/20121117/guess.html
如果有人有更好的 OCR 工具或是有閒的話也可以再幫我驗算一次,如果有錯我就馬上修正資料囉 

在輸出的 json 中,如果是我無法確定數字正確的部份,我在 fields 那個欄位有增加一個 "交易總價原始圖檔" 資料
這一欄的資料會長成 "A2CB10110020011-01.png" 這個樣子
只要到 http://ronnywang-public.s3-website-ap-northeast-1.amazonaws.com/opendata/realprice/20121117/totalprice/A2CB10110020011-01.png 就可以看到原始圖片
所以如果要做服務的人也可以把這圖片加進去讓 user 可以看到來自實價登錄網站上總價圖片
同樣地址的圖片我也有放在  http://ronnywang-public.s3-website-ap-northeast-1.amazonaws.com/opendata/realprice/20121117/address/[caseNo]-[caseSeq].png

而原始圖片 41,078 筆資料的打包檔我也放在 Dropbox 和 Google Drive 了 

地址原始圖片 Dropbox 22.37M: https://www.dropbox.com/s/4p9ol2xjib6v9zk/images-address-20121117.zip
總價原始圖片 Dropbox 14.2M: https://www.dropbox.com/s/bajbhbsan4vvol7/images-totalprice-20121117.zip

而門牌的部份有 16,393 筆資料我無法抓出文字的(因為我沒有中文 OCR 工具),不過因為已經有座標資訊了,大部份的應用這些資訊應該都足夠了

最後再來碎碎念一下
如果這次內政部網站不惡搞把總價改成圖片,其實我的爬資料程式是可以程式跑下去就等他跑完,新的匯出檔就產生好了
這樣之後我的人工部份幾乎就是打個指令按下 enter ,剩下就是上微網誌發文請大家下載了
但是內政部這次這樣一搞我為了解決圖片問題昨天大概花了四個小時再那邊檢查

很多人會認為爬資料的人本來就是一種惡意行為,政府讓我們這些人難做是正確的
但是我想聲明幾點,有看我程式的人應該會知道,我爬資料的過程,每一個連線之間都會 sleep 0.5 ~ 1 秒,只是為了讓爬資料的過程所造成的 loading 不要超過人類的操作
另外我把資料爬出來之後,其他人就可以直接拿我的資料,不需要再去爬一次,這樣子也可以減少很多人也去爬資料
如果政府今天能自己放出一個打包檔,鬼才會想去寫程式爬資料
這些資訊既然政府決定公開了,就不應該用防賊的方法這樣處理
很多話已經有很多人說過了,我也不多說了

Code for Tomorrow-奶娘國家的KPI

全台實價登錄網站 -恭喜內政部成功開倒車 

和人民做朋友真的這麼難?民間版全台實價登錄網站的哀歌 

榮尼王 發表在 痞客邦 留言(3) 人氣()

murmur by 榮尼王 (ronnywang)
  • 游泳用手,溜冰用腿。每個星期都用這兩種運動來練身體還真不錯...(不過很花錢就是了...)
    2010/10/12 10:57發表迴響
  • 幫綠黨拉個票,綠黨不是民進黨,而是一個世界上大部份國家都有的政黨,目標是追求人權、環保、和平的政黨。受夠了台灣的藍綠鬥爭的人也可以考慮這另一個選擇,中止兩黨惡鬥吧。
    2010/10/12 13:40發表迴響

榮尼王 發表在 痞客邦 留言(2) 人氣()

murmur by 榮尼王 (ronnywang)
  • 不知道為什麼現在有點心悸的感覺...明明就沒喝咖啡啊
    2010/10/11 14:33發表迴響

榮尼王 發表在 痞客邦 留言(0) 人氣()

murmur by 榮尼王 (ronnywang)
  • 星期六早上網路報警說有人要自殺,星期一晚上才打電話跟我確認報案,要是真的自殺的話都不知道死多久了
    2010/04/26 22:34發表迴響

榮尼王 發表在 痞客邦 留言(0) 人氣()

98年11月10日高雄市關懷流浪動物協會,從繁殖場業主手中救下了數以百計的受虐狗,殘忍的繁殖場,將銷售較差的犬種,一率斷水斷食,活活餓死……死掉後全都拖出來,小一點的就打包丟在水溝裡,大一點的就隨手將牠棄置在狗場的一角,任其腐爛….

已經死亡發臭的狗屍體


許多籠子裡的狗狗就連這樣的餿水都沒得吃


為什麼會有棉花在籠子裡呢?走近一看才驚覺這是一具只剩皮毛及不成形的屍體...


柯基、狼犬、梗犬全都擠在一起。




●詳見原文【狗間煉獄.凌遲處死】

目前救援行動後已使狗兒重獲自由,其中七成的狗兒都患有疾病,
龐大的醫療與飼料支出都讓協助救援的協會難以負荷,
目前狗兒們即將斷炊、將無法醫病,
希望大家不要遺忘這些狗兒,請接力的用你的力量將此訊息轉PO出去。


痞客邦正為狗兒們發起10萬串連捐10萬飼料活動,

邀請希爾思一同為每一筆串連文章捐出1元飼料費,希望能拋磚引玉,透過你手中的滑鼠,
將狗兒們需要物資、救命的飼料營養品、善款等資訊傳遞出去,一起有錢出錢、有力出力。


●請點我進入串連





你我的轉貼訊息只是微薄之力,也可能是一狗兒們求生的一現曙光,
請大家幫忙這些可憐的小生命,無論是捐物資、善款幫忙,都請不要忽視自己的力量,
縱使只是棉薄之力,凝聚微薄的力量就能匯集成幫助狗兒們的大力量。

協會目前極需協助:
 1.營養補給品,及維他命注射液
 2.募集飼料、罐頭
 3.認養或助養
 4.募集結紮及醫療善款
 5.您的轉貼募集資訊,讓更多有心想要協助或認養的善心人士能夠參與

串連活動網址:http://emkt.pixnet.net/blog
串連貼紙:

榮尼王 發表在 痞客邦 留言(1) 人氣()

報名網站

 

新竹這幾年的治安越來越誇張了,在我大四時,常常晚上開車到南寮去吹海風,從沒聽人說晚上出去要小心點
但是在畢業之後,飆車族猖獗的新聞越來越多, 2006 年發生交大研究生被飆車族砍死,最近又發生一次被活活打死的事件

新竹市政府和警察局做了什麼?

飆車族的定義是「三人以上、以街頭飆車為組織目的之一的犯罪組織」,所以這些打死人的不是飆車族,新竹是幸福城市沒有半個飆車族喔??

雖然新竹對我來說已經是個過去的地方,現在的我住在台北在台北工作,沒事也不太會去新竹
但是這次我決定要坐客運下去新竹參加靜坐,這幾年真的太誇張了
有空的人也歡迎來參加,要讓政府知道我們不是只會躲在家裡安靜的任人宰割!

榮尼王 發表在 痞客邦 留言(2) 人氣()

Bloody Omaha
三個人 + 一套軍裝 + 一台車 + 一堆場景物品 + 四天 = 數千人的戰爭場面

榮尼王 發表在 痞客邦 留言(0) 人氣()

網址: http://lick_a.at.infoseek.co.jp/crs/exp1/

很好玩的小音樂遊戲,只需要移動滑鼠就可以,把滑鼠指標移到圓圈出現的地方就好了。
音樂很好聽,而且遊戲度也不錯,很容易上癮 orz...(我玩了一個下午了)
在 Ptt 小遊戲板上一堆人 OP 這個遊戲,有人叫他 "圓圈遊戲" "把滑鼠游標放進圓圈裡", "圓形遊戲"...

下面有更詳細的介紹~~

發表在 痞客邦 留言(6) 人氣()

http://video.google.com/videoplay?docid=8562563103885401848&q=tetris&pl=true

好屌的廣告...

發表在 痞客邦 留言(0) 人氣()

還滿期待的
看了預告片
http://action4jerry.com/hospital_t_c8.htm

看到把陳心愉改名叫劉心萍的時候我笑了 XD
不過改名字也是滿合理的啦...
如果用原著裡面的名字的話
多半又會被一些政治狂熱份子抓出來批評

選角方面
蘇怡華找F4的言承旭來演我真的覺的不太適合
言承旭看起來太年輕了..完全沒有蘇怡華那種在小說中的風範..
小說中我還滿喜歡蘇怡華這個角色的
希望言承旭不要把他演爛啊...
自從 5566 出現後, 我對 F4 的反感也沒以前那麼多了
言承旭好好演啊
以前因為你幫星際寶貝代言, 害我打死都不願意看這部迪斯奈動畫
現在我可是願意看你的白色巨塔了, 不要演爛啊

小說中的關欣我也滿喜歡的
不過選角找了張鈞甯..也是太年輕了
而且關欣在小說中屬於那種在人面前是個女強者
不畏強權的女子
但是在這個預告片中出現幾個片段讓我看到的都跟一個弱女子一樣
希望只是預告片中挑的片段不好啊

吳孟達的形象我覺得跟唐國泰兜不太起來...
不過相信吳孟達的演技應該能彌補這差距吧
不過吳孟達的聲音是用配音的, 聽起來就有點不太自然

邱慶成選角給我的第一印象不錯...
光看外表就很有小說中邱慶成的感覺

邱慶成跟蘇怡華之間的關係有點像是日版白塔裡面財前跟里見的關係
(不過里見已經接近是聖人了[或者說是蠢人], 蘇怡華還只是個一般人而已)
但是台版現在給我的第一個感覺是..蘇怡華跟邱慶成一比蘇怡華完全被比了下去..
看起來就不夠成熟....

總之要等開始播之後才知道情況了
一切都是期待啊...
當年看完侯文詠的小說之後
我的腦子裡面一直在想像這部小說拍成電影會是什麼樣子
我一直覺得拍成電影流到世界上也是不錯的作品
現在先拍成連續劇了..一定要看的啊~
===
日版的白色巨塔跟侯文詠的白色巨塔是完全無關的..
只是名字相同背景都是在醫院這點是相同
其他就幾乎沒什麼共同點了
所以沒有誰抄誰的問題...

兩者比起來我比較喜歡侯文詠版的白塔..
因為這部白塔感覺比較真實...
像是日版白塔裡的里見或是大河內教授我認為是不可能存在這世界的
就算存在也不可能會到達這麼高的地位...
侯版白塔裡面的角色就都比較符合我們真實的人
像是蘇怡華你知道他是個好人
但是很多地方還是會受到誘惑...環境也會改變他...

總之推薦還沒看過小說的人可以去看看喔

發表在 痞客邦 留言(9) 人氣()

  • Dec 15 Thu 2005 04:14
  • Smacky

遊戲
真是個好玩的小遊戲,劇情是在講在一個最大的城市中裡面最大的公園裡面最大的一棵樹中,每隻松鼠都過的很快樂,只有一隻叫 Smacky 的松鼠不願意跟大家一起快樂的過,其他松鼠很想要讓 Smacky 跟大家一起快樂,而遊戲內容就是 Smacky 要防止其他松鼠送禮物給 Smacky 成功。
(在Ptt上的小遊戲板看到這遊戲的介紹是要拒絕接受其他松鼠的告白,害我一度以為這是一個去死團遊戲,剛剛看了一下遊戲介紹才知道劇情不是如此...本來這篇 Blog 還想要藉這小遊戲來寫一篇我的反去死去死團文章的,既然這小遊戲跟去死團無關的話我就改天再來寫吧)

遊戲玩法只會用到滑鼠左鍵,左鍵按一下就可以打一拳,按著不放可以集氣,按著不放並將滑鼠指標移到上下左右的位置可以發絕招,藍色禮物可以加血,其他種類禮物可以加氣,氣滿了可以發大絕招(氣滿的時候氣條會變成閃光,但是氣還是可以繼續往上集,所以會有氣滿了之後發小招不會耗氣的錯覺,事實上還是會耗氣的)

這個遊戲不是去死團小遊戲喔~~

發表在 痞客邦 留言(0) 人氣()

原始連結: http://www.its.caltech.edu/%7Etzer-jen/tnnd-low.wmv
YouTube版: http://www.youtube.com/?v=BJmSF_CvuOQ

我的Mirror: http://ronny.tw/~ronnywang/files/tnnd-low.wmv

原作者不知道是誰,等查到之後再補上他的名字和連結吧
update: 原作者名字是 Tzer-jen Wei ,不過資料還真難找啊

發表在 痞客邦 留言(1) 人氣()

這是一個我大概兩年前在網路上找到的 MTV,聽不太出來是哪種語言(有點像歐洲語言),也沒有任何文字寫他的歌名是什麼,所以找不到這到底是哪首歌或者出處是哪裡。(可能等到用聲音搜尋出現的時候我就可以知道答案了吧 XD)

MTV的影片是一個小女孩在草原上亂跑亂玩,小女孩玩的很開心,在草原上有蝴蝶可以追,有鹿可以摸,有花可以摘,有溪水可以游。這樣的草原我也很希望能去逛一逛啊,但是最後的結局卻不是像想像中的一樣美好,最後小女孩的卻需要無奈的離去。推薦給大家看看這 MTV 吧,如果有誰知道這出處是哪裡的也麻煩跟我講一聲吧 :),真希望能知道答案。


發表在 痞客邦 留言(3) 人氣()

1 2