☰

網路資訊／巨量資料浪潮來襲　是商機或「喪機」？

作／道格

企業是否正邁向巨量資料浪潮的顛峰？或者正朝着幻覺破滅的谷底邁進？

貴公司是否找到了巨量資料(Big Data)分析的運用案例？是否嘗試過像Hadoop之類的新平臺？如果已經做過這些事，或許意味着已經知道希望從巨量資料中得到些什麼、以及有哪些問題需要解決。

知道自己的需求，代表有機會找出有用的商業資訊，而不只是儲存一大堆無用的資訊。

這裡所探討的技術，包括分散式運算(Distributed computing)、串流處理(Stream processing)、機器學習(Machine learning)、圖像分析(Graph analysis)等，可以增加分析的效能，讓分析更便宜、更容易使用。

使用分散式運算與串流處理，公司可以從事過去做不到的大規模、快速分析。例如，銀行可以在1秒以內判斷一位客戶的資料，然後在網站上提供與他個人最相關的廣告。

另外也看到機器學習在複雜分析中發揮作用；例如，Memorial Sloan-Kettering癌症中心正在從事機器學習，以持續監控新的醫學文獻，並藉此提供癌症醫療建議，協助醫師診斷。

而且現在正目睹開放原始碼科技的出現，包括Apache Hadoop和R語言，讓公司可以使用更大、更廣的資料類型，並且用這些東西來解決新的商業分析問題。

舉例來說，共同基金公司American Century正在開發自己的R-based模型，使用圖像分析技術來找出公司之間的關連，就好比臉書(Facebook)可以找出人與人之間的關係一樣；這麼一來，American Century便可以強化自己的財報預測準度。

在這個階段，IT人員對於未來分析市場的願望清單還有一長串。大部分公司仍希望看到經過驗證的分析工具與方法，而不是還在測試階段的計劃。

他們想要簡單、容易上手的SQL或SQL類型分析，不受到限制的查詢能力、批次處理以及非即時處理。資料量不斷成長，而公司想要合理運用的資料來源種類也不斷增加。

在此同時，新創立的分析公司不斷提到Hadoop等巨量資料平臺的問題，所以接下來的篇幅將會聚焦在現階段最新、最完整的資料使用方式。

開放原始碼可以解決難題

Apache Hadoop現在幾乎已經是巨量資料的同義詞，這種分散式資料處理架構可以用來打造大量分散式運算應用。Hadoop讓組織可以快速儲存大量不同的資料，無須關連式資料庫要求的所有管理工作。

不過，要在Hadoop上跑分析，目前仍需要更好的實例與技術，因此有待繼續努力。

以目前現有科技，公司可以在MapReduce中設計演算法，使用Hadoop的HBase NoSQL資料庫來擷取資料組，並利用Hive數據資料庫進行類似SQL的查詢。

但早期使用者發現了一些缺失，MapReduce程式很複雜，HBase不穩且不易管理，而Hive不但慢，且進行SQL分析的能力十分有限。

在Hadoop社羣中，有越來越多參與者和新創公司正積極改善像是Hive這樣的工具，包括進行MapReduce設計的Apache Pig語言、以及部署機器學習演算法的Apache Mahout計劃。

這些新創公司發現Hadoop使用者很想要開發新的方法。

舉例來說，Opower賣的是可以讓電力公司追蹤其客戶電力使用狀況的系統。Opower使用Hadoop，結合數百萬電力客戶的資料、恆溫裝置、天氣與其它數據。

其中一份報告可以讓客戶知道自己的電力使用狀況，並且與當地相同規模的住家平均做比較。客戶還可以從網路上取得帳單金額預估，並獲得下一期的繳費提醒。

擁有這些資訊的消費者，就可以控制自己的用電量，諸如關掉家裡的恆溫裝置、改成經過設計的恆溫計，或調整成在用電離峰時間才使用。在2007年成立的Opower表示，使用其服務的1,500萬名客戶中，總共減少了2兆瓦電力，省下約2.2億美元。

不過這項服務的資料處理可不容易。就像許多Hadoop使用者一樣，Opower在Java上開發了客製化的MapReduce流程，可以從HBase擷取、處理數據，然後應用到分析模型中。

爲了簡化流程，Opower使用WibiData開發的現成軟體來完成HBase分析工作。現任Opower基礎建設工程總監Drew Hylbert曾在雅虎(Yahoo)任職，他離開雅虎後開始投資MapReduce資料處理；他表示，這個軟體可以簡化2個步驟。

他說：「WibiData有助於完成資料更正，而資料更正是我們希望用自己的HBase架構完成的事；而且WibiData可以讓未來需要時能在HBase上增加資料。」

WibiData是支援Hadoop的衆多新創公司之一，由Cloudera創辦人Christophe Bisciglia創立。

WibiData提供Kiji函式庫給HBase架構發展，讓WibiData可以提供免費的開放原始碼軟體。這些函式庫讓大型HBase資料庫的資料儲存與擷取變得更容易。

該公司還提供開放原始碼的分析工具，也就是在HBase上運作的MapReduce模型與工具，並從顧問、企業支援與訓練獲得利潤。

Hylbert表示：「WibiData的想法是可以省略親自開發MapReduce的過程；與其尋找研究工程師與MapReduce工程師來完成開發，不如利用可重複的抽象化過程在多個應用中產生洞察(insight)。」

客戶可以重複使用軟體，不用每次有新的insight需求時就要開發新的MapReduce工作。

Opower還仰賴另一家新創公司Platfora來協助公司完成巨量資料視覺化工作，這又是另一個分析的分支。

Hylbert解釋，WibiData找來工程師研究第一手資料、並建立統計模型，不過其他Opower員工需要「看到數據、畫出圖表，然後用不同方式加以詮釋解讀；Platfora則在Hadoop與HBase上提供我們資料視覺化，並深入探索資訊。」

Opower正要開始部署Platfora；但如果發揮到極致，將可以取代SQL基礎的方法，讓Opower不必從Hadoop擷取資訊、再把資訊移到Infobright資料庫軟體、然後使用Pentaho資料圖像化工具完成分析。

Hylbert表示，Infobright與Pentaho軟體的結合固然「簡單好用」，但他寧可省去把資料從Hadoop移到SQL資料庫的過程。Platfora可以省略這個步驟，因爲Platfora是直接在Hadoop上運作。

相關資訊