多年(nián)來,在Apache Hadoop等技術的支持下(xià),組織一直在尋求構建數據湖——企業範圍的數據管理平台,允許以原生(shēng)格式存儲所(suǒ)有數據。數據湖可(kě)通過(guò)提供給一個單一的數據存儲庫來打破信息孤島問題,整個組織都可(kě)以使用(yòng)從業務分析到數據挖掘的所(suǒ)有東西。原始和不受約束,數據湖被認爲是一個包羅萬象的大數據。
但是,商業智能(néng)(BI)軟件專家(jiā),金字塔分析公司的首席技術官Avi Perez說,他看到許多客戶的數據湖正在惡化爲數據沼澤——完全無法接近終端用(yòng)戶的大量數據存儲庫。
“數據庫真的很貴。”Perez說,“數據湖從根本上解決了這個問題。數據湖以及所(suǒ)有大數據方案,都來自(zì)于(yú)市場壓力,其(qí)次,現實世界的數據生(shēng)成器會(huì)吐出大量的數據,你(nǐ)需要(yào / yāo)找到一個方法去(qù)存儲它們。”
但是,盡管許多世界上最好的公司都在他們的數據湖周圍建立了業務(谷歌就(jiù)是一個很好的例子),但很多公司在收集了數據之後(hòu)卻沒有任何清晰的辦法來獲取價值。
“他們更像是在收集灰塵。”Perez說,“也可(kě)以說在收集垃圾,一些最終都會(huì)被抛棄的垃圾。最後(hòu),你(nǐ)爲那(nà)些東西增加了預算,卻什麽都不做。”
這并不是說數據湖背後(hòu)的想法是糟糕的。Perez确信,所(suǒ)有的公司最終都需要(yào / yāo)一個數據湖。但是如(rú)何創建一個數據湖,讓終端用(yòng)戶真正從中受益,這是需要(yào / yāo)深思熟慮的。
爲了避免在自(zì)己的數據湖中溺水,Perez建議采用(yòng)以下(xià)三條原則:
一、隻收集少量的數據,至少在一開始的時候。
Perez表示,組織所(suǒ)犯的最大的錯誤之一就(jiù)是收集太多的數據,而(ér)其(qí)中原因僅僅是他們有這個能(néng)力。很多時候,個人也是這樣。細想一下(xià),你(nǐ)手機裏(lǐ)存了成百上千張圖片,有都少是自(zì)己真正想保存的?很多人沒有删掉多餘的圖片,隻是因爲手機容量夠大。
“你(nǐ)的手機上有10億張照片,其(qí)中99%就(jiù)可(kě)能(néng)是垃圾,而(ér)且在删除它們的時候還可(kě)能(néng)會(huì)有點兒舍不得(dé / de / děi)。”他說,“用(yòng)手機拍照很容易,基本上是免費的。你(nǐ)可(kě)能(néng)回想,‘有一天(tiān)我會(huì)去(qù)清理它’,但隻要(yào / yāo)存儲容量仍然充足,就(jiù)很少有人會(huì)這樣做。這就(jiù)叫做收集了大量的信息,卻沒辦法有效使用(yòng)它們。”
當你(nǐ)想要(yào / yāo)給某人看一張很有意思的照片時,就(jiù)不可(kě)避免地需要(yào / yāo)往後(hòu)翻閱很多張無關的照片。
Perez說,同樣的事(shì)情也發(fā/fà)生(shēng)在數據湖上。在Hadoop中存儲數據并不昂貴,甚至常會(huì)被認爲是免費的。但是,大量累積的數據會(huì)讓你(nǐ)很難真正地訪問數據,來爲自(zì)己提供有價值的信息。
“我認爲,避免這種情況的方法實際上是把水龍頭給關掉。”Perez說,“基于(yú)這樣一種假設,僅僅是收集數據的成本很低,并不會(huì)讓使用(yòng)數據變得(dé / de / děi)更便宜。這可(kě)能(néng)真的很貴。所(suǒ)以,不要(yào / yāo)總想着(zhe/zhuó/zhāo/zháo)無休止地收集信息。把它放在一個數據集中,制定一個具體的計劃,弄清楚自(zì)己該如(rú)何去(qù)挖掘它。”
二、 采用(yòng)機器學習戰略
即使有了一個集中的數據集,從大規模的數據中獲得(dé / de / děi)有價值見解也需要(yào / yāo)自(zì)動化。
“你(nǐ)需要(yào / yāo)一個自(zì)動化的系統來清洗數據。”Perez說,“人工智能(néng)、機器學習、深度學習,無論你(nǐ)想使用(yòng)哪一種,都會(huì)是一個非常神奇的解決辦法。我認爲,從你(nǐ)巨大的數據湖中獲取價值的最簡單的辦法就(jiù)是,擁抱這一項新技術。”
Perez說,首先選擇一個數據集,然後(hòu)通過(guò)一項機器學習技術來完成它。當然,新的技術意味着(zhe/zhuó/zhāo/zháo)新的技能(néng)、人才需求,你(nǐ)可(kě)以對(duì)現有員工進行(háng / xíng)培訓,也可(kě)以聘請一些專業人士。
“機器學習是一門黑色藝術。”他說,“這并不容易做到,需要(yào / yāo)非常細分的技能(néng)。”
三、 确定你(nǐ)想解決的商業問題
所(suǒ)有的事(shì)情都應該是完整的:你(nǐ)需要(yào / yāo)從一個清晰的視角來開始你(nǐ)想要(yào / yāo)解決的商業問題。有了一個客觀的目标,相對(duì)會(huì)更容易把你(nǐ)需要(yào / yāo)收集的數據和最好的機器學習技術應用(yòng)起來。
例如(rú),Perez說,可(kě)以将自(zì)己想象成一個大賣場,你(nǐ)決定去(qù)了解什麽樣的顧客會(huì)進入你(nǐ)的商店。你(nǐ)可(kě)以捕捉顧客進入商店的圖片,然後(hòu)使用(yòng)一個複雜的神經網絡(CNN)——一種擅長于(yú)計算機視覺問題的深度學習神經網絡——來處理圖像。CNN可(kě)以通過(guò)一個人的形象确定是男性還是女性,是孩子還是成年(nián)人,是年(nián)輕人還是老年(nián)人等等。
“一旦你(nǐ)完成了所(suǒ)有工作,就(jiù)可(kě)以把它與一個商業計劃聯系起來,并把它交給你(nǐ)的業務用(yòng)戶。”Perez說,“這可(kě)以幫助你(nǐ)做出決策——‘我們需要(yào / yāo)更多地向男性市場推銷,因爲我們沒有足夠多的男性客戶’。你(nǐ)真的需要(yào / yāo)事(shì)先有一個明确的戰略,如(rú)果不這樣做,僅僅是對(duì)事(shì)物的收集就(jiù)會(huì)對(duì)整個過(guò)程産生(shēng)巨大的負面影響。”
一旦你(nǐ)在頭腦中建立了一個業務計劃,通常就(jiù)可(kě)以叠代該功能(néng),從而(ér)爲業務提供更有針對(duì)性的解決方案。例如(rú),一旦你(nǐ)确定是誰走進了你(nǐ)的商店,你(nǐ)就(jiù)可(kě)以用(yòng)同樣的能(néng)力來确定誰會(huì)走過(guò)你(nǐ)的化妝品櫃台。