五大商業分析技術趨勢及使用方式(1)
目前,趨勢中心對如何應對分析挑戰的關註力度並不亞於他們考慮在新商業視角中如何充分利用機遇的力度。例如,隨著越來越多的公司開始不得不面對海量數據以及考慮如何利用這些數據,管理與分析大型不同數據集的技術開始出現。提前分析成本與性能趨勢意味著公司能夠提出比以前更為復雜的問題,提供更為有用的信息以幫助他們運營業務。
在采訪中,首席信息官們總結出了5大影響他們進行分析的IT趨勢。它們分別為:大數據的增長、快速處理技術、IT商品的成本下降、移動設備的普及和社交媒體的增長。
1.?大數據
大數據指非常龐大的數據集,尤其是那些沒有被整齊的組織起來無法適應傳統數據倉庫的數據集。網絡蜘蛛數據、社交媒體反饋和服務器日誌,以及來自供應鏈、行業、周邊環境與監視傳感器的數據都使得公司的數據變得比以往越來越復雜。
盡管並不是每個公司都需要處理大型、非結構型數據集的技術。Verisk Analytics公司首席信息官Perry Rotella認為所有的首席信息官都應當關註大數據分析工具。Verisk幫助金融公司評估風險,與保險公司***同防範保險詐騙,其在2010年的營收超過了10億美元。
Rotella認為,技術領導者對此應當采取的態度是,數據越多越好,歡迎數據的大幅增長。Rotella的工作是預先尋找事物間的聯系與模型。
HMS公司首席信息官Cynthia Nustad認為,大數據呈現為壹種“爆炸性”增長趨勢。HMS公司的業務包括幫助控制聯邦醫療保險(Medicare)和醫療補助(Medicaid)項目成本和私有雲服務。其客戶包括40多個州的健康與人類服務項目和130多個醫療補助管理計劃。HMS通過阻止錯誤支付在2010年幫助其客戶挽回了18億美元的損失,節約了數十億美元。Nustad稱:“我們正在收集並追蹤大量素材,包括結構性與非結構性數據,因為妳並不是總是知道妳將在其中尋找什麽東西。”
大數據技術中談論最多的壹項技術是Hadoop。該技術為開源分布式數據處理平臺,最初是為編輯網絡搜索索引等任務開發的。Hadoop為多個“非關系型(NoSQL)”技術(其包括CouchDB 和 MongoDB)中的壹種,其通過特殊的方式組織網絡級數據。
Hadoop可將數據的子集合分配給成百上千臺服務器的處理,每臺服務器匯報的結果都將被壹個主作業調度程序整理,因此其具有處理拍字節級數據的能力。Hadoop既能夠用於分析前的數據準備,也能夠作為壹種分析工具。沒有數千臺空閑服務器的公司可以從亞馬遜等雲廠商那裏購買Hadoop實例的按需訪問。
Nustad稱,盡管並不是為了其大型的聯邦醫療保險和醫療補助索賠數據庫,但是HMS正在探索NoSQL技術的使用。其包括了結構性數據,並且能夠被傳統的數據倉庫技術所處理。她稱,在回答什麽樣的關系型技術是經實踐證明最好用的解決方案時,從傳統關系型數據庫管理出發是並不明智。不過,Nustad認為Hadoop正在防止欺詐與浪費分析上發揮著重要作用,並且具備分析以各種格式上報的病人看病記錄的潛力。
在采訪中,那些體驗過Hadoop的受訪首席信息官們,包括Rotella和Shopzilla 公司首席信息官Jody Mulkey在內都在將數據服務作為公司壹項業務的公司中任職。
Mulkey稱:“我們正在使用Hadoop做那些以往使用數據倉庫做的事情。更重要的是,我們獲得了以前從未用過的切實有用的分析技術。”例如,作為壹家比較購買網站,Shopzilla每天會積累數太字節的數據。他稱:“以前,我們必須要對數據進行采樣並對數據進行歸類。在處理海量數據時,這壹工作量非常繁重。”自從采用了Hadoop,Shopzilla能夠分析原始數據,跳過許多中間環節。
Good Samaritan醫院是壹家位於印第安納州西南的社區醫院,其處於另壹種類型。該醫院的首席信息官Chuck Christian稱:“我們並沒有我認為是大數據的東西。”盡管如此,管理規定要求促使其存儲整如龐大的電子醫療記錄等全新的數據類型。他稱,這無疑要求他們要能夠從數據中收集醫療保健品質信息。不過,這可能將在地區或國家醫療保健協會中實現,而不是在他們這種單個醫院中實現。因此,Christian未必會對這種新技術進行投資。
Island One Resorts公司首席信息官John Ternent稱,其所面臨的分析挑戰取決於大數據中的“大”還是“數據”。不過,目前他正在謹慎地考慮在雲上使用Hadoop實例,以作為壹種經濟的方式分析復雜的抵押貸款組合。目前公司正在管理著佛羅裏達州內的8處分時度假村。他稱:“這種解決方案有可能解決我們目前正遇到的實際問題。”
2.商業分析速度加快
肯塔基大學首席信息官Vince Kellen認為,大數據技術只是快速分析這壹大趨勢中的壹個元素。他稱:“我們期待的是壹種更為先進的海量數據分析方法。”與更為快速地分析數據相比,數據的大小並不重要,“因為妳想讓這壹過程快速完成”。
由於目前的計算能夠在內存中處理更多的數據,因此與在硬盤中搜索數據相比,其計算出結果的速度要更快。即使妳僅處理數G數據,但情況依然與此。
盡管經過數十年的發展,通過緩存頻繁訪問的數據,數據庫性能提升了許多。在加載整個大型數據集至服務器或服務器集群的內存時,這壹技術變得更加實用,此時硬盤只是作為備份。由於從旋轉的磁盤中檢索數據是壹個機械過程,因此與在內存中處理數據相比,其速度要慢許多。
Rotella稱,他現在幾秒中進行的分析在五年前需要花上壹個晚上。Rotella的公司主要是對大型數據集進行前瞻性分析,這經常涉及查詢、尋找模型、下次查詢前的調整。在分析速度方面,查詢完成時間非常重要。他稱:“以前,運行時間比建模時間要長,但是現在建模時間要比運行時間長。”
列式數據庫服務器改變了關系型數據庫的傳統行與列結構,解決了另壹些性能需求。查詢僅訪問有用的列,而不是讀取整個記錄和選取可選列,這極大地提高了組織或測量關鍵列的應用的性能。
Ternent警告稱,列式數據庫的性能優勢需要配合正確的應用和查詢設計。他稱:“為了進行區別,妳必須以適當的方式問它適當的問題。”此此同時,他還指出,列式數據庫實際上僅對處理超過500G字節數據的應用有意義。他稱:“在讓列式數據庫發揮作用之前,妳必須收集壹規模的數據,因為它依賴壹定水平的重復提升效率。”
保險與金融服務巨頭John Hancock公司的首席信息官Allan Hackney稱,為了提高分析性能,硬件也需要進行提升,如增加GPU芯片,其與遊戲系統中用到的圖形處理器相同。他稱:“可視化需用到的計算方法與統計分析中用到的計算方法非常相似。與普通的PC和服務器處理器相比,圖形處理器的計算速度要快數百倍。我們的分析人員非常喜歡這壹設備。”
以上是小編為大家分享的關於五大商業分析技術趨勢及使用方式(1)的相關內容,更多信息可以關註環球青藤分享更多幹貨