當前位置:吉日网官网 - 紀念幣收藏 - 值得壹試的4大數據工具!

值得壹試的4大數據工具!

編譯|哈裏斯來源|機房360

如今,大數據變得越來越重要,因為企業需要處理來自多個來源的不斷增長的存儲數據。

采用大數據可以稱為壹場完美風暴。廉價的存儲以及結構化和非結構化數據的大量湧入導致了許多大規模數據工具的開發,以幫助企業“解鎖”他們積累的數據,從客戶記錄到產品性能結果。

與傳統的商業智能(BI)壹樣,這些新的大數據工具可以分析過去的趨勢,並幫助企業識別重要的模式,例如特定的銷售趨勢。許多大數據工具現在提供了新壹代的預測和規範見解,以及埋在企業數據中心的所有數據。

關於人們面臨的挑戰,研究機構Gartner的分析師道格·蘭尼(Doug Laney)表示,人們不應該使用擴展的基礎設施來處理所有這些數據,而是應該自己處理各種數據。

“對於真正的挑戰,企業處理和整合自己和客戶的交易數據,並* * *構建和理解輸入,加上來自合作夥伴和供應商的數據,以及壹些外生數據,如社交媒體的開放數據和聚合數據等等,這些只是觸及表面。”蘭尼在電子郵件中說。

大數據是壹個大問題:您的網絡準備好了嗎?

雖然Gartner的客戶通過2比1的比率表明,各種數據是更大的問題,但對他們來說,數據增長的速度越來越快,數據處理廠商將繼續提供更多的資金和更快的解決方案。

ConstellationResearch的分析師道格·亨森德(Doug Hensend)表示,大數據解決方案肯定在不斷發展。

“在我的書中,2014是SQLHadoop公布的年份,但這壹年,企業和廠商開始意識到大數據的機會不僅僅是擴展傳統的BI和數據庫。”Hensend說,“因此,ApacheSpark開源框架和其他分析方案在2015已經超越了SQL。2015年,數百家供應商和大公司開始采用ApacheSpark開源框架。IIBM公司接受了最明顯的主張其他分析選項的供應商,而許多其他致力於數據集成和大數據平臺的公司也加入了這壹行列。”

其實大數據的浪潮好像要來了,每天供應商都會推出各種解決方案,包括壹些比較全面的設計。雖然很難得到壹個全面的列表,但是這四個工具應該會出現在用戶的應用列表中。

數據科學家的(1) H2O.ai

H2O.ai是創業公司Oxdata於2014年底推出的獨立開源機器學習平臺,主要服務於數據科學家和開發者,為他們的應用提供快速的機器學習引擎。Oxdata表示,它可以在商業硬件上處理和分析來自任何來源(如Hadoop、SQL)的數據,甚至可以運行在數千個網絡節點或亞馬遜的AWS雲上。個人可以免費試用並繼續使用H2O.ai。Oxdata會收取企業用戶的費用。

“很多公司用Spark代替Hadoop的短時內存,就像大數據的內存壹樣。”H2O公司營銷和增長副總裁Oleg Rogesco表示,“在讀取妳的短期記憶方面,h20.ai有壹個超越Spark的功能,基本上提供了超快的分析能力。”

Rogesco表示,H2O.ai是壹種新的數據工具,旨在提供預測分析。他指出,SQL在描述性數據分析或“告訴我發生了什麽”的早期階段幫助推廣產品,然後是“預測期”,看看發生了什麽,並試圖幫助客戶預測接下來會發生什麽——例如,庫存耗盡或產品突破。

“未來幾年,我們會看到第三階段是強制階段。系統說,‘這是我的教訓。我認為未來會發生什麽,妳應該最大化妳的目標。羅傑科說,他還指出,谷歌地圖主動建議替代路線的能力是規範性解決方案的壹個例子。

H20.ai將自己定位為各行業數據科學家使用的預測工具和“盒子”。例如,互聯網巨頭思科有6萬個模型來預測購買決策,該公司使用H2O.ai對這些模型進行評分。思科首席數據科學家表示,“結果很棒。我們看到H2O.ai的性能比我們同類產品要好三到七倍。從個人建模得分來看,h2o.ai環境是向上的10到15倍。”

(2)思考點3——大數據應用

有了Google這樣的搜索引擎的幫助,在網上很容易找到用戶需要的社交數據和網絡數據,而企業數據壹般很難找到,甚至更難使用。為此,7名工程師* * *成立了ThoughtSpot公司,目標是開發壹個類似於谷歌的搜索引擎來查找商業數據。

該公司在谷歌成立初期為其提供硬件設備,並在企業啟用防火墻後提供超快速搜索功能。ThoughtSpot結合了新搜索引擎的應用,其功能是通過壹個快速記憶的數據庫來搜索海量信息。該公司還計劃提供基於雲的服務。

Thinking Spot 3起價9萬美元,是數據科學家賴以為企業快速尋找大數據的工具。“我們已經看到,在企業中使用該產品的數據科學家的數量正在增加。”“20億人在搜索,但在工作中,我們仍然依賴數據專家,”ThoughtSpot營銷副總裁斯科特·霍爾登說。

Holden在加州公司總部PaloAlto進行了壹次演示,展示了該系統如何與熟悉的搜索欄界面配合工作。剛剛發布的ThoughtSpot3.0有壹些新的功能,包括“DataRank”的工作模式,類似於Google的PageRank和typeahead。該軟件使用機器學習算法建議的關鍵字來搜索客戶,以加快這壹過程。

Popcharts無疑是最酷的新功能。當妳輸入“東海岸出售.....”在搜索框中,ThoughtSpot根據查詢相關性即時創建壹個圖,並通過機器學習給出超過10個圖供選擇。

另壹個“實時”功能是AutoJoins,它旨在為擁有數百個數據源的企業導航。AutoJoins使用ThoughtSpot的數據索引,通過索引模式和機器學習找出表格之間是否相關,並在壹秒鐘內呈現研究結果。

霍爾登表示,ThoughtSpot更註重歷史數據的傳統BI分析(超快且易於使用),其預測性和規範性分析功能將在未來的軟件中得到體現。

(3)內涵軟件

Connotate Company是壹家為美聯社、路透社、道瓊斯等大公司實時分類分析全球數千個網站非結構化數據的企業。Connotate軟件是全球最簡單、最具性價比的Web數據提取和監控解決方案,可以有效利用海量數據,挖掘對企業成長有價值的信息,進行高度可擴展的數據監控和數據收集。

Gartner的分析師道格·萊尼(Doug Lenny)表示,Connotate和BrightPlanet在他的大數據工具名單上,因為它們有助於從企業自己的數據庫和互聯網中收獲和構建豐富多彩的內容。

“隨著數字化和經濟增長,企業意識到只關註自己的數據不再是萬無壹失的創新藥方,他們越來越多地轉向外部數據(即公司外部的數據)。”萊尼說。

Connotate表示,其從網頁中提取內容的專利技術遠遠超出了網頁抓取或自定義腳本。相反,它對如何在網站工作中使用機器學習采取了直觀的視覺理解。Connotate表示,其內容提取是“準確、可靠和可擴展的”。

據該公司稱,Connotate平臺可以輕松處理數百個網站和數百萬兆字節。並提供與業務相關的有針對性的信息。該方法提供的內容收集的平均成本比傳統方法少55%。

以壹個用例為例,Connotate幫助銷售信息提供商從成千上萬的醫院網站中提取聯系信息(姓名、職位、電話號碼、電子郵件和隸屬關系),並建立全國醫生檔案數據庫。

Connotate表示,其大數據解決方案被出售給了幾家大型制藥公司,而沒有花費額外的硬件或IT資源。大數據提取的規模甚至可以提供50萬醫生的數據。

(4)明亮行星工具

BrightPlanet還從互聯網上提取數據,互聯網聲稱其搜索具有所謂的“深度網絡”洞察能力。其deep web可以挖掘有密碼保護的網站和其他通常不被傳統搜索引擎索引的網站的數據。

BrightPlanet表示,它收集了數百萬個數據項,包括來自Twitter和新聞數據庫以及醫學期刊的數據,並可以根據企業的具體需求和條件進行篩選。

該公司為使用該軟件的數據采集工程師提供免費的DaaS咨詢,並介紹他們的服務是壹個不錯的選擇。咨詢的目的是幫助企業數據中心找到合適的收集數據,並獲得正確的格式,以便客戶能夠很好地了解過程和結果。

最終用戶或客戶可以選擇哪些網站獲取內容。反過來,BrightPlanet也豐富了它的內容。例如,非結構化數據(如社交媒體網站上的評論)被設計成壹種定制格式,以便在壹個更加用戶友好的客戶端上提交。

結束

  • 上一篇:妳不知道的吉林市。

    行程的開始要從壹個教會說起,法國外國傳教會,它是清末民國時期東北地區最活躍的天主教傳教會。

    黑龍江、吉林、遼寧三省最大的天主教堂都是這個教堂建的,建築風格也差不多。都是青磚素面的哥特式建築。黑龍江的在呼蘭,遼寧的在沈陽,吉林省的在吉林市。

    呼蘭天主教堂

    沈陽天主教堂

    吉林天主教堂(耶穌聖心教堂)

    當初法國外國傳教士

  • 下一篇:克裏斯蒂·海夫納的雜誌價值
  • copyright 2024吉日网官网