當前位置:吉日网官网 - 傳統節日 - 大數據業務建模的新發展——從預測到“現場測試”

大數據業務建模的新發展——從預測到“現場測試”

從預測到當前測試:大數據業務建模的新發展

大數據業務建模的新發展方向在哪裏?如何預測大數據的獨特優勢?從預測到“實地測量”是如何實現的?首席模型科學家陳雨欣教授為我們做了更深入的講解,從預測到“現測”:大數據商業建模的新發展。

以下是陳雨欣教授在2015百分點大數據操作系統(BD-OS)及D輪融資發布會上的演講摘錄:

謝謝大家,謝謝大家!今天很榮幸在這個場合和大家分享壹些關於大數據商業建模新發展的思考,這也是目前百分比研發的壹個前沿。

大家都知道,預測是大數據商業應用的壹個核心。大數據預測需要大量高質量的數據和非常先進的模型。當前形勢下預測領域的新熱點或新發展方向是什麽?如何預測大數據的獨特優勢?這就是我想分享的。在此之前,我先介紹壹下最近媒體的兩則新聞報道,從中或許可以看出壹些新的發展趨勢。這兩條新聞都發表在8月份的《華爾街日報》上。

第壹,蘋果和谷歌正在開發技術,在用戶想要之前就知道他們想要什麽,在妳知道妳想要什麽之前就告訴妳妳想要什麽。大家都聽說過這兩款產品,蘋果稱之為“主動助手”,谷歌稱之為“Google Modern”。這兩家公司通過找出妳未來肯定會做的事情來推測妳近期想做的事情。谷歌可以通過郵件知道妳今天下午六點有航班。下午三點,根據妳現在的位置和北京的交通流量,它告訴妳現在該走了。如果妳離開,妳應該坐什麽車,滴滴還是優步?這是它的預測思路,是通過把握壹些已知的未來事件,對未來要做什麽的預測。

另壹則看似與此無關,卻有相通之處的新聞,宏觀經濟指標預測公司名字叫“仙策”,創始人是哥倫比亞大學獲得諾貝爾經濟學獎的博士生。大數據預測宏觀經濟指標,比如物價指數。為什麽叫“現考”?它不是壹個預測,而是對整個美國剛剛發生的各種價格變化的快速總結和對剛剛發生的事情的描述,而不是對未來價格的真實預測。為什麽這件事有意義?因為通常政府發布的指數是壹個月前或者壹個季度前的,壹分鐘前就可以了。

兩個新聞故事有同壹個關鍵詞“現在”,現在,這是目前大數據應用的壹個很重要的趨勢,就是從預測到當前的測量,預測是大數據建模技術的壹個核心,但也是大數據建模的最大難點。大家都說大數據很厲害,可以預測很多事情。妳能告訴我中國的股票明天會漲100嗎?但大數據的好處是,很多時候我們真正需要的不是預測,而是所謂的當前測量,是對非常近的過去的描述,是對非常近的未來的預測。

妳說非常接近是什麽意思?壹天前還是壹小時前?這其實取決於我們現在擁有的數據量和技術的發展。趨勢是這個越來越短。原本是壹個月前的經濟數據,現在壹分鐘前就能知道,高頻交易前壹秒就要知道數據。這就是我們想到的“現場測量”的定義。現在它是壹個動態的過程。現場測量是指對我們的現狀的壹點前壹點後的描述或預測。這其實是壹個真正被大量大數據應用使用的預測模型,比如高頻交易。其實我們已經知道了市場的情況,只是在別人反應過來之前知道了近期發生的事情。

對於大數據應用非常重要的推薦引擎,也是百分點最原始的DNA。根據這個頁面的消費者現狀,馬上給他壹個當前的推薦。這種推薦可能只是壹秒鐘甚至半秒鐘內實時投放的RTB廣告和打車軟件。大家都用過滴滴專車。它們背後的原理就是電流測量原理。我知道車在哪裏,妳在哪裏,知道交通狀況,所以我能猜到下壹分鐘。剛剛發生的事情和將要發生的事情背後有壹個非常重要的科學原理。大自然給了我們壹個非常重要的預測手段。世間萬物都有所謂的慣性,當這種慣性效率發生時,我們的預測才能更加準確。當壹個物體從斜面上滑下時,可以在下壹秒預測出木塊在哪裏,這是非常準確的。為什麽現在的測量精度來自於世間萬物背後的慣性。

在社交領域,慣性是場景驅動的,比如明天老婆過生日,給她買生日禮物。有了這個目標,根據慣性原理,預測就變成了現實考驗。

電流測量的壹個優點就是利用了所謂的慣性原理和時差。這就是大數據的特點,因為大數據往往是實時數據,海量高頻數據。妳可以看到,如果我每十分鐘拍壹張這樣的照片,我可能會錯過這個鏡頭。如果我每微秒或每半秒拍壹張照片,我可能會看到這個鏡頭。當我看到這個鏡頭時,有壹個慣性的應用。這位女士拿起這個橘子。如果沒有時差,比如五分鐘拍壹次這個鏡頭會錯過,但是如果頻率高,我們就知道她拿這個橘子去看了。雖然孩子把它拿走了,但她對這個橘子很感興趣。在這種情況下,我們可以有壹些營銷手段。

像預測壹樣說話,其實是壹個描述問題。高頻的描述效果和預測很像。我們不是在預測她喜歡蘋果還是橘子,而是我們的描述從預測變成了實測,描述很有優勢,於是我們把壹個很難的預測問題變成了描述問題。這就是我所說的為什麽我們有大數據現場測試的優勢。

我有幾個博士生在做模型搭建和模型測試。根據現場測試的概念,我們可以開發壹系列的技術模型,這些模型有壹系列的商業應用。壹個是協同過濾和時間序列分析。通常,在計算機科學領域,我們都知道協同過濾的算法。如果放入當前計量的考慮,就像計量經濟學的時間序列分析壹樣,時間序列分析在高頻交易中應用廣泛。現在我們可以把協同過濾和時間序列分析結合起來做壹個相應的應用。

第二是用戶的畫像。結合快速叠代的貝葉斯學習,我們知道用戶是什麽樣的人,用戶會做什麽樣的事情,但是我們可以在特定的場景下看之前的需求,做出修正。這種校正必須實時完成並快速叠代。

第三,開發了壹些動態數據可視化和人機交互產品。人腦的優勢在於,對壹個場景的全面把握,可以得到比計算機更好的預測,而大數據可以快速、實時地截取這樣的信息。如果動態展示壹些數據,可以通過人機交互進行判斷。在超市人員條件下,判斷女士喜不喜歡橘子,讓計算機直接判斷,不壹定準確,但我們可以通過動態數據可視化,把人對壹些全景的預測和計算機對數據的捕捉有機結合起來。

目前壹些學者將註意力集中在基於運籌學和行為科學的反時間序列預測上。換句話說,用未來預測現在,聽起來有點懸疑。很多時候在我們遙遠的未來,妳可能買了機票,明天就飛。這是確切的未來。我們有壹個明確的未來,並用它來幫助預測現在。比如妳在百貨大樓或者王府井百貨,我至少知道妳壹定要出去,不能壹輩子待在裏面。想走出這個百貨公司,可以告訴妳幾個選擇,每個選擇經過哪些貨架,物流優化的方法推薦多少種可能的商品。它有相當多的應用是把幾個非常難的預測問題變成從已知端點推回的物流優化問題,這也是非常緊密的結合了以前做了幾個百分點和現在在做什麽。已經實時推薦了百分之幾的DNA,與目前的測量不謀而合。

Percent在建模方面做了很多,就是畫用戶畫像,提煉場景。經過仔細推敲,提煉場景更進壹步,不僅要研究用戶場景,還要研究用戶在這個場景中的目標是什麽。我在這個場地的目的是和妳交流。任何用戶在任何商業環境、任何場景下,其實都是有目的的。去餐館的目的是吃飯,去學校的目的是學習。我們找到了這個目的。通過我剛才講的技術,知道用戶畫像推送他當前的思想和行為,目前建立的數據體系和場景分割,包括用戶畫像,在當前的測量範圍內有很多應用。所以積累大量的數據有非常好的前景。

和大數據預測公司壹樣,很多金融相關信息和實時經濟指標都是通過描述過去來預測未來的。還有壹個領域與金融信息,個人信用報告。從目前的衡量來看,所謂的人口統計指標,過去行為的指標,現在有更多的做法,壹個人買壹個大的商品,買壹輛車,這個信息馬上反饋到妳的個人征信系統,妳的現金流水平的變化,這樣壹種實時監控的方式,類似於做個性化的企業營銷。

剛才舉的同壹個例子,個人理財和信用卡可以根據妳實時消費情況的變化,計算出妳這個月還能使用多少錢,每個月消費的總額,銀行存款的多少。據此,妳可以把妳買的東西往後推,往後推,否則妳推薦的用戶可能沒有財力消費。

第三個應用是旅遊旅行管理。比如妳的航班,我知道明天天氣會變,所以我可以知道妳會在北京開會。如果明天天氣不好,我可以實時提醒妳是否把機票換成火車票。這就是電流測量的概念。知道未來的壹些不確定性,反過來有助於妳解決不確定性。

個人健康管理,目標是三個月瘦五斤。據此可以推斷出每天該減多少,吃多少,實時調整自己的健康管理計劃。

最後,把壹些東西放在壹起,妳就可以建立壹個所謂的數字生活助手,管理妳生活的方方面面,為妳提供最好的體驗。

為什麽反復強調原位測量的重要性,大數據的應用有很大優勢?以前大數據經常提到這壹點,所謂的三V或者四V,但是通常大家討論大數據的時候,這個V往往是速度,可以快速處理海量數據。當妳知道剛剛過去的和即將到來的未來,另外,大數據的相對優勢對於短尺度的應用有特殊優勢,對於長尺度的應用沒有明顯優勢。

從長遠來看,我可以說我也不需要大數據,用小數據就能成功。但是短尺度預測,我說不準大家今晚晚飯吃什麽。大數據往往知道這壹點,因為它知道妳中午吃了什麽,妳從哪裏來,妳喜歡吃什麽,妳現在在哪裏,周圍有什麽餐廳,往往妳可以通過這個推斷出妳想吃什麽,妳什麽時候吃午飯,身高體重,妳什麽時候會餓。我們可以往後推,做壹系列的介紹。這是大數據非常大的優勢,在商業中要特別註意。通過大數據用戶畫像和細節場景建模,挖掘和利用行為慣性。這是提升大數據價值、揚長避短的發展新趨勢。希望大家多多指正和交流。謝謝妳

以上是邊肖為您分享的關於大數據商業建模從預測到“現場測試”新發展的相關內容。更多信息可以關註全球常春藤分享更多幹貨。

  • 上一篇:什麽是電競行業?
  • 下一篇:企業的會計對象包括哪些?
  • copyright 2024吉日网官网