最近爬取了知乎1000萬的用戶數據,耗時壹周。
使用 ElasticSearch + Kibana 實現數據存儲,可視化。
數據爬取時間為 2019年7月 (3-9)日
抓到的數據大部分都是資料不完善,以下分析會過濾掉資料為空的那部分。
涉及到性別:-1:未知,0:女, 1;男
本文思路參考 這裏
可以看到北京上海用戶數量領跑其它城市,所有城市都是男用戶稍占多壹點。出現了深圳,深圳市 還有 廣州,廣州市,因為在知乎的個人資料中,居住地這個選項是手動填寫而不是選擇。
(這裏由於kibana用的不熟,暫時不知道怎麽把合並,歡迎知道的朋友告知)
可以看出互聯網行業壹騎絕塵,領先第二名壹倍;而第二名計算機軟件也是兄弟行業。比較有意思的是以行業劃分的話,有比較多行業女性數量占優(高等教育、臨床醫學、創意藝術、財務、法律、基礎教育、教育、廣播電視、廣告、培訓)。而反觀計算機軟件、電子遊戲、機械設備、電子電器、計算機硬件這些行業男性數量大幅占優。比較意外的是有這麽多人從事電子遊戲行業,超過了很多傳統行業(當然有可能這個職業的人在知乎上比較活躍)。
有了行業分布,我們順便再看看按照職業劃分如何。與參考文章不同的是,現在知乎上學生占比最多,可能是知乎當前目標群體為學生,加大校園推廣力度。這裏我理解是資本入股後的營收壓力,使知乎選擇了這樣的戰略。(另外軟件工程師,前端,程序員和算法工程師那誇張的男女比例是什麽鬼=.=)
可以看到各高校間的差距並不是特別明顯,跟現居城市相對應,北京的清北在前三占據兩個席位。杭州在城市中排第三,浙大的學子功不可沒。比較有意思的是 克萊登大學(“克萊登大學”原本是錢鐘書先生小說《圍城》裏虛構的騙子學校),另外 中國傳媒大學 是前50裏邊唯壹女生數量比男生多的學校。
看完學校,我們最後來看壹下專業分布。計算機相關行業占據絕對優勢,我想到原因有二:近年來市場對計算機相關人才需求巨大;同時計算機相關人員玩知乎占比較大。法學在前排是讓我比較意外的。
看了那麽多各種類型的分布,我們來關註壹些不壹樣的
這裏列出了關註者數量前30的用戶,第壹知乎日報應該是知乎官方推薦的賬號,張佳偉,丁香醫生緊隨其後。劉看山也是知乎官方賬號,關註者數量似乎還在猛漲,從拉取數據到我寫此文幾天時間,關註數量漲了20w。輪子哥驚人的22k+回答數顯得格外活躍(或許是機器人回答的,誰知道呢。另外經統計輪子哥是目前知乎上回答數量最多的)。
再來看壹下被贊的數量最多的有哪些人
可以看到張佳偉,丁香醫生還是前排,輪子哥屈居第三。後面又好多用戶回答數量並不多,同樣收獲了好多贊。看看這裏面有沒有妳關註的人吧~
再來對比壹下哪些高校被贊數量最多。可以看出清北,浙大,復旦,上交,武大等Top N 學校影響力還是比較大的。另外克萊登大學很頑皮的排到的第三。
看了那麽多柱狀圖,搞個餅圖來看壹下被關註者數量分布,看看自己在知乎屬於什麽水平
可以看到大部分知乎用戶是沒人關註的,如果妳擁有壹個以上關註者,那麽恭喜妳打敗了75.37%的知乎用戶。看來還是很多人跟我壹樣,是壹個知乎小透明~
來壹個具體的表格
數據裏邊有個is_active字段,看起來是壹個時間戳。我猜這個字段記錄的是用戶最後壹次登錄時間,就這麽拿來用咯。
這裏從紅色開始,逆時針依次是10天,壹個月,三個月,半年,壹年,兩年,三年以上。
可以看出三個月內活躍用戶大概占比30%,另外有30%用戶近三年沒登錄過了。
最後我們以壹張詞雲結束本文,大夥可以看看自己專業在圖中什麽位置
截止目前抓取了 9433740 條數據。今天7小時抓了不到5k條數據,數據增長已經非常緩慢了。帶寬占用有10M左右,說明還是在不停的爬取,只是爬到的重復率已經很高了。余下的用戶可能在不同的壹片森林裏,與目前爬取數據沒有交集,或者根本就是0關註;也有可能數據接近爬完了。目前程序占了6G內存。今晚再觀察壹下,如果增長速率還是如此緩慢,明天就把它停掉了~
想了解更多爬取心路歷程 請看這篇
這是我第壹次搞數據爬取,不足之處 請各大神多多指導 。另外關於數據分析,各位可以想想更多不同的維度,得更有多有趣的內容。結尾附上壹條抓取的數據樣本。
以上,完...