三分鐘教你挖掘出9個億的5位數(shù)QQ號,QQ大數(shù)據(jù)的神秘技能

2016-01-15 14:31:00 來源:36大數(shù)據(jù) 作者:佚名 人氣: 次閱讀 273 條評論

幾天前,一個朋友來聊天,表示很羨慕我的6位QQ號,我說有啥好羨慕的,還有那么多5位號呢!他感嘆道:“一個5位號現(xiàn)在值好幾萬,早知道當(dāng)初注冊個百八十個的話,現(xiàn)在不就發(fā)財...

幾天前,一個朋友來聊天,表示很羨慕我的6位QQ號,我說有啥好羨慕的,還有那么多5位號呢! 他感嘆道:“一個5位號現(xiàn)在值好幾萬,早知道當(dāng)初注冊個百八十個的話,現(xiàn)在不就發(fā)財了… ”!

自我介紹下。傳說中的“網(wǎng)絡(luò)抓取鐵手追命”,就是本人了。 主要擅長各種互聯(lián)網(wǎng)數(shù)據(jù)抓取挖掘,通曉各種數(shù)據(jù)源采集規(guī)則,互聯(lián)網(wǎng)江湖人士也,現(xiàn)和你分享一下如何一夜間挖價值9個億的5位數(shù)QQ號用戶!

  9萬條5位數(shù)QQ用戶的詳細(xì)數(shù)據(jù)

QQ號,昵稱,空間名稱,性別,年齡,生日,所在國家,省份,城市,感情狀況,職業(yè)(其中QQ空間公開的一共有23283條,占全部9萬個號的25.87%)

你還不知道的騰訊用戶真相:

在價值9個億的5位數(shù)QQ號用戶中出現(xiàn)了神秘人物!

QQ的“金粉世家”主要聚集在哪些地方?

5位數(shù)QQ用戶如何影響到國家的GDP?

75后85前用戶,至今未婚的QQ女們要腫么辦?

IT腐男宅女,商場精英,工程師,退休老大爺最愛混跡QQ圈!

到目前為止,沒人知道“天若晴”到底是哪位大佬!

天若晴

  QQ的“金粉世家”主要聚集在哪些地方?

大數(shù)據(jù)分析常用的熱力圖如下,顏色越深的是代表人數(shù)越多,可以看出:人群最集中的是長三角,珠三角和北京。遼寧,湖南和四川瞧著也是略有小成。

爬了3000萬QQ用戶數(shù)據(jù),挖出了花千骨趙麗穎的QQ號

大數(shù)據(jù)真可怕!技術(shù)帝教利用整個QQ網(wǎng)絡(luò),查出一個QQ號碼的所有相關(guān)信息

QQ金粉世家

再來看看省市的TOP10,前4沒有黑馬,主要就是國內(nèi)熱點聚集地區(qū);稍感意外的是城市的第5名是我大東北的哈爾濱,而黑龍江也排在省的第7名。

省市TOP

  5位數(shù)QQ用戶如何影響到國家的GDP?

我為什么說稍感意外呢,因為前面也說了5位QQ號這個東西某種意義上也算一種財富象征,不管是虛擬財富還是現(xiàn)實財富;而我大黑龍江雖然白山黑水,地大物博,畢竟GDP在全國還是排在后面的,現(xiàn)實財富會差一些,用一張圖來對比下:

5位數(shù)QQ用戶對國家GDP影響

一對比就可以看出來,黑龍江在右圖(QQ)的顏色明顯深過左邊(GDP)。咱來算筆賬:黑龍江2014年GDP是1.5萬個億,公開的5位QQ號有493個;而山東省GDP將近6萬億,5位QQ號卻只有266個?可見老山東起碼在互聯(lián)網(wǎng)+的發(fā)展上,落后于黑龍江一籌。

用鄧通發(fā)明的指標(biāo)GQ率(GDP除以5位QQ號人數(shù))來計算,老山東高達(dá)223.4,而后幾名內(nèi)蒙古,山西,河北也都是重度霧霾的難兄難弟,互聯(lián)網(wǎng)+的創(chuàng)新不夠,急需經(jīng)濟(jì)轉(zhuǎn)型啊。

至于東北為何5位QQ這么多(摸頭)大概因為俺們東北人喜歡嘮嗑吧?這個問題還是等磚家作答吧。

  75后85前用戶,至今未婚的QQ女們要腫么辦?

從結(jié)果可以看到,男女分布為60.2和23.2%,其中女生透露自己年齡的不多,只占15%左右;這也是人之常情:)。36大數(shù)據(jù)表示, 從年齡結(jié)構(gòu)看,75后85前占大部分,確實,QQ大概是98,99年發(fā)布的(那時還叫OICQ呢),那時候90后還都在吃奶玩凱蒂貓呢。女生中70后占比最高,并且未婚比已婚的比例高。

70-85年QQ用戶

從情感方面的分布圖,未婚比已婚的比例高。這個話題,我表示比較有興趣:70后的土豪Q們大部分時間都在忙事業(yè)了,Q男的不著急生娃,Q女不著急婚嫁。大齡女可以叫“剩女”,大齡男不能喊“剩男”,那得叫成熟的“黃金單身”!這讓至今未婚的Q女們腫么辦? 可以考慮學(xué)學(xué)小龍女,也許能遇上一段世紀(jì)佳緣,百合一生,或者干脆將單身進(jìn)行到底,做堅強(qiáng)的“黃金剩斗士”!!!

70-85年QQ用戶情感狀態(tài)

  原來IT腐男宅女,商界精英,工程師,退休老大爺最愛混跡QQ圈!

用戶職業(yè)方面,QQ好像可以隨便,因此職業(yè)也是五花八門,挑了前十幾個最多的做一副云圖。另外標(biāo)識退休的一部分估計早已財務(wù)自由。計算機(jī)及互聯(lián)網(wǎng)行業(yè)的居多,很好理解。早期QQ號碼隨便申請,沒人知道他的價值,同時安全性也非常差,主要的上網(wǎng)渠道–網(wǎng)吧中有各種后門及盜號木馬神馬的。所以很大一部分靚號都被各類計算機(jī)大神“收集”起來。所以最終形成如下現(xiàn)在的分類圖:

分布圖

  后記:擁抱互聯(lián)網(wǎng)數(shù)據(jù)

很有感悟“ 互聯(lián)網(wǎng)上沒有垃圾信息,只有放錯位置的資源”。關(guān)于WEB數(shù)據(jù)挖掘方面其實是很值得研究的。以上的數(shù)據(jù)分享案例僅從5個維度做了對應(yīng)分析,其實根據(jù)數(shù)據(jù)采集的維度,是可以做更廣泛分析的。如從騰訊開放的QQ群、QQ會員、QQ拼音及QQ秀等多個公開數(shù)據(jù)源渠道挖掘收集到非常有價值的數(shù)據(jù)。就像百度中有很多你需要的開放數(shù)據(jù),關(guān)鍵看你怎么去挖掘收集。

多年前,數(shù)據(jù)采集工作是需要程序員自己寫各種爬蟲程序,同時需要搞定多線程、數(shù)據(jù)庫、高匿IP等多個技術(shù)門檻才能比較隨心所欲地做到,整個過程是非常繁瑣的。現(xiàn)在好多了,隨著互聯(lián)網(wǎng)云存儲計算、大數(shù)據(jù)相關(guān)云技術(shù)的成熟,使用支持云采集的SaaS工具化交易平臺,一方面自己可以使用工具輕而易舉收集到想要你的數(shù)據(jù),另一方面也可以直接發(fā)個需求讓其他開發(fā)者或供應(yīng)方定制給你。自己就可以聚焦在擅長的數(shù)據(jù)分析方面了。

言歸正傳。以上數(shù)據(jù)源由托管在發(fā)源地數(shù)據(jù)交易平臺,有興趣的朋友可以去這個鏈接:http://www.finndy.com/midycp.php?action=robots&op=viewrobot&robotid=1123看看(需要登錄),2萬多原始數(shù)據(jù)都在里面。

源數(shù)據(jù)

您可能感興趣的文章

    無相關(guān)信息

相關(guān)文章