騰訊,大數據是一碗白飯
導語:
兩千多年前,畢達哥拉斯學派提出來一個概念,既“萬物皆數”,雖然從今天看當時的發現過程,不免有其偏頗之處。但是它揭示了,萬物之間的關係,都可以歸結爲數與數之間的關係。
幾乎在同時代,老子也有類似觀點,如《道德經》所云:道生一,一生二,二生三,三生萬物。內中的含義是,事物的變遷規律,是一個數據從少到多,從簡單到複雜,再從複雜歸於簡單的一個完整過程。
健康名人堂/FAPA藥事外交成功 政府應投入更多資源
這說明,人類很早就有了樸素的數據驅動思維。
只不過,在電子計算機和互聯網發展起來之前,人類從來都沒有辦法擁有足夠的數據,去發現和掌握這個世界的運作規律。
預判主人的預判?角落偷窺愛犬比熊反被鎖定 馬麻笑:視力至少4.0
但今天一切都不一樣了,我們將一去不返的進入一個智能化的時代,而大數據是一切的基礎。
1、歷史的互相選擇
2023精品運動風涼鞋:Chloé X Teva聯名、Dior、Gucci…5雙夏日涼鞋推薦
你可能很難想象,僅僅在幾十年前,最早的計算機存儲器,是由工程師莫齊利二戰期間爲軍用雷達開發的一種存儲裝置,名爲水銀延遲線。其通過物理方法進行存儲,而且需不斷刷新,所以內存極小,大概只有幾十比特。
而今天,你在京東購買一塊300元左右的SSD硬盤,就可以儲存8796093022240 比特的數據。
上海副市长:上海自贸区新设片区相当大 将很快披露
催生數據存儲成本極速下降的,是人類對數據存儲、處理、使用需求的極度攀升。
雖然個人計算機在上世紀80年代就開始普及了,互聯網在上世紀60年代就出現了軍用版本,但真正帶來數據井噴的,是隻有十多年曆史的移動互聯網。
拂尘老道 小说
[多图]宇航员Jeff Williams在空间站的经历
移動互聯網徹底解決了“在線”和“不在線”的問題,當智能手機、物聯網設備開始大普及後,每個設備都永遠實時在線,它們隨時產生海量數據,而且更新速度極快。
然而,就好像海水需要專門的設施才能提煉出合格的食用鹽,數據也並非自動就產生價值,如果沒有專業化處理並高效有序地存、管、用,數據就不會發揮價值,所謂的“數據資產”隨着時間的流逝逐漸成爲數據垃圾,成爲社會和企業的負擔。
2009年1月7日,中國移動正式向社會提供3G服務,被認爲是中國移動互聯網的元年;無獨有偶,騰訊也是在2009、2010年相繼受到了極大的震撼,從此快速走上了自主創新的道路。
但是從需要大數據能力和練成大數據能力,並非一步之遙。但騰訊的優勢在於,大數據平臺作爲騰訊底層的基礎設施之一,每天必須處理千萬級規模的離線數據任務及百萬億級別的實時計算,否則無法滿足業務每天數以億計的數據分析計算的需求,爲了支撐這樣的數據總量,騰訊大數據平臺算力規模已經突破千萬核,騰訊的大數據技術也在這樣極限壓力下的打壓磨練中,逐漸形成了自己的產品格局和技術路線。
2、TDW的三重門
圣天尊者 小说
其實,真正讓騰訊有啓動大數據自研這個想法的,還不是微信,而是一款小遊戲。
2008年底到2009年上半年,QQ空間引入了“開心農場”業務,開啓了瘋狂增長的模式。從業務數據來看,垂直的增長曲線讓業務人員樂得合不攏嘴,技術人員看着曲線卻笑不出來。如何能快速構建全新的數據倉庫,滿足業務快速增長的計算需求,他們在努力尋找答案。
进博会为“一带一路”共建国家提供重要平台
也幸虧是2008年底這個時點,觸發了騰訊去從底層升級自己的數據體系。
否則,騰訊的大數據可能就接不住2011-2012年井噴的微信崛起,而如果沒有微信的崛起,也就沒有騰訊發展歷史上的第二個黃金十年。當雷軍在2年後被米聊的數據問題勸退時,騰訊卻因爲數據體系能夠頂住(此刻只能說是頂住,還算不上閒庭信步)得以繼續發展。
如果單純從分佈式系統對算力的需求而言,百度可能是最高的。但從規模上來說,騰訊的數據計算量是最大的。這一點至關重要,正是因爲基於未來數據還會幾何級數的增長這個前提,騰訊的大數據自研,必須選擇一個兼具效果和成本的路線,而如果另起爐竈,似乎就只有開源這條路了。
萬幸的是,當時的學術界裡,正好存在一個相對較優的選擇。
点评宫崎骏 押井守批功力二流
具體的背景是,由於HDFS和MapReduce在Nutch引擎中有着良好的應用,所以它們於2006年2月被分離出來,成爲一套完整而獨立的軟件,並被命名爲Hadoop。到了2008年年初,Hadoop已成爲Apache的頂級項目,並被多數很多大型互聯網公司使用,比如雅虎。
除此之外,HDFS有高容錯性的特點,並且天生是設計用來部署在低廉的(low-cost)硬件上,這兩點令當時的騰訊垂涎欲滴。
而且,它具有強大的、可靠的性能,因爲它假設計算元素和存儲會失敗,因此會維護多個工作數據副本,確保能夠針對失敗的節點重新分佈處理,它還是以並行的、可伸縮的方式工作,能夠處理 PB 級數據。
當然,像騰訊這樣體量的巨輪掉頭,是非常不容易的。所以和許多偉大的工程一樣,Hadoop在 2008 年底開始啓動時,也就是從不同部⻔抽調了幾個人,申請了一間會議室來封閉開發。這些人從 Hadoop社區里拉了一個分支版本,第一個集羣的規模只有 30 多個節點。
甘肃展团1500种“甘味”农产品亮相农交会
後來成爲騰訊雲副總裁的劉煜宏對筆者回憶說:“要說我們當時就規劃好了一二三四代的產品,那是假話。我們技術的演進都是跟着業務的需求一點點往前走的。
部立台北醫院宣布幫「全台」幼兒園童尿檢 急稱誤植僅新北可驗
好幾個參加TDW1.0版本的程序員後來都回憶,其實,他們內心很掙扎,2008年的中國程序員還考慮不到什麼“卡脖子”的問題,只是每個程序員都有一個夢想——我爲什麼不能原創一個自己的大數據,而要用社區上的開源產品呢?
但實話實說,當時騰訊的技術底子,還只能“拿來主義”。即使是“拿來主義”,也是很不容易的。因爲當時騰訊主流的業務收入是電信增值,所以這幫人都是用C語言寫計費系統的,而當時方興未艾的大數據開源的主流是JAVA,所以也只好臨時“自廢武功”,從頭練起。
如果你在大型科技企業工作過,你會發現一個有趣的現象,那就是越牛逼的部門,就越不願意遷移。因爲人家原有的業務已經優化到了極致,遷移既會增加風險,也可能造成性能削減。所以每一次平臺級的遷移,更主要的工作,往往是做業務負責人的工作,其次纔是技術工作。
TDW 0.1 版本就吃了這個虧,閉門修煉一年後,他們自己覺得,拿出的新版本,比那個從社區直接拿來的開源版本,在集羣的性能、可靠性都有了質的變化,特別是對於HDFS的優化,讓他們自信滿滿。
中职》味全龙封王! 回忆24年前三连霸功臣「3人在阵中」
但是第一炮就打啞了,那時騰訊內部由於沒有統一的開發框架,每個業務團隊又都有自己的開發習慣和開發語言,讓開發協作出現了許多問題。
海南省林业局党组成员、副局长,海南热带雨林国家公园管理局副局长李开文涉嫌严重违纪违法接受纪律审查和监察调查
幸好這時有一大一小兩件事,救了TDW。
父親節優惠 一銀祭出88天4.88%美元優利定存高利
大事,是馬化騰從2011年開始推動騰訊的內部開源。內部開源的方式,讓各部門可以相對自主選擇較優的技術棧,這樣就讓無數門派漸漸的聚合成若干個主流門派,雖然還不是一統江湖,但整合的難度低了很多。
“小事”就是騰訊大數據這幫人的自強不息,他們對 Hive進行了大手術,按照騰訊業務的組織架構和權限管理進行了適配,特別是進行了語法兼容。最後的結果,雖然沒有達到“讓業務一行代碼都不需要改動就能順利遷移”,但也空前的降低了複雜性。
於是,厚重的部門牆開始鬆動了,從藍鑽業務開始,黃鑽、紅鑽、QQ 會員等業務團隊,一個業務一個業務地逐步遷移……一直到2013年,騰訊使用的基於某傳統數據庫構建的數據倉庫全部下線,一個新的時代開始了。
其實,騰訊大數據的三重進階,也不是完全貫序進行的,而存在一定的並行關係。
例如,第⼆代TDW平臺,其中的一個核心能力的提升,就是有了實時採集系統,同時對底層實時計算引擎Storm使用Java重寫。
某種意義上,如果說第一代完全是自下而上推動的話,第二代則包含有某種自上而下的推力。
我們談到,騰訊這種數字原生的企業,天然具有某種數據驅動的思維。而“數據驅動”不僅意味着依靠數據來做決策,也取決於數據的提供效率。
倍加洁:拟以2.13亿元取得善恩康52%股权
舉例說,對於馬化騰來說,在一小時、一天和幾天的時間裡得到自己需要的數據,對經營決策產生的結果,是完全不一樣的。
騰訊很早就有數據彙總的意識,一位資深員工回憶,大概在2006、2007年左右的時候,馬化騰和劉熾平這個層面,就可以拿到當天的一些主要數據,形式主要是用郵件發送的報表。
但是到了2011年——2012年之後,如我們在開篇中講到的,智能手機開始迅速發展,手遊業務快速增長開始手機快速發展的時候,老闆的要求也隨之變化。一個老員工印象最深刻的是,當時,天天酷跑上了一個新版本,僅僅半個小時後,公司最高層就來要數據,而當時的系統完全無法支持這種需求。
另外,作爲大數據的源點業務,廣告系統也需要實時反饋,因爲互聯網廣告是一個非常複雜的體系構成的,要在這個複雜的體系下,實現實時分析、實時預警、實時營銷的全套實時數據提升,進而幫助商家和運營人員做好業務增長,這種數據驅動能力,在行業裡能做到的屈指可數——當時騰訊就遇到了挑戰。
爲了解決這個問題,大數據團隊可以說是操碎了心——這並不是一個純技術問題,而是一個經濟學問題,既“彈性運力”問題。
台股秀大戲 雙行情起跑
骑着恐龙在末世 小说
據說,當年程維和柳青因爲早晚高峰的加價被網友痛罵,他們無奈之下去只好去請教經濟學家周其仁。周其仁聽了以後說,這其實是一個經典命題,也就是說,凡是波峰波谷差距特別大的運輸企業,一定要設置大量靈活的彈性運力,來削峰填谷。
騰訊大數據的團隊發現,其實很多問題,是習慣問題而不是技術問題。比如很多部門喜歡在晚上傳輸數據,原因是一般人認爲晚上的帶寬相對寬鬆。但所有的人都這麼認爲,反而使得一到晚上,帶寬就特別滿,就需要調集很多臨時的帶寬,造成成本高而效率不高。
另外,以前的團隊背對背研發,導致數據匯聚的中間環節太多,於是當時就做了一個實時的採集平臺,直接從源頭裡面抽取數據。這樣,所有的帶寬因爲減少環節和分攤在不同的時間,不但速度提升了,而且實時採集也達到了秒級,騰訊總辦終於可以隨時隨地看到自己要的數據了,這是2014年。
而時間到了2015年,第三代平臺醞釀待發,這時候一個新命題出現了。
周小川:贸易战恐致多个国家货币竞争性贬值
3、大數據是一碗白飯
公衆對AI的認知,往往是開始於2016年的AlphaGo戰勝人類棋手。
但對於中國的AI前沿企業來說,2015年是一個關鍵年份,此時的百度,已經擁有了硅谷人工智能實驗室(SVAIL)。
中研院院士楊泮池偕六大學會 呼籲設置「國家級肺癌辦公室」
而對於蔣傑來說,他的目標在於,2015年開始的第三代TDW,除了日趨成熟的通用大數據計算外,開始支持機器學習、深度學習等AI場景,Big Data與AI在平臺層面逐步融合。
花西子跌出双十一彩妆预售榜前20
而且,除了繼續和開源社區進行交流和回饋外,這一代平臺也將圓夢自研。
筆者曾經和蔣傑討論過一個問題,就是這些年大家講的ABC合流(人工智能+大數據+雲計算),到底是一個真命題,還是一個僞命題。
蔣傑則毫不猶豫的告訴我,這不但是一個真命題,而也正是TDW在第三代自研實踐中印證過的命題,更是騰訊正在延展的命題。
他說:“我是這麼來看的,數據需要存儲、要有收集、還有很多分析的訴求。如果沒有大數據的話,你快速的計算能力搭建在哪裡呢?你分析的、訓練的數據來源在哪裡呢?所以我覺得對於ABC來說,大數據是每天要吃的白米飯,要想在上面加上魚和肉,就可以通過AI和Cloud去創造價值,但一切的baseline都是大數據,這也是我們這麼多年走過來的一條路”。
他繼續強調“白米飯”的價值——我們在上馬大模型以後,能夠帶來廣告GMV 20%的提升。很多人的眼光就始終停留在大模型上,但大模型只是肉,如果現在我們數據倉庫的數據不是已經達到了EB級的話,大模型也很難達到這樣的能力。
蔣傑提醒筆者注意一個事實——在以前,大數據跟雲是分開的兩個體系,雲專門有自己的雲的集羣,大數據有專門大數據的集羣。而現在,基本上在大數據體系裡面做到了實時跟離線的統一,變成了實時的湖倉一體的體系,這是騰訊這兩年一直在追求的一個模式,也是最大的進步之一。
再簡而言之,騰訊大數據的第三階段,首先還是數據加工,是先有大數據的處理(這裡面有離線特徵,也有實時特徵),處理好的數據才能進入大模型進行訓練,訓練完了沉澱成能力再放到線上做推理,而和以前不同的,整個的過程已經充分的雲原生了,這就是ABC的合流。
在這個過程中,一條主線是我們反覆講述的,那就是以Hadoop生態爲核心的大數據的演進,從Hadoop開始到Spark到Flink,這種體系的發展,代表了離線計算體系逐步的終結和改變,現在,騰訊大數據是一個一體化的體系,已經沒有離線和在線之分,而是湖倉一體的,SuperSQL來實現語法的標準化,對用戶來說無需關心底層,一套標準的界面就能解決問題。
更重要的是,在這個階段裡,AI的能力形成了——騰訊聯合北大自研了AI框架Angel,這是非常難的一件事情。雖然全世界有無數的深度學習框架,但成爲主流的只有TensorFlow、Pytorch等少數幾個。
自從2019年的國際地緣動盪,不僅中國的企業受到了各種各樣的影響,GitHub、Node、React等開源平臺針對俄羅斯開發者的嚴格限制,也給不少企業的產品開發、商業運作蒙上了一層不確定的陰影。
邪帝強勢寵:霸上毒醫小狂後
在這樣的語境下,軟件的自主可控再度成爲輿論場上的焦點,特別是作爲AI基礎技術的深度學習框架,更是聚焦了無數開發者的關切。深度學習框架屬於AI的底層技術創新,一旦這些技術被套上枷鎖,千行百業的智能化轉型將被制約,甚至會影響國內第四次工業革命的進程。
而Angel的誕生價值,不僅僅是大模型、廣告業務增長這些光鮮的事實,它對於整個中國加速進入智能化時代,同樣是重要的——因爲中國的大部分中小企業並不具備專業的AI算法開發能力,開發定製 AI 模型絕不是一件容易的事,而Angel可以通過大模型泛化出各種能力,提供給千行百業使用。
另一方面,騰訊貢獻的不僅僅是技術,一般人較少看到的,是作爲開源的受益者,騰訊大數據對於開源社區的回饋,早在 2014 年,騰訊就把自己的 Hive 版本進行開源,它對 Oracle 語法兼容等特性廣受歡迎;高性能分佈式機器學習平臺 Angel 在2017 年就開源了,2018 年還進一步捐獻給 Linux 基金會;2019 年,騰訊一口氣開源了四大平臺:實時數據採集平臺 TubeMQ(捐獻給 Apache 社區)、資源管理平臺 TKEStack、分佈式數據庫 TBase 以及騰訊版本的 OpenJDK# —KonJDK。2022年6月,騰訊捐獻的一站式大數據集成框架Apache InLong,已從Apache孵化器畢業成爲社區頂級項目。
這是一個從受惠者到施惠者完整的十多年,它鏈接起了2010年之後騰訊在自主研發上的投入,到2018年的科技向善(Tech for Good)這個多方共建的研究、對話與行動平臺。前者是後者能力的保證,後者是前者成果的體現。
中國的信息化建設從無到有的工作是三十多年前開始的,那時候,我們基本沒有選擇——在實踐案例和實施對標方向上,我們是以西方特別是美國的信息化實踐爲師的;在軟件和工具體系上,我們同樣也沒有太多的選擇,所謂的IOE化就是從那個時代開始。
騰訊的技術發育則是近十幾年的事情,它提醒我們,一個依賴別人的時代結束了,一個依靠自己的時代,必將也必須開始了。科技創新沒有終點,中國已經在ABC領域都成爲全球唯二的創新策源地,面向未來,騰訊大數據爲代表的技術創新,將更多的站在全球技術的前沿,這也意味着可參考、可對標的方向會越來越少,這也要求騰訊爲代表的中國企業,必須更加自立自強,適應從跟隨到引領的轉變,學會自己設定靶標和方向,迎來更多自主創新的成果。