Hadoop Summit 2016會場回顧(二)
2016-04-20 16:03:55 來源:李揚 評論:0 點擊:
2016年4月13日,都柏林的Liffey河畔,Hadoop Summit 2016在Convention會展中心盛大開幕。大會主要議程歷時2天,有100多場演講,與會者超過1400人。主要內容包括Apache Committer洞察、數據科學、運營管理、開發技術、數據商務、物聯網、Hadoop未來幾大系列。本文就數據科學、數據商務、物聯網這三方面的一些內容做一個簡單回顧。
It's Not the Size of Your Cluster, It's How You Use It演講
由Big Fish Games的David Darden和Don Smith帶來。介紹Big Fish從零開始上線Hadoop的過程,尤其是如何獲得業務支持,啟動龐大的技術工程。對那些受困于大數據項目啟動成本的聽眾很有啟發。在Big Fish,Hadoop集群主要用于入口分析、用戶行為探索、以及分流計算壓力。如何獲得初始投資一直是個大問題。經驗是保持良好溝通,明確地告知用戶技術能做到什么(不能做到什么),然后等待,直到大量業務需求積累,推動技術項目啟動。盡量用業務項目預算來覆蓋技術基礎設施投資。專注關鍵業務,高速迭代開發,盡早展示商業價值,獲得用戶認可從而推動下一輪投資。另外試圖預測外來是行不通的,Hadoop技術的發展常常快于公司的計劃,試圖滿足所有的用戶需求也是不可能的,目前還沒有能搞定一切需求的萬能大數據技術。
MLLeap: Or How to Productionize Data Science Workflows using Spark演講
由TrueCar的Mikhail Semeniuk和Hollin Wilkins帶來。MLeap的關鍵特性是能在Spark上訓練機器學習模型,但又沒有對Spark API的依賴,做到了模型和運行庫的輕量化,能在物聯網的各種微小設備上運行。MLeap包括核心、運行庫、Spark集成和序列化幾個部分。核心包含線性代數、特征提取、線性回歸、分類器等通用工具。運行庫包含LeapFrame(類似DataFrame)和MLeap Transformer。MLeap Transformer(非常類似Spark Transformer,有一對一的關系)用核心提供的類庫轉換LeapFrame,完成訓練。Spark集成提供從Spark Transformer到MLeap Transformer的方便轉換。序列化相當靈活,支持JSON或者Protobuf。提供了一個測試報告,顯示MLeap Transform比Spark Transform快1000倍。這個比較有明顯的不公平,因為逐條記錄運行,Spark Transform對每一條記錄都會重復一個初始化的過程,好比每個微批次都只有一條記錄。當場演示了從簡單的模型訓練到部署的全過程,訓練后的模型可以方便的發布在MLeap API Rest Server上使用。未來工作包括核心類庫向Spark全面靠攏,統一API,支持所有的Spark Transformer,支持Python/R的接口,以及部署在非JVM的嵌入式設備運行。
Hadoop and Friends as Key Enabler of the IoE – Continental's Dynamic eHorizon演講
來自Dr. Thomas Beer, Continental Automotive。這是非常有趣的一個大數據、機器學習和汽車一體的應用。Thomas博士介紹了他們的Learning Map原型,利用每一輛汽車作路況信息采集,匯總到云端做機器學習,最后匯總生成精確的路況地圖發送回每一輛汽車,從而實現自動駕駛。數據采集從每輛汽車開始,采集的數據不是原始圖片,而是經過簡單特征提取和加工的數據包,每條采集的信息大約100KB左右,通過安全網關送到云端。云端的數據導入用Storm和Kafka完成,數據驗證和清洗用Spark,結果數據倉庫保存為Hadoop Sequence文件。地圖學習運行在Spark上,暫時每天執行兩次,生成的地圖保存在Amazon S3,再通過安全網關發還給每輛汽車。基礎架構方面,現在原型系統主要是在Amazon上自行搭建的Hadoop,正在考慮向PaaS過度,比如使用Elastic MapReduce執行機器學習任務,將大大減少機器上線時間從而節省成本。
Hadoop and Other Animals演講
來自Matthew Aslett, 451 Research。演講從到底什么是Hadoop說起,有狹義和廣義兩種理解。狹義指Apache Hadoop開源項目本身,由HDFS、YARN、MapReduce三部分組成的核心。而廣義來說,Hadoop生態系統不僅僅是那只黃色的小象,而是以它為中心的整個動物園!Hadoop生態系統經過多年的發展,儼然已經成為大數據平臺的事實標準,被世界范圍內幾乎所有的高科技公司一致采用(Google大概是唯一的例外)。其底層由HDFS和YARN組成集群操作系統,之上有如MapReduce和Spark的運算框架,有如HBase和Phoenix的數據管理,有如Zookeeper和Oozie的協作模塊,有如Hive和Kylin的數據分析,有如Storm和Spark Streaming的流式處理,有如Mahout和Spark ML的機器學習,有如Ranger和Eagle的安全監控等等。其覆蓋大數據從采集到存儲,從運算到分析,從安全到監控,無所不包,無所不有。如此強大的生態系統,已經完成了對大數據技術的事實壟斷。與其從功能上來細分Hadoop的各種模塊(如核心、流處理、數據庫、分析工具等等),倒不如從用戶角度來看整個Hadoop家族能提供什么樣的解決方案,也許是個更好的方法。
作者介紹:李揚,Kyligence聯合創始人兼CTO,Apache Kylin聯合創建者及項目管理委員會成員(PMC), 主創團隊架構師和技術負責人,專注于大數據分析,并行計算,數據索引,關系數學,近似算法,壓縮算法等前沿技術。曾任eBay全球分析基礎架構部大數據資深架構師、IBM InfoSphere BigInsights的技術負責人,負責Hadoop開源產品架構,“杰出技術貢獻獎”的獲獎者、摩根士丹利副總裁,負責全球監管報表基礎架構。
相關熱詞搜索:Hadoop Summit 2016 part2 數據科學 文化 & 方法 架構 & 設計 語言 & 開發 Hadoop 大數據 架構 數據庫
