Cloudera Hadoop 平臺管理調優;
mapreduce編程,離線數據清洗,過濾的處理;
sparkSQL,HBase,Hive等組件;
擅長的語言java,scala,pytho" />
大數據系統架構;
Cloudera Hadoop 平臺管理調優;
mapreduce編程,離線數據清洗,過濾的處理;
sparkSQL,HBase,Hive等組件;
擅長的語言java,scala,python
利用scrapy爬取互聯網數據
光大銀行準實時KPI數據處理平臺:
簡介:針對業務關注的,時效性要求超越T+1的報表需求,如關鍵時點的核心存款、流動性報表等,實現報表數據的準實時計算
IDE:idea
應用語言:Java
測試環境:Cloudera Hadoop
應用技術:SparkStreaming+HDFS+kafka+flume+Hbase+hive+zookeeper
數據的處理流程:需要把業務數據抽取成文件,通過Flume把數據文件傳給Kafka進行處理,然后被SparkStreaming的消費端消費,經過處理后保存入Hbase中