大数据处理从流程上来讲,首先第一步要解决的是数据的搜集和存储的问题。这部分分为三个主要步骤:
数据采集=》数据清洗=》数据存储
主要解决大数据的前期功能,即数据来源方面问题,首选需要将数据通过各种途径采集和归集到大数据平台系统上,数据量规模越大,后期分析和挖掘越具有统计意义,但是这也带来一个问题,就是超大规模的数据量,早已不是TB,PB所能表示,所以对于数据存储的设备的压力呈指数级增长,所以分布式存储的需求应运而生。这部分主要就这几个方面,精选相关技术学习的书单,以期让大家在从整体上学习大数据技术和体系概念后,可以深度到每个技术模块和环节,找到最佳的解决方案。