您好,欢迎来到三六零分类信息网!老站,搜索引擎当天收录,欢迎发信息
免费发信息
三六零分类信息网 > 邯郸分类信息网,免费分类信息发布

在邯郸学习大数据去哪里好

2019/12/25 4:35:22发布152次查看

   什么是大数据?
  大数据本质也是数据,但是又有了新的特征,包括数据来源广、数据格式多样化(结构化数据、非结构化数据、excel文件、文本文件等)、数据量大(少也是tb级别的、甚至可能是pb级别)、数据增长速度快等。
  针对以上主要的4个特征我们需要考虑以下问题:
  数据来源广,该如何采集汇总?对应出现了sqoop,cammel,datax等工具。
  数据采集之后,该如何存储?对应出现了gfs,hdfs,tfs等分布式文件存储系统。
  由于数据增长速度快,数据存储就必须可以水平扩展。
  数据存储之后,该如何通过运算转化成一致的格式,该如何运算出自己想要的结果?
  对应的mapreduce这样的分布式运算框架解决了这个问题;但是写mapreduce需要java代码量很大,所以出现了hive,pig等将sql转化成mapreduce的解析引擎;
  普通的mapreduce处理数据只能一批一批地处理,时间延迟太长,为了实现每输入一条数据就能得到结果,于是出现了storm/jstorm这样的低时延的流式计算框架;
  但是如果同时需要批处理和流处理,按照如上就得搭两个集群,hadoop集群(包括hdfs+mapreduce+yarn)和storm集群,不易于管理,所以出现了spark这样的一站式的计算框架,既可以进行批处理,又可以进行流处理(实质上是微批处理)。
  而后lambda架构,kappa架构的出现,又提供了一种业务处理的通用架构。
为了提高工作效率,加快运速度,出现了一些辅助工具:
  ozzie,azkaban:定时任务调度的工具。
  hue,zepplin:图形化任务执行管理,结果查看工具。
  scala语言:编写spark程序的语言,当然也可以选择用python。
  python语言:编写一些脚本时会用到。
  allluxio,kylin等:通过对存储的数据进行预处理,加快运算速度的工具。

邯郸分类信息网,免费分类信息发布

VIP推荐

免费发布信息,免费发布B2B信息网站平台 - 三六零分类信息网 沪ICP备09012988号-2
企业名录