JSON

Hadoop技术博文的文章列表,第23页(2)

字号+ 作者:H5之家 来源:H5之家 2017-05-13 16:03 我要评论( )

本文是面向Spark初学者,有Spark有比较深入的理解同学可以忽略。 前言 很多初学者其实对Spark的编程模式还是RDD这个概念理解不到位,就会产生一些误解。 比如,很多时候我们常常以为一个文件是会被完整读入到内存,

   本文是面向Spark初学者,有Spark有比较深入的理解同学可以忽略。 前言 很多初学者其实对Spark的编程模式还是RDD这个概念理解不到位,就会产生一些误解。 比如,很多时候我们常常以为一个文件是会被完整读入到内存,然后做各种变换,这很可能是受两个概念的误导:1、RDD的定义,RDD是一个分布式的不可变数据集合;2、Spark 是一个内存处理引擎 如果你没有主动对RDD进行Cache/P

READ MORE

Spark On Yarn 如何提高CPU利用率

Spark On Yarn 如何提高CPU利用率

问题描述: Spark on Yarn是利用yarn进行资源调度,这两天我写的一个程序处理大概100W行文本,文本格式是txt,数据大小为50M左右。我将Scala写的代码打包扔到集群上执行,这么点数据量都需要执行3个小时,都说Spark是大数据处理的利器,但是哪里出问题了呢?带着这个问题,我查看了4个Slave节点(24核,60G内存)的CPU利用率如下图: 很明显,Job没有充分利用CPU。

READ MORE

自从相关工具创建以来,我们一直通过对海量的随机数据执行排序来测试MapReduce。这种方式很受欢迎,因为生成任意数量的数据非常简单,想要验证输出结果是否正确也很简单。 尽管最开始的MapReduce论文报告的是TeraSort的结果。工程师们将定期对1TB或10TB数据执行排序当作回归测试来做,因为测试时使用的数据量越大,那些不显眼的bug就越容易被发现。然而,当我们进一步扩大数据规模后,真正的

READ MORE

  ApacheSpark是目前非常强大的分布式计算框架。其简单易懂的计算框架使得我们很容易理解。虽然Spark是在操作大数据集上很有优势,但是它仍然需要将数据持久化存储,HDFS是最通用的选择,和Spark结合使用,因为它基于磁盘的特点,导致在实时应用程序中会影响性能(比如在Spark Streaming计算中)。而且Spark内置就不支持事务提交(commit transactions)。

READ MORE

Kafka Producer是如何动态感知Topic分区数变化

可访问Google的Hosts文件 最新可访问Google的Hosts文件[2016年03月30日更新]: 下面文章里面嵌入代码,不能很好地显示,可以点击下面 阅读原文   我们都知道,使用KafkaProducer往Kafka的Broker发送消息的时候,Kafka会根据消息的key计算出这条消息应该发送到哪个分区。默认的

READ MORE

北京第十次Spark meetup会议资料分享

  北京第十次Spark Meetup活动于北京时间2016年03月27日在北京市海淀区丹棱街5号微软亚太研发集团总部大厦1号楼进行。活动内容如下: 1. Spark in TalkingData,阎志涛.TalkingData研发副总裁 2. Spark in GrowingIO,田毅,GrowingIO数据平台工程师,主要分享GrowingIO使用Spark进行数据处理过程中的各种小技巧,包括

READ MORE

Kafka日志删除源码分析

可访问Google的Hosts文件 最新可访问Google的Hosts文件[2016年03月24日更新]: 下面文章里面嵌入代码,不能很好地显示,可以点击下面 阅读原文   昨天Kafka集群磁盘容量达到了90%,于是赶紧将Log的保存时间设置成24小时,但是发现设置完之后Log仍然没有被删除。于是今天特意去看了一下Kafka

READ MORE

大数据工程师技能图谱

下面是StuQ 发布的大数据工程师技能图谱(https://github.com/TeamStuQ/skill-map/blob/master/data/map-BigDataEngineer.md),仅供参考 大数据通用处理平台 Spark Flink Hadoop 分布式存储 HDFS 资源调度 Yarn Mesos 机器学习工具 Mahout Spark Mlib TensorFlow (G

READ MORE

Spark北京Meetup第十次活动[明天举行]

可访问Google的Hosts文件 最新可访问Google的Hosts文件[2016年03月24日更新]:   Spark北京Meetup第十次活动将于北京时间2016年03月27日在北京市海淀区丹棱街5号微软亚太研发集团总部大厦1号楼进行。 会议主题 1.Spark in TalkingData 阎志涛

READ MORE

Kafka集群Leader均衡(Balancing leadership)

hosts 最新可访问Google的Hosts文件[2016年03月24日更新]:   当一个broker停止或者crashes时,所有本来将它作为leader的分区将会把leader转移到其它broker上去。这意味着当这个brok

READ MORE

在shell中如何判断HDFS中的文件目录是否存在

  在Linux文件系统中,我们可以使用下面的Shell脚本判断某个文件是否存在: 1 # 这里的-f参数判断$file是否存在 2 if [ ! -f"$file" ];then 3   echo "文件不存在!" 4 fi 但是我们想判断HDFS上某个文件是否存在咋办呢?别急,Hadoop内置提供了判断某个文件是否存在的命令: 01 [iteblog@ ~]$

READ MORE

机器学习基准训练数据集收集列表

商业敏感数据虽然难以获取,但好在仍有相当多有用数据可公开访问。它们中的不少常用来作为特定机器学习问题的基准测试数据。常见的有以下几个: UCL机器学习知识库 包括近300个不同大小和类型的数据集,可用于分类、回归、聚类和推荐系统任务。数据集列表位于: Amazon AWS公开数据集 包含的通常是大型数据集,可通过Amazon S3访问。这

READ MORE

设置Hadoop用户以便访问任何HDFS文件

  Hadoop分布式文件系统实现了一个和POSIX系统类似的文件和目录的权限模型。每个文件和目录有一个所有者(owner)和一个组(group)。文件或目录对其所有者、同组的其他用户以及所有其他用户分别有着不同的权限。对文件而言,当读取这个文件时需要有r权限,当写入或者追加到文件时需要有w权限。对目录而言,当列出目录内容时需要具有r权限,当新建或删除子文件或子目录时需要有w权限,当访问目录的子节

READ MORE

浅谈Storm流式处理框架

浅谈Storm流式处理框架

 

1.本站遵循行业规范,任何转载的稿件都会明确标注作者和来源;2.本站的原创文章,请转载时务必注明文章作者和来源,不尊重原创的行为我们将追究责任;3.作者投稿可能会经我们编辑修改或补充。

相关文章
网友点评
o