Hadoop技术博文的文章列表,第23页(2)_H5之家 - 中国HTML5教程资源分享第一站

　　本文是面向Spark初学者，有Spark有比较深入的理解同学可以忽略。前言很多初学者其实对Spark的编程模式还是RDD这个概念理解不到位，就会产生一些误解。比如，很多时候我们常常以为一个文件是会被完整读入到内存，然后做各种变换，这很可能是受两个概念的误导：1、RDD的定义，RDD是一个分布式的不可变数据集合；2、Spark 是一个内存处理引擎如果你没有主动对RDD进行Cache/P

Spark On Yarn 如何提高CPU利用率

问题描述： Spark on Yarn是利用yarn进行资源调度，这两天我写的一个程序处理大概100W行文本，文本格式是txt，数据大小为50M左右。我将Scala写的代码打包扔到集群上执行，这么点数据量都需要执行3个小时，都说Spark是大数据处理的利器，但是哪里出问题了呢？带着这个问题，我查看了4个Slave节点(24核,60G内存)的CPU利用率如下图：很明显，Job没有充分利用CPU。

自从相关工具创建以来，我们一直通过对海量的随机数据执行排序来测试MapReduce。这种方式很受欢迎，因为生成任意数量的数据非常简单，想要验证输出结果是否正确也很简单。尽管最开始的MapReduce论文报告的是TeraSort的结果。工程师们将定期对1TB或10TB数据执行排序当作回归测试来做，因为测试时使用的数据量越大，那些不显眼的bug就越容易被发现。然而，当我们进一步扩大数据规模后，真正的

　　ApacheSpark是目前非常强大的分布式计算框架。其简单易懂的计算框架使得我们很容易理解。虽然Spark是在操作大数据集上很有优势，但是它仍然需要将数据持久化存储，HDFS是最通用的选择，和Spark结合使用，因为它基于磁盘的特点，导致在实时应用程序中会影响性能（比如在Spark Streaming计算中）。而且Spark内置就不支持事务提交(commit transactions)。

Kafka Producer是如何动态感知Topic分区数变化

可访问Google的Hosts文件最新可访问Google的Hosts文件[2016年03月30日更新]: 下面文章里面嵌入代码，不能很好地显示，可以点击下面阅读原文　　我们都知道，使用KafkaProducer往Kafka的Broker发送消息的时候，Kafka会根据消息的key计算出这条消息应该发送到哪个分区。默认的

北京第十次Spark meetup会议资料分享

　　北京第十次Spark Meetup活动于北京时间2016年03月27日在北京市海淀区丹棱街5号微软亚太研发集团总部大厦1号楼进行。活动内容如下： 1. Spark in TalkingData,阎志涛.TalkingData研发副总裁 2. Spark in GrowingIO,田毅,GrowingIO数据平台工程师,主要分享GrowingIO使用Spark进行数据处理过程中的各种小技巧，包括

Kafka日志删除源码分析

可访问Google的Hosts文件最新可访问Google的Hosts文件[2016年03月24日更新]: 下面文章里面嵌入代码，不能很好地显示，可以点击下面阅读原文　　昨天Kafka集群磁盘容量达到了90%，于是赶紧将Log的保存时间设置成24小时，但是发现设置完之后Log仍然没有被删除。于是今天特意去看了一下Kafka

大数据工程师技能图谱

下面是StuQ 发布的大数据工程师技能图谱（https://github.com/TeamStuQ/skill-map/blob/master/data/map-BigDataEngineer.md），仅供参考大数据通用处理平台 Spark Flink Hadoop 分布式存储 HDFS 资源调度 Yarn Mesos 机器学习工具 Mahout Spark Mlib TensorFlow (G

Spark北京Meetup第十次活动[明天举行]

可访问Google的Hosts文件最新可访问Google的Hosts文件[2016年03月24日更新]: 　　Spark北京Meetup第十次活动将于北京时间2016年03月27日在北京市海淀区丹棱街5号微软亚太研发集团总部大厦1号楼进行。会议主题 1.Spark in TalkingData 阎志涛

Kafka集群Leader均衡(Balancing leadership)

hosts 最新可访问Google的Hosts文件[2016年03月24日更新]: 　当一个broker停止或者crashes时，所有本来将它作为leader的分区将会把leader转移到其它broker上去。这意味着当这个brok

在shell中如何判断HDFS中的文件目录是否存在

　　在Linux文件系统中，我们可以使用下面的Shell脚本判断某个文件是否存在： 1 # 这里的-f参数判断$file是否存在 2 if [ ! -f"$file" ];then 3 　　echo "文件不存在!" 4 fi 但是我们想判断HDFS上某个文件是否存在咋办呢？别急，Hadoop内置提供了判断某个文件是否存在的命令： 01 [iteblog@ ~]$

机器学习基准训练数据集收集列表

商业敏感数据虽然难以获取，但好在仍有相当多有用数据可公开访问。它们中的不少常用来作为特定机器学习问题的基准测试数据。常见的有以下几个： UCL机器学习知识库包括近300个不同大小和类型的数据集，可用于分类、回归、聚类和推荐系统任务。数据集列表位于： Amazon AWS公开数据集包含的通常是大型数据集，可通过Amazon S3访问。这

设置Hadoop用户以便访问任何HDFS文件

　　Hadoop分布式文件系统实现了一个和POSIX系统类似的文件和目录的权限模型。每个文件和目录有一个所有者（owner）和一个组（group）。文件或目录对其所有者、同组的其他用户以及所有其他用户分别有着不同的权限。对文件而言，当读取这个文件时需要有r权限，当写入或者追加到文件时需要有w权限。对目录而言，当列出目录内容时需要具有r权限，当新建或删除子文件或子目录时需要有w权限，当访问目录的子节

浅谈Storm流式处理框架