大数据分析技术【超星尔雅课后题】

1. Mapreduces适用于：可以并行处理的应用程序

2. PageRank是一个函数，它对Web中的每一个网页赋予一个实数值，它的意图在于网页的PageRank越高，那么它就：越重要

3. 在Bigtable中，GFS主要用来存储子表数据以及一些日志文件

4. 当不知道数据所带标签时，可以使用哪种技术促使带同类标签的数据与其他标签的数据相分离？：聚类。

5. 单机串行处理1G，URL数据需要10分钟，Hadoop平台并行处理只需要1分钟，那么加速比为：10

6. 数据规约的目的缩小数据的取值范围，使其更适合于数据挖掘算法的需要，并且能够得到和原始数据相同的分析结果。

7. 数据挖掘的主要功能包括概念描述，趋势分析，孤立点分析及：挖掘频繁模式，分类和预测，聚类分析，偏差分析等方面。

8. 通过数据挖掘过程所推导出的关系和摘要经常被称为：模型，模式

9. 数据挖掘的预测建模任务主要包括哪几类大问题？：分类，回归

10. 大数据分析处理在效果方面的评测方法为：准确率，召回率，F值

11. Hadoop集群可以运行在单机模式，伪分布式模式，完全分布式模式三个模式

12. 大数据处理的5V特点分别是：Volume , Velocity , Variety , Veracity , Value

13. 数据中的知识发现由以下步骤迭代序列组合是数据清理，数据集成，数据选择和：数据变换，数据挖掘，模式评估，知识表示

14. 数据挖掘的主要任务是从数据中发现潜在的规则，从而能更好的完成数据，预测等任务。：正确

15. 每个map槽就是一个线程。：错误

16. 聚类是指将物理或抽象对象集合分组成为由类似的对象组成的多个类的过程。：正确

17. 数据取样时，除了要求抽样严把质量关外，还要要求抽样数据必须在足够范围内有代表性。：正确

1. 下面程序负责HDFS数据存储的是：Datanode

2. HBase的Region组成中，必须要有以下哪一项：MemStore

3. 设计分布式数据仓库hive的数据表时，为取样高效，一般可以对表中的连续字段进行什么操作：分桶

4. HBase依靠 HDFS 存储底层数据

5. HBase依赖 MapReduce 提供强大的计算能力

6. 下面对HBase的描述哪些是正确的：是面向列的，是分布式的，是一种NoSQL数据库

相关推荐