Find the Underlying Structure of Big Data by Machine Learning with Spark | QQ群: 452154809

Bin的文章

Spark

基于Spark的机器学习开源项目

基于Spark的机器学习开源项目
最新的 Spark1.5.1 Mathine Learning模块提供了俩个包, 尤其后者是基于Spark Sql中的DataFrame实现的,对于特征分析、图计算有更大的意义。 spark.mllib contains the original API ...

2年前 (2015-10-16) 776℃ 6喜欢

Spark

Spark 数据统计分析利器

Spark 数据统计分析利器
熟悉Spark的数据分析API,更加方便我们的数据分析、特征分析、模型评价工作,示例如下: 1 DoubleRDDFunctions val sc = new SparkContext(new SparkConf) ...

2年前 (2015-10-14) 844℃ 3喜欢

Spark

Spark 资源管理和YARN应用程序模型

Spark 资源管理和YARN应用程序模型
Spark和MapReduce使用YARN管理集群资源的简单比较。 继MapReduce之后,最著名的Apache YARN应用要数Apache Spark了。在Cloudera,我们通过努力让Spark-on-YARN(SPARK-1101)保持稳定,...

2年前 (2015-10-14) 233℃ 3喜欢

算法详解

随机森林简明教程

随机森林简明教程
Random Forest是加州大学伯克利分校的Breiman Leo和Adele Cutler于2001年发表的论文中提到的新的机器学习算法,可以用来做分类,聚类,回归,和生存分析,这里只简单介绍该算法在分类上的应用。 Random F...

2年前 (2015-10-13) 392℃ 2喜欢

特征工程

样本采样及特征选择

样本采样及特征选择
基于特征化工程进行用户特征化,结合相关的机器学习算法对业务进行挖掘建模,在广告的精准投放、预测、风控等领域中应用的非常广泛。无论是有监督的学习分类算法,还是无监督的聚类也罢,都需要建立特征向量,对特征进行预处理;其中对于有监督的训练时,还需要进行样本的筛选。本...

2年前 (2015-10-13) 321℃ 5喜欢