Home

Zookeeper 分布式安装笔记

实验室第N次服务器配置,简单记录以备不时之需。 环境配置 sudo vi /etc/profile export ZOOKEEPER_HOME=/home/bjut/zookeeper-3.3.6 export PATH=$PATH:$ZOOKEEPER_HOME/bin 执行 source /etc/profile 使用设置生效。 Zookeeper 配置 文件 zoo.cfg cp conf/zoo_sample.cfg conf/zoo.cfg vi zoo.cfg # The number of milliseconds of each tick tickTime=2000 # The number of ticks that the initial ...

Read more

Spark 单机和分布式安装笔记

实验室第N次服务器配置,简单记录以备不时之需。 单机模式安装 环境配置 /etc/profile sudo vi /etc/profile export SCALA_HOME=/home/bjut/scala-2.11.7 export PATH=$SCALA_HOME/bin:$PATH ~./bashrc vi ~/.bashrc export HADOOP_HOME=/home/bjut/hadoop-2.6.0 export HADOOP_CONF_DIR=$HADOOP_HOME/etc/hadoop export SCALA_HOME=/home/bjut/scala-2.11.7 export SPARK_HOME=/hom...

Read more

Hadoop 分布式安装笔记

实验室第N次服务器配置,简单记录以备不时之需。 Master 配置 安装 JDK /etc/profile sudo vi /etc/profile,设置 JAVA 路径,如下图所示: ~/.bashrc sudo vi ~./bashrc,设置 JAVA_HOME,如下图所示: 执行 java -version 检查效果。 修改主机名 sudo vi /etc/hostname 更改 master 节点名称,这里我将其更改为Master。 sudo vi /etc/hosts 修改主机名与 IP 的映射关系,内容...

Read more

Hadoop 单机模式安装笔记

实验室第N次服务器配置,简单记录以备不时之需。 安装 JDK /etc/profile sudo vi /etc/profile,设置 JAVA 路径,如下图所示: ~/.bashrc sudo vi ~./bashrc,设置 JAVA_HOME,如下图所示: 执行 java -version 检查效果。 SSH 配置 SSH 无密码登录 ssh localhost #生成.ssh目录 exit cd ~/.ssh/ ssh-keygen -t rsa #遇到提示直接按回车即可 cat id_rsa.pub >> authorized_keys #加入授权 ...

Read more

数据挖掘之凝聚层次聚类算法 AGNES 学习笔记

层次聚类是一种很直观而且重要的算法。与 K-means 一样,和许多聚类方法相比,这些方法相对较老,但是它们仍然被广泛使用。 有两种产生层次聚类的基本方法。 凝聚的:从点作为个体簇开始,每一步合并两个最接近的簇。这需要定义簇的邻近度概念。 分裂的:从包含所有点的某个簇开始,每一步分裂一个簇,直到仅剩下单点簇。在这种情况下,我们需要确定每一步分裂哪个簇,以及如何分裂。 到目前为止,凝聚层次聚类技术最常见。 邻近度定义 单链 邻近度定义为两个不同簇中任意两点之间的最短距离(最大相似度) 全链 邻近度定义为两个不同簇中任意两点之间的最长距离(最小相似度) 组平均 ...

Read more

数据挖掘之 DBSCAN 算法学习笔记

DBSCAN (Density-Based Spatial Clustering of Applications with Noise) 是一种基于密度的聚类算法,基于密度的聚类寻找被低密度区域分离的高密度区域。 算法基本定义 DBSCAN 中定义使用基于中心的方法定义密度,在基于中心的方法中,数据集中特定点的密度通过对该点 Eps 半径之内的点计数(包括点本身)来估计。 密度的基于中心的方法使得我们可以将点分类为: 核心点:稠密区域内部的点,该点的 Eps 邻域(半径)内至少包含 MinPts 个点。 边界点:稠密区域边缘上的点,该点在核心点的邻域内,但不是核心点。 噪声点:稀疏区域中的点,既不是核心点也不是边界点。 直接密度可达:给定一个点集合 D...

Read more

修改 pip 源以加快 Python 模块安装速度

用 pip 安装 Python 模块时经常出现访问速度非常慢的情况,是因为 pip 默认镜像源是 https://pypi.Python.org/simple/,把这个镜像源修改成我们国内的就好了。 国内镜像源 目前可用的国内镜像源有: http://pypi.mirrors.ustc.edu.cn/simple/ (中科大) http://mirrors.aliyun.com/pypi/simple/ (阿里云) 修改方式 手动指定 第一种安装镜像源的方式是手动指定: pip -i http://mirrors.aliyun.com/pypi/simple/ install Flask -- trusted-host mirrors.aliyun.com ...

Read more