Monthly Archives: November 2012
hadoop在线删除DataNode
1、配置core-site.xml,增加如下内容 <property> <name>dfs.hosts.exclude</name> <value>/home/adam/hadoop/conf/excludes</value> </property> 2、确定需要删除的节点(测试的时候发现指定主机名会有问题,制定ip地址正常) adam@hnn:~/hadoop/conf$ cat excludes 192.168.0.131 3、刷新DataNode adam@hnn:~/hadoop/conf$ hadoop dfsadmin -refreshNodes 4、查看文件系统状态 adam@hnn:~/hadoop/conf$ hadoop dfsadmin -report 持续观察直至被删除节点出现下面的说明: Decommission Status : Decommissioned 5、停止被删除节点上的TaskTracker进程
Hive 0.9安装记录
1、下载、解压缩hive 0.9 大家都会,就不多说了,hive放在/home/adam/hive 2、安装mysql 在ubuntu 12.04,安装比较简单,一条命令把服务器端和客户端都装好了 sudo apt-get install mysql-server 按照找到资料,应该新建一个用户来使用hive,如 create user ‘adam@localhost’ identified by ’1234′; grant all on hive.* to hive@localhost; flush previliges; 但使用新创建的用户始终无法登陆mysql,所以偷懒使用了默认的root用户。 3、修改etc/profile 增加一行 export HIVE_HOME=/home/adam/hive PATH变量增加HIVE_HOME(这一步不是必须的,主要是为了方便使用) export PATH=$JAVA_HOME/bin:$JRE_HOME/bin:$HADOOP_HOME/bin:$HBASE_HOME/bin:$PIG_HOME/bin:$HIVE_HOME/bin:$PATH 4、修改hive的配置文件 以hive-default.xml作为基本配置,hive-site.xml是需要修改配置 cp hive-default.xml.template hive-default.xml hive-site.xml文件内容: <?xml version=”1.0″?> <?xml-stylesheet type=”text/xsl” href=”configuration.xsl”?> <configuration> <property> <name>javax.jdo.option.ConnectionURL</name> <value>jdbc:mysql://localhost:3306/hive?createDatabaseIfNotExist=true</value> <description>JDBC connect string [...]
hbase安装记录
安装环境:hadoop 0.20.2 + hbase 0.90.5 hbase下载,解压缩的过程就不多讲了,大家应该都会,主要是下面一些配置文件的修改。 网上的一些资料说hbase的配置文件中,写服务器ip地址会出错,我没有验证过。因为已经习惯使用主机名称,提前在各个服务器上已经修改了hosts文件。 $ cat /etc/hosts 127.0.0.1 localhost 192.168.0.128 hnn 192.168.0.129 hdn1 192.168.0.130 hdn2 192.168.0.131 centos 一、修改hbase-env.sh # 1. 设置jdk的路径 # The java implementation to use. Java 1.6 required. # export JAVA_HOME=/usr/java/jdk1.6.0/ export JAVA_HOME=/home/adam/java/jdk # 2. 让hbase通过hadoop的配置文件路径,获取hadoop的信息 # Extra Java CLASSPATH elements. Optional. # export HBASE_CLASSPATH= export HBASE_CLASSPATH=/home/adam/hadoop/conf # 3. [...]
对于HANA的一些认识
Kamus写了一篇文章,Compare SAP HANA with Oracle Exadata,应该是少见的对HANA和Exadata的比较。其实这两个东西可比性不是太高,两者面对的领域并不完全一致,严格意义上讲不属于同一类产品。 关于HANA在OLAP、数据同步等方面,说一下自己了解到的情况: 一、HANA在OLTP领域的应用:这一点SAP应该还是投入了很大力气去研发、推广,现在SAP的ERP ON HANA的解决方案已经基本完成,就是把SAP的ERP后端oracle关系型数据库完全替换为HANA,目前正在找用户做实际案例的推广,所以在这方面在半年到1年时间会有实际的案例供大家参考。目前ERP ON HANA的成熟度还不高,我了解到做试点的用户要求数据库容量大小最好不超过2T,可以看出SAP推HANA还是比较谨慎的。 二、HANA和ERP后台数据库的同步:除了ERP ON HANA这种彻底的替代方案外,SAP还支持一种“HANA应用加速器”的用法,在SAP的ERP中可以在应用层透明的将热点数据替换成HANA,数据同步使用SAP的SLT技术完成。这一点完全是因为是ERP和HANA都是SAP开发才能做到,通过应用程序的改造,做到应用级别的数据同步,大概的原理就是将写入db的数据放到一个内存消息队列中,以近实时的速度写入到HANA中。 三、HANA的成本:主要的成本不是硬件,使用PC SERVER,再贵也比小机便宜多了。关键是软件,HANA的授权是按照数据量来的,64G为一个unit,投入完全与数据量大小成正比。 四、HANA的技术优势:主要就是内存数据库+列式数据库的混合体,使用内存数据库补偿了列数数据库在更新性能的不足,而列式数据库的数据压缩特性也大大降低了对内存容量的要求(SAP宣称有5-30倍的压缩率),虽然说不上是什么颠覆性的创新,但这两个特性组合起来还是不错的。 五、HANA的前景:按照HANA在SAP应用软件整合方面的优势,加上SAP对自己产品数据库使用HANA的刻意引导,估计在未来3-5年内,会有不少巨型的企业在SAP的产品中使用HAHA。但其他领域就比较困难了,应用整合困难,成本高这两方面的问题会极大的制约HANA的推广。