Monthly Archives: January 2013
[转]数据分析的3个层次
原文地址:http://f.dataguru.cn/thread-53698-1-2.html 数据分析,有3个层次: 第一层次 业务主导,业务人员根据他们的经验提出一些变量和阈值,然后由IT人员进行query、汇总,数据分析师的角色就是制作图表。这种分析,其实就是极其简单的决策树。 阈值的决定基本是拍脑袋的,连决策树实现最佳分离度都不用。 第二层次 业务人员能看出数据的问题,但说不出道理,也想不出该找哪些变量,因为关系太复杂,超出他们的认知,这时数据分析师可以介入,用数学手段抽象出模型,这个层次是分析师最喜欢的,因为有成就感,而且一般是肯定能做出来的(因为业务人员可以判断)。 第三层次 业务人员完全无法提供先验知识,这时数据分析师可以自由在数据的天空里翱翔,用各种机器学习的手段进行各种数据挖掘,找出有趣的东西,这个层次是业务人员最不喜欢和抗拒的,因为没他们什么事情。 1可以理解为业务人员的地盘,3可以理解为数据分析师的地盘 3这块,失败率是很高的 其实最好做的还是属于2这块的项目,1的话,体现不出分析师的价值,不好叫价 数据分析师都幻想着3,但实际上大部分时候在1 ,这会让分析师们觉得是失落!理想和现实的落差啊! 业务人员对3是不屑的,他们觉得在遍地都是黄金可捡的时候为啥要去打个100米深的洞找金子?因此往往会将其归结为不切实际的幻想,学究,纸上谈兵等等。 实际的推进,往往是1和2都收拾的差不多没啥油水了,才会去做3。
Linux下du用法总结
一直不理解du的设计方法,为什么默认要显示所有子文件夹的大小,平常不会这么用的啊,搞得每次使用都得加参数 1. 查看当前文件夹总的大小 du -sh 2. 查看第一层文件夹的大小 du -h -d 1 du -h –max-depth=1 3. 查看文件和第一层文件夹大小 du -ah -d 1 4. 最后是最简单的用法,列出所有子文件夹的大小 du 文件大小的单位 -k 按KB显示 -m 按MB显示 -h 按照文件大小,自行确定显示K或M
DNS解析过程
1、在浏览器中输入www.qq.com域名,操作系统会先检查自己本地的hosts文件是否有这个网址映射关系,如果有,就先调用这个IP地址映射,完成域名解析。 2、如果hosts里没有这个域名的映射,则查找本地DNS解析器缓存,是否有这个网址映射关系,如果有,直接返回,完成域名解析。 3、如果hosts与本地DNS解析器缓存都没有相应的网址映射关系,首先会找TCP/ip参数中设置的首选DNS服务器,在此我们叫它本地DNS服务器,此服务器收到查询时,如果要查询的域名,包含在本地配置区域资源中,则返回解析结果给客户机,完成域名解析,此解析具有权威性。 4、如果要查询的域名,不由本地DNS服务器区域解析,但该服务器已缓存了此网址映射关系,则调用这个IP地址映射,完成域名解析,此解析不具有权威性。 5、如果本地DNS服务器本地区域文件与缓存解析都失效,则根据本地DNS服务器的设置(是否设置转发器)进行查询,如果未用转发模式,本地DNS就把请求发至13台根DNS,根DNS服务器收到请求后会判断这个域名(.com)是谁来授权管理,并会返回一个负责该顶级域名服务器的一个IP。本地DNS服务器收到IP信息后,将会联系负责.com域的这台服务器。这台负责.com域的服务器收到请求后,如果自己无法解析,它就会找一个管理.com域的下一级DNS服务器地址(qq.com)给本地DNS服务器。当本地DNS服务器收到这个地址后,就会找qq.com域服务器,重复上面的动作,进行查询,直至找到www.qq.com主机。 6、如果用的是转发模式,此DNS服务器就会把请求转发至上一级DNS服务器,由上一级服务器进行解析,上一级服务器如果不能解析,或找根DNS或把转请求转至上上级,以此循环。不管是本地DNS服务器用是是转发,还是根提示,最后都是把结果返回给本地DNS服务器,由此DNS服务器再返回给客户机。 从客户端到本地DNS服务器是属于递归查询,而DNS服务器之间就是的交互查询就是迭代查询。 迭代查询图示如下: 参考文章: DNS原理及其解析过程
Ubuntu上安装和测试NFS
一、nfs的安装 服务器端:sudo apt-get install nfs-kernel-server nfs-common 客户端:sudo apt-get install nfs-common 二、设置共享目录 sudo vi /etc/exports 加入以下内容: /home/adam/.ssh *(rw,sync,no_root_squash) 重新扫描配置文件,使共享目录生效 sudo exportfs -ra 在NFS服务器端查看共享目录 showmount -e 三、客户端加载NFS目录 sudo mount -t nfs hnn:/home/adam/.ssh /mnt/.ssh 卸载NFS目录 sudo umount /mnt/.ssh 四、开机启动时加载NFS sudo vi /etc/fstab 加入以下内容: hnn:/home/adam/.ssh /mnt/.ssh nfs defaults 0 0 五、实现ssh中authorized_keys文件共享 cd ~/.ssh cp authorized_keys authorized_keys.bak ln -s /mnt/.ssh/authorized_keys [...]
Ubuntu 12.04安装DNS解析软件bind9
BIND是Berkeley Internet Name Domain的缩写 几个资源记录的含义: SOA记录:指示该区的权威 NS记录:列出该区的一个名字服务器 A记录:名字到地址的映射 (也就是正向解析) PTR记录:地址到名字的映射 (也就是反向解析) CNAME:规范名字 (别名记录) 一、安装bind9 adam@hnn:~$ sudo apt-get install bind9 二、设置转发DNS服务器 sudo vi /etc/bind/named.conf.options 其中forwarders片段改成下面的内容: forwarders { 202.102.224.68; }; 三、增加正向解析配置 把下面的几个解析成对应的ip地址 hnn.adam.com 192.168.0.128 hdn1.adam.com 192.168.0.129 hdn2.adam.com 192.168.0.130 sudo vi /etc/bind/named.conf.local 在最后增加以下内容 zone “adam.com” { type master; file “/etc/bind/db.adam.com”; }; sudo cp db.local db.adam.com sudo [...]
[转]点评阿里云、盛大云等国内IaaS产业
原文地址:点评阿里云、盛大云等国内IaaS产业 1 IaaS回顾 1.1 云计算在中国有多久 现在是2012年8月底9月初,要问中国的IaaS走过了多少时间了?2年?3年? 不对,是差不多4年半的时间。总有一些公司或者在公开场合或者是私下场合说,我们公司做了5年6年云计算,也总有一些猎头跟我说我们要找资深的云计算业内专家,好吧,如果这些人说的是SaaS的话,我承认,可以有。可事实上他们都说的是云计算特别是IaaS,我要说,真没有。如果非要说云计算这个词IaaS这个词还没有产生还没有传入中国,就有人开始做了,那这蛋扯的太远。 事实上,Cloud Computing这个单词在2006年之前在英文中并不存在。2006年前后,Cloud Computing这个单词开始偶尔出现。2007年末,Cloud Computing出现的频率迅速增加。2008年初,Cloud Computing在中文中开始被翻译为“云计算”2008年开始。2008年上半年,中国人搞懂云计算这个单词意思的不超过10个。 1.2 谁先开始干云计算和IaaS的 哪个公司或者哪些人是中国最早做云计算的人?这里不讨论云计算概念产生之前的SaaS。阿里云?盛大云?绝对不是,连候选名单都进不了。阿里云公司成立时2009年的事情,而且成立的时候还没有开始做任何事情,只是把阿里软件改了个名而已。盛大云是2010年初开始招兵买马,公司也是那时成立。两家公司推出服务已经是2011年的事情了。 那么还有做得更早的?对的,世纪互联(后来独立出来的云快线)是最早开展IaaS实践的公司。如果狭窄点说到虚拟化技术,那么最早的应该是IBM和Intel在中国的部分研发人员接触最早。世纪互联2008年初开始进行IaaS探索,并推出了现今通用的“云主机”一词,2009年初推出云主机beta版,2009年底重组为云快线,2010年底推出云主机2.0。 世纪互联云快线今安在?2011年9月解散。世纪互联在IDC算是低调的企业,但其云快线影响力从解散后人员的流向和现今各大云主机网站上对云主机的图形和文字说明(所有做云主机IDC公司都相当程度借鉴了云快线网站和PPT中的内容)可见一斑。 1.2.1 还有谁都参与进来了 世纪互联云快线属于起了个大早干了个晚集,可能还没赶上。随后就是长江后浪推前浪,前浪死在沙滩上。2011年初阿里云和盛大云推出的IaaS服务,迅速吸引了各大媒体和开发者、中小站长的眼球,也把云计算在中国推向了影响力的巅峰。 2011年下半年,上海世纪互联依靠第三方的技术和平台,推出云主机。2012年,杭州网互联LinkCloud、西部数码、太平洋电信陆续推出云主机,如今个主要IDC服务商均有云主机在售。 到底有多少家IDC已经推出了云主机?没有明确数字,因为中小服务商和地方性服务商太多。从百度和谷歌搜索引擎来看,购买了云主机付费关键词的有近20家,其他以云主机为标题和业务的不下50家。 顺便说一下,2006年是国外IaaS起步的时间,中国起步落后了两年,但现在,整个产业至少落后3年。原因?在其他文章有表述,但真分析起来太多太复杂,远离了本文的主题。 再补充一下,还有一些将要或准备进入IaaS领域的,将在预测章节讨论。这里贴两个2010年的预测。目前看,其中市场规模基本正确,只是2013年的规模目前还不能确定。而2011年可能进入IaaS的企业预计太乐观,近一半的企业尚无产品推出。 2 IaaS现状 上面说了,如今已经从事IaaS业务的大小公司不下几十家,且不管严格从定义上来说谁不是谁是云计算和IaaS,暂且认为号称有云主机业务的就算。这里也把这些公司分个三六九等。 2.1 以阿里云盛大云万网云为代表的第一阵营 阿里云盛大云万网云在第一阵营基本无人有异议,这三家不仅是最知名的IaaS厂商,也是市场影响力和客户基数最大的厂商。这三家还有一个共同点,他们在从事IaaS业务之前,都已经是知名公司,而且其IaaS严重依赖其母公司和其他业务。当然,他们也有不同,如果非要排个座次的话,阿里云排第一,盛大云排第二,万网云排第三。说是这三家在第一阵营,并不一定代表他们做的很好,相反,都还是不及格,包括排第一的阿里云,因为我非常非常遗憾的看到,阿里云对于IaaS行业的发展至今还是负面作用大于正面作用。 2.1.1 阿里云 先说阿里云。阿里云排第一,不是阿里云本身做的好,而是相对其他厂家,阿里云没有做得更差,或者可以说,矮子里拔将军吧。这样的评价,业内很多人都很吃惊,阿里云的人更是会嗤之以鼻:“什么?阿里云现在客户最多!我们的平台几次推倒最先进!阿里云的技术实力和带宽质量,加上万网的经验,绝对国内第一国际先进!” 说万网的优势,最大的优势,而且都是很重要的优势有这么几个: 庞大的财力。财力对于做IaaS当然很重要。大家都知道做托管可以不要什么本钱,租个机房零卖就好了,但是建机房确实很费钱的,当然做IDC不是都要做机房的。但是做IaaS虽然投入不像做机房一次性投入那么大,但由于都投入在人才和设备上,相对机房这样的硬货,IaaS的前期投入基本都是投入在软货上。投入机房好理解,不干IT的都能了解,因为财力投入都变成了房子和很多年才能折旧完的制冷设备上。而人才和设备投入就不一样了,人才投入那是费用,投进去就没了,设备折旧也就两三年的事情。IaaS比托管起步要多一些财力投入,因为通常要做一些技术开发工作,投入一些自有设备。而阿里云由来自国内最大的互联网公司之一的财力投入,也许对很多其他公司是笔大投入,对阿里,就是毛毛雨了。但并不是说需要很多人很大一笔钱才能开始起步。但是有钱,绝对是个优势,可以有充足的技术人员,可以等待平台的完善和成长,可以等待盈利的时间更长。技术实力是由庞大的财力决定的,不做单独讨论。 市场知名度和影响力。阿里云凭借阿里巴巴在中小站长和电子商务站长中的知名度和影响力,迅速聚集了一批客户。作为中国顶级的互联网公司,其做任何事情都会得到业界的关注,也更容易在初期开拓市场。看看饭否在新浪微博发布后的表现就明白,大公司的影响力的重要性不逊于财力的重要性。 BGP带宽。阿里巴巴集团凭借前几年以保障电子商务安全为名,申请下来的BGP网络,是一种半垄断优势,也是中国顶级互联网企业里少数认识到BGP网络重要性并付诸行动的公司。这一点,其他具有同等能力的顶级互联网公司逊色不少。这一点,也是绝大部分IDC企业也不具备的硬条件。 基础设施运营经验。阿里巴巴作为国内顶级互联网公司,而且是做电子商务的,在机房管理、网络管理上积累了不少经验,这些对于做IaaS是比不可少的。 收购万网。收购万网为其带来的不是客户和IDC运营经验,主要是牌照问题,客户能够备案了。否则将步盛大后尘,备案服务比较麻烦。 按理说具备了这么多条件和优势,不做成顶级IaaS服务商就没道理了。我这里说他们是IaaS服务商肯定阿里的高层不高兴,因为他们的设计至少是PaaS服务商,IaaS只是个基础。甚至一度要放弃IaaS,押宝阿里云OS和手机,可惜现实的重锤砸碎了这个计划,阿里云OS和搜索、输入法等应用基本没有收入。IaaS的收入也是云主机一家独大。云主机支撑了阿里云的绝大部分收入,这里就从云主机为代表的IaaS说说为什么阿里云过大于功: 没有甚至没有打算建立起共赢生态系统。以阿里巴巴的知名度和国家数亿的补贴,加上上述所说的优势,其获得了大量的资源和庞大的客户。但是,阿里云至今未开放产品接口,也未建立一个其他上下游厂商、合作伙伴共赢的生态系统,甚至到目前为止还未看到阿里云由这样的意向。相反,其产品体系相对封闭,从IaaS到PaaS到应用全都设计,包括安全等产品都是自己开发提供,未能让合作伙伴获益。包括阿里云OS和其他应用在内,都是为了将客户流量和数据留在阿里云,当然,百度腾讯也在做同样的事情。 其产品模型并没有展示出云计算的特性和优势并让传统IDC客户更广泛受益。目前看,阿里云的主要获取客户手段是BGP带宽和价格,而这两个都是资源导向。其强多了传统IDC的虚拟主机、VPS、小托管客户,但其对客户带来的价值方向并没有超远传统IDC服务商。这也是我初期看好盛大云的原因,盛大云产品模型在当时更好反映了云计算的商业模式。其初期的产品模型更类似传统IDC主机,计费不够灵活。 性能等问题让IaaS的目标客户不能树立起对IaaS的信心。如上所述,其产品模型更多沿用了传统IDC的产品模型。至少在前两年是这样,现在也在试探性对客户的需求进行投票。但是我认为一个领导型的厂商,除了重视客户的现有需求,也要挖掘潜在需求和推广创新性的需求解决方法,这一点我没有看到阿里云有想法和作为;另一个很重要的一点是,阿里云由于在前期一直是技术主导,而且是完美主义者主导,对传统IDC和中小站长的理解和服务经验欠缺,导致现在的云主机性能问题以解决,主要是磁盘的IO性能,尽管其采用了昂贵的SAS硬盘,IOPS有保障,但是IO吞吐带宽成逐渐下降趋势,基本不能满足中等规模应用的要求。最为IaaS领域的领导厂商,都不能让目标用户基本能用,这是对云计算和IaaS产业的极大遏制。导致目前云主机仍然是个人站长的玩乐场,整个云主机产业无法吸引到中型客户。 战略摇摆不定。阿里云虽然IaaS服务一直没有中断,但从09年成立至今,阿里巴巴集团的对阿里云的战略定位已经数次改变,而且没有一次是定位于IaaS服务。因为大企业都觉得IaaS太基础,太初级,没品味,嘴里不承认,心里都这么想。最开始定位于PaaS,后来是阿里云OS和移动互联网,现在是数据平台。这些定位都符合阿里巴巴集团的战略,确唯独不符合IaaS战略。阿里巴巴作为互联网贸易中介服务商,确实需要一个PaaS扩大非电子商务地盘,需要阿里云OS抢占移动互联网入口,其庞大的交易数据也需要更为庞大并能产生更大价值。所以,也就有了现在的口号“打造数据分享第一平台”,试问阿里云的产品有几个跟数据分享有关系?当IaaS的利润不够丰厚,阿里集团需要阿里云的其他定位,云主机等基础产品还能不能持续加强是个疑问,一如当初的百度有啊,做不做都无所谓,做好了是锦上添花,做不好换个行业比如视频也可以。特别是最近,云OS从阿里云分离出来,集团重申了对云OS的支持、重视,和财务投入2亿美元。没有提到对阿里云的财务投入问题,意味着阿里云将会面临着较紧迫的营收增长和盈利压力。 备案服务雾里看花。由于阿里云自身没有IDC运营资质,好在由集团旗下的万网提供备案。代备案也是IDC行业的普遍现象。但由于阿里云迄今为止的所有十几款产品,包括阿里云OS和手机在内,唯有云主机有些起色和收入,而云主机又属于IDC业务的自然延伸,导致阿里云和万网的关系极其微妙,其备案服务政策也数度调整。从基本无法备案,到200元备案,到搞活动取消200元备案费用,到传闻寻找第三方代备案服务商,到现在万网自主上市与万网阿里云和并的传闻并存,其中的博弈和变数另外人不得而知。而备案服务是IDC和云主机的基础服务,而且行规是免费服务,这个服务需要稳定下来。背后折射的是阿里云和万网的定位需要有明确的区分。我想这也是阿里云打出了“数据分享第一平台”这块牌子的苦衷,阿里集团旗下不可能存在两家主业是IDC和云主机、IaaS业务的公司。 2.1.2 盛大云 盛大云在创立之初,本来是最被看好的,其产品模式令人感觉确实发挥了云计算的精髓。而那时,阿里云不过是照搬了万网卖服务器托管和租用的界面和产品模式,我想起产品负责人应该来自万网。但现在的形势,完全不同了,问题已经多余优势,其在BGP带宽、自有机房、无IDC经验、无资质上带来的问题,已经严重影响了客户的信心,现在还能排在第2位,主要是还考虑到其创立初期带来的IaaS产品模式上的创新。 盛大云,其初期优势主要有这么几个: 庞大的财力。其同样在初期建立了一只有实力的技术团队,也从国外引入了人才,也同样获得了政府上亿的财政资助。 市场知名度和影响力。盛大作为曾经的中国首富拥有的企业,及时现今退出了一流互联网和游戏企业行列,依然有着巨大的知名度和影响力。在初期也吸引到了大批的用户。 盛大云目前的劣势则更多: 数据中心和带宽问题。由于盛大云长期采用租赁机房,采用第三方CDN服务。这样做确实能够降低运营成本。但要从事IaaS业务,着就变成了一个巨大的劣势。没有自主运营的机房甚至是租赁的机房,没有高质量的多线和BGP带宽资源。 基础设施运营经验。同样,大量的基础设施外包,导致其内部的机房运营、网络管理经验欠缺。 IDC服务经验。不像阿里云收购万网后,多少对IDC服务有所认识。盛大云与IDC的距离更远,而且从国外聘请的人才也对国内IDC政策和形势短期内不清楚或者适应,导致其初期备案和售后被众多客户诟病。 [...]