注册 登录  
 加关注
   显示下一条  |  关闭
温馨提示!由于新浪微博认证机制调整,您的新浪微博帐号绑定已过期,请重新绑定!立即重新绑定新浪微博》  |  关闭

zjcjack的博客

 
 
 

日志

 
 

基于Infobright的MySQL数据仓库方案测试  

2012-04-04 22:39:55|  分类: infobright |  标签: |举报 |字号 订阅

  下载LOFTER 我的照片书  |

数据仓库之父Bill Inmon在1991年出版的“Building the Data Warehouse”一书中所提出的定义被广泛接受——数据仓库(Data Warehouse)是一个面向主题的(Subject Oriented)、集成的(Integrated)、相对稳定的(Non-Volatile)、反映历史变化(Time Variant)的数据集合,用于支持管理决策(Decision Making Support)。

简单的讲数据仓库是一个面向主题的、集成的、不可更新的、随时间不断变化的数据集合,它用于支持企业或组织的决策分析处理,这一句也是抄的,更直白 的举例就是公司的历史交易数据集合,网站的历史访问数据集合,这一句是原创的。

Infobright是开源的MySQL数据仓库解决方案,引入了列 存储 方案,高强度的数据压缩,优化的统计计算(类似sum/avg/group by之类),下面是Infobright的架构图:

 

infobright 是开源的基于mysql 的数据仓库(data warehouse)
商业版叫IEE(InfoBright Enterprise Edition) 
还有个免费的社区版,叫ICE(InfoBright Community Edition)

 

安装篇:

Infobright目前还不支持windows系列操作系统,不过你可以装在Linux虚拟机上,或者从官方直接下载做好的VMWARE虚拟机 ,这里的测试环境是CentOS 5.2 32bit操作系统。Infobright也不支持以插件的形式集成到已有的MySQL系统中去,官方的说法是对MySQL做了很多修改,不支持以插件的 形式使用。

详细的安装参照http://www.infobright.org/wiki/Install_Guide/ ,需要注意的是 如果你的系统中已经有MySQL(默认端口3306),你需要重新设定一下安装参数,比如像我的:

./install-infobright.sh –datadir=/data/infobright/data –cachedir=/data/infobright/cache –port=9527–config=/etc/my-ib.cnf –socket=/tmp/mysql-ib.sock –user=mysql –group=mysql

配置文件包括MySQL配置文件(/etc/my-ib.cnf)和Infobright配置文件(在安装时候指定的数据目录内,比如/data /infobright/data/brighthouse.ini),如果需要支持MySQL原生的SQL查询,需要修改 brighthouse.ini设定

AllowMySQLQueryPath = 1

这样不至于有些SQL语句不能执行,安装完成,启动服务:

/etc/init.d/mysqld-ib start

通过命令行:mysql-ib -uroot直接连接,默认密码为空,修改密码:

/usr/local/infobright/bin/mysqladmin  -u root -p password NEWPASSWORD

测试篇:

测试数据是一个1.5GB大的文本数据,数据格式类似:

用户ID  内容ID  用户打分



765331  3868    5



716091  3868    3



1663216 3868    3



51971   3868    5

在测试数据库中新建两张表,一个为Infobright支持的brighthouse存储引擎,一个为MySQL原生的MyISAM存储引擎,其他 内容一致:

CREATE TABLE `t_ib` (
`uid` mediumint(9) NOT NULL,
`cid` smallint(6) NOT NULL,
`rating` tinyint(4) NOT NULL
) ENGINE=BRIGHTHOUSE;

CREATE TABLE `t_mis` (
`uid` mediumint(9) NOT NULL,
`cid` smallint(6) NOT NULL,
`rating` tinyint(4) NOT NULL
) ENGINE=MyISAM

将数据load进表:

load data infile ‘path/to/data.txt’ into table table_name;

我们比较一下文件大小:

数据类型      数据大小



data.txt 1.5GB



data.tar.gz 429MB



MyISAM表 671MB



Infobight表 280MB

超过5:1的压缩比,虽然没有传说中10:1,但数据的大小比tar.gz过还要小近一半,压缩能力可见一斑。

准备进行SQL的测试,不能在BRIGHTHOUSE存储引擎上建索引,因为根本就不需要建,我们在MyISAM引擎表上建立如下索引:

create index id on t_mis(cid);

执行下列SQL语句,查询内容ID大于9527的条目数(为了节省篇幅,略去结果集,只返回执行时间):

mysql> select count(*) from t_mis where cid > 9527;



1 row in set (41.81 sec)







mysql> select count(*) from t_ib where cid > 9527;



1 row in set (13.66 sec)

Infobright花费的时间只有MyISAM的1/4左右,再测试一下找出被用户打分最多的10条内容:

mysql> select cid from t_mis group by cid order by count(*) desc limit 10;



10 rows in set (1 min 21.30 sec)







mysql> select cid from t_ib group by cid order by count(*) desc limit 10;



10 rows in set (39.02 sec)

Infobright大概只花费了MyISAM 1/3多一点的时间。再查询一下评价最好的10条内容:

mysql> select cid from t_mis group by cid order by avg(rating) desc limit 10;



10 rows in set (6 min 16.15 sec)







mysql> select cid from t_ib group by cid order by avg(rating) desc limit 10;



10 rows in set (1 min 1.25 sec)

不到1/6时间。

后记:

强悍的压缩比率,高效的SQL统计性能,Infobright的表现很是不错。对于网站开发者来说,建立一个Infobright数据仓库系统用来 保存网站的历史访问元数据应该是一个不错的选择,尤其是需要OLAP 或者更为灵活的统计功能的时候。

 

这里有几个有用的网址:

介绍:http://www.wentrue.net/blog/?p=283

系统结构:http://www.wentrue.net/blog/?p=291

实战:http://www.wentrue.net/blog/?p=289

下载:http://www.infobright.org/Download/ICE/

  评论这张
 
阅读(203)| 评论(0)
推荐 转载

历史上的今天

评论

<#--最新日志,群博日志--> <#--推荐日志--> <#--引用记录--> <#--博主推荐--> <#--随机阅读--> <#--首页推荐--> <#--历史上的今天--> <#--被推荐日志--> <#--上一篇,下一篇--> <#-- 热度 --> <#-- 网易新闻广告 --> <#--右边模块结构--> <#--评论模块结构--> <#--引用模块结构--> <#--博主发起的投票-->
 
 
 
 
 
 
 
 
 
 
 
 
 
 

页脚

网易公司版权所有 ©1997-2017