开源商业智能解决方案 Pentaho 4.1 发布
jopen 13年前
<p>Pentaho BI项目提供了企业级的报表、多维分析、仪表盘、数据挖掘和工作流功能,帮助组织更加有效率的运营。Pentaho产品提供了方便的发布选项,使得它可以作为嵌入式的组件、自定义的BI应用方案以及一个完整的开箱即用的集成BI平台。<img title="pentaho_logo.png" border="0" alt="pentaho_logo.png" align="right" src="https://simg.open-open.com/show/e4db2742c2c1e9c4dbfb0213bdd4c161.png" width="242" height="80" /></p> <div id="p_fullcontent" class="detail"> <p><img title="开源商业智能解决方案 Pentaho 4.1 发布" border="0" alt="开源商业智能解决方案 Pentaho 4.1 发布" src="https://simg.open-open.com/show/0c28bb72a9c5bfacfed973fc93682fce.jpg" width="406" height="480" /></p> </div> <p>Pentaho 4.1 发布了,增加对Infinispan/JBoss企业数据网格及Memcahed缓存系统的数据分析支持,同时也可以扩展到其他系统。其他改进则包括全新的性能辅助调整(tuning aids)、支持对Apache Hive及EMC的Greenplum数据库的本地SQL代码自动生成等。</p> <div id="p_fullcontent" class="detail"> <p><a style="font-weight:bold;" href="/misc/goto?guid=4958183481587207384" target="_blank">Infinispan </a>是个开源的数据网格平台。它公开了一个简单的数据结构(一个Cache)来存储对象。虽然可以在本地模式下运行Infinspan,但其真正的价值在于分布 式,在这种模式下,Infinispan可以将集群缓存起来并公开大容量的堆内存。这可比简单的复制强大的多,因为它会为每个结点分配固定数量的副本——服 务器故障的一种恢复手段——同时还提升了可伸缩性,这是由于存储每个结点所需的工作量是与集群大小息息相关的。</p> <p>Infinispan提供了一种简单的机制来利用大容量的堆内存。如果对每个结点维护一个拷贝,假如集群当中有100个结点,每个结点分配2GB的堆内存, 那么网格中的任何实例都能使用多达100GB的空间,这可都是内存,显然速度会非常快。同时Infinispan还兼容于JTA,这样它就能很好地处理事务 了。我们还有一个超级强大的异步API,它可以保证同步的网络调用以及异步调用的并行性及可伸缩性。比方说:Future f = cache.putAsync(k, v) 可以阻塞线程,再调用f.get()可以让网络调用继续进行或是忽略掉f。更为重要的是,线程还可以做别的事情,这一点非常有用。然后再回来通过调用 f.get()来检查该网络调用是否能继续进行。可以将其看作是NIO与传统的阻塞性IO之间的关系。</p> <p>Infinispan公开了一个CacheStore接口和几个高性能的实现,包括JDBC CacheStores、基于文件系统的CacheStores以及Amazon S3 CacheStores等等。CacheStores可用作“温启动(warm starts)”或是确保网格中的数据在重启后依然可用,同时在内存耗尽时还能将数据写到磁盘上。</p> <p>主要特点:</p> <ul> <li>大量的堆体</li> <li>极高的可扩展性</li> <li>快速轻量级核心</li> <li>不仅仅支持Java(PHP,Python,Ruby,C…)</li> <li>支持Compute Grids</li> <li>管理是关键:当你在grid上运行几百个服务时,实现管理是必须的</li> </ul> <p><a href="/misc/goto?guid=4958184338198183602" target="_blank"><strong>memcached</strong></a>是一套分布式的快取系统,当初是Danga Interactive为了LiveJournal所发展的,但目前被许多软件(如MediaWiki)所使用。这是一套开放源代码软件,以BSD license授权释出。</p> <p>memcached缺乏认证以及安全管制,这代表应该将memcached服务器放置在防火墙后。</p> <p>memcached的API使用三十二位元的循环冗余校验(CRC-32)计算键值后,将资料分散在不同的机器上。当表格满了以后,接下来新增的资料会以LRU机制替换掉。由于memcached通常只是当作快取系统使用,所以使用memcached的应用程式在写回较慢的系统时(像是后端的数据库)需要额外的程式码更新memcached内的资料。</p> <p>memcached具有多种语言的客户端开发包,包括:Perl/PHP/JAVA/C/Python/Ruby/C#/MySQL/</p> <div id="p_fullcontent" class="detail"> <p>Hive是一个基于Hadoop的数据仓库平台。通过hive,我们可以方便地进行ETL的工作。hive定义了一个类似于SQL的查询语言:HQL,能 够将用户编写的QL转化为相应的Mapreduce程序基于Hadoop执行。</p> <p>Hive是非死book 2008年8月刚开源的一个数据仓库框架,其系统目标与 Pig 有相似之处,但它有一些Pig目前还不支持的机制,比如:更丰富的类型系统、更类似SQL的查询语言、Table/Partition元数据的持久化等。</p> </div> <p></p> </div> <p><br /> <span style="font-weight:bold;">Pentaho 官网:</span><br /> <a href="/misc/goto?guid=4958184740779128202" target="_blank">http://www.pentaho.com/</a></p> <p>Via <a href="/misc/goto?guid=4958197410797749536" target="_blank">H-online</a></p>