开源中国OSC源创会记录

一.Strata+Hadoop World（SHW）大会

是全世界最大的大数据大会之一。SHW大会为各种技术提供了深度交流的机会，还会看到最领先的大数据技术、最广泛的应用场景、最有趣的用例教学以及最全面的大数据行业和趋势探讨。

二.Hadoop

Hadoop是一个由Apache基金会所开发的分布式系统基础架构。用户可以在不了解分布式底层细节的情况下，开发分布式程序。充分利用集群的威力进行高速运算和存储。

Hadoop实现了一个分布式文件系统（Hadoop Distributed File System），简称HDFS。HDFS有高容错性的特点，并且设计用来部署在低廉的（low-cost）硬件上；而且它提供高吞吐量（high throughput）来访问应用程序的数据，适合那些有着超大数据集（large data set）的应用程序。HDFS放宽了（relax）POSIX的要求，可以以流的形式访问（streaming access）文件系统中的数据。

Hadoop的框架最核心的设计就是：HDFS和MapReduce。HDFS为海量的数据提供了存储，则MapReduce为海量的数据提供了计算。

三.Spark

Spark是继Hadoop之后的新一代大数据分布式处理框架，由UC Berkeley的Matei Zaharia主导开发。

Spark和Hadoop有什么不同呢?

1.Spark的中间数据放到内存中，对于迭代运算效率比较高

2.Spark比Hadoop更通用

3.容错性

4.关于Spark和Hadoop的融合

不知道Apache基金会的人怎么想的，我看Spark还是应该融入到Hadoop生态系统中。从Hadoop 0.23把MapReduce做成了库，看出Hadoop的目标是要支持包括MapReduce在内的更多的并行计算模型，比如MPI，Spark等。毕竟现在Hadoop的单节点CPU利用率并不高，那么假如这种迭代密集型运算是和现有平台的互补。同时，这对资源调度系统就提出了更高的要求。有关资源调度方面，UC Berkeley貌似也在做一个Mesos的东西，还用了Linux container，统一调度Hadoop和其他应用模型。

来源：http://tech.it168.com/a2012/0401/1333/000001333287.shtml

四.MemSQL

MemSQL是一款内存数据库，它通过将数据存在内存中，将SQL语句预编译为C++而获得极速的执行效率。MemSQL宣称这是世界上最快的分布式关系型数据库，兼容MySQL但快30倍，能实现每秒150万次事务。

MemSQL由前Facebook工程师Eric Frenkiel和微软SQL Server高级工程师Nikita Shamgunov（CTO）联合创办，MemSQL的高性能数据库还参照了Facebook的脚本，有着强烈的Facebook印记。在2011年7月，MemSQL获得了Ashton Kutcher、SV Angel、Paul Buchheit以及New Enterprise Associates等14家风投的青睐，融资210万美元。仅一年以后又再次获得了IA Ventures和Digital Sky Technologies两家共计300万美元的风险投资。

从MemSQL官网上了解到，MemSQL具有以下几大特色：

1.无可比拟的效率：MemSQL执行效率比传统的基于磁盘的数据库要快30倍，它优于其他内存数据库，因为它将SQL语句预编译为C++。

2.强大的SQL执行能力：支持全功能的关系型数据库，开发者不必修改现有程序即可获得NoSQL键/值存储系统的效率。

3.横向和纵向扩展：MemSQL支持纵向扩展，CPU越好效率就越高；而且支持向多CPU扩展；此外，MemSQL还可与MySQL节点结合起来处理PB级的负载。

4.缺省支持数据持久性：MemSQL缺省支持数据从内存到磁盘/SSD的同步，保证数据的安全可靠。

5.简易安装：只需30秒即可完成安装并使用MemSQL，兼容MySQL，学习曲线平滑。

五.Snowflake

一款弹性的数据云服务平台，能够在一个系统内处理半结构化和结构化数据而不需要转换存储结构或者设置统一的操作模式。

PS:全局唯一ID生成服务snowflake

Twitter在把存储系统从MySQL迁移到Cassandra的过程中由于Cassandra没有顺序ID生成机制，于是自己开发了一套全局唯一ID生成服务：Snowflake。

1.41位的时间序列（精确到毫秒，41位的长度可以使用69年）

2.10位的机器标识（10位的长度最多支持部署1024个节点）

3.12位的计数顺序号（12位的计数顺序号支持每个节点每毫秒产生4096个ID序号）最高位是符号位，始终为0。

优点：高性能，低延迟；独立的应用；按时间有序。缺点：需要独立的开发和部署，这个是php的实现。

六.Caspida

一款利用机器学习实现自动检测程序数据中的隐藏安全威胁的工具。

开源中国OSC源创会记录

猜你喜欢