钟浩:大家上午好,我是钟浩,来自于一家创业公司叫ScaleFlux,今天我想和大家分享的是关于可计算存储。
为什么存储、计算现在是这么大的课题?刚才李阳总说到很多关于5G的前景,大家也知道现在AI是大势所趋,还有各种物联网、基因工程、自动驾驶车。大家想想这么多的新技术在高速发展,它们有着共同的特点是什么?数据。因为所有这些领域的发展它有一个共同的特点就是它会产生海量,比以往历史时期都要更多的数据。那么既然产生那么多的数据,我们需要怎么样呢?需要存储、需要传输、需要处理这些数据,所以这几个环节对于整个行业的基础架构来说是尤为重要的。
我们可以简单看一下,刚才这些新技术的发展会导致什么样的状态?在今后的5年、8年、10年里面,存储市场的增长是巨大的。这里主要说了一下MVMe,也就是今后存储以MVMe接口,这个产品的增长量,到2027年它基本上是4千多亿美金的市场,而且它的增速是非常快的,基本上每年都是在高速增长。不言而喻,存储这个市场是至关重要的。我们知道它的重要性,而且我们也需要理解在这个技术里面需要突破哪些关键点才有可能让我们跟上5G、物联网、AI、自动驾驶车这些领域的需求。
可以看一下在我们的数据中心里面,支持这些业务主要有三大块的事情考虑。
第一个是计算,就是最底层的计算。我们知道计算发展到今天,摩尔定律在过去的几十年都非常地有效,就是计算的每18个月增加两倍。最近的5年、10年这个趋势明显减缓甚至是基本上停滞不前,所以基本上我们可以说这个摩尔定律它变得非常难地在往前发展,所以为什么现在数据中心采用其他的计算加速的方式比如TPU、GPU甚至FPGA等技术来帮助英特尔的处理器来做这个计算。
第二大块是网络。我们知道网络这一端过去的10年出现非常快地发展, 从10Gbps, 25Gbps, 40Gbps 到100Gbps, 有了数量级的提高。
第三大块是存储!我们的服务器在过去的几十年一直是用硬盘。在过去的5年、8年用闪存作为存储介质的SSD取得很大的发展。
所以我们知道网络现在的带宽在大幅度打开,存储容量和性能也大幅度提升。现在问题其中很核心的一块,计算的瓶颈就出现了很大的挑战。数据多了,网络快了,存储快了,那计算的需求随之也会增加。怎么样来解决这个问题?
唯一的办法就是计算分流,就是在每个领域让计算的元素能够分布到各个相关的领域,比如说网络,最近非常火的Mellanox就是把一些计算卸载到网络这一块。同样的事情也会在存储这端发生. 今后一些和存储相关的计算在CPU很难负担这么多重负的计算情况下也自然而然分流到存储这一端,这就是我们今天要说的可计算存储,这也是今后整个数据中心基础架构里最核心的应用环节。
这基本上就覆盖了整个数据中心最核心的三个环节。今天主要要讲的怎么把计算和存储结合起来解决这个挑战。
简单说这个原理,我们知道在服务器里面主要是三个部件:存储、内存和处理器CPU。数据从存储搬到内存CPU进行计算,大家的应用越来越多,怎么办?最简单的方法是加服务器,满足不了需求我们加服务器,更多的存储,更多的内存,更多的计算能力,但是现在的数据是呈指数级的增长,我们没有办法靠不断买服务器满足这个需求,我们必须从技术上有更多的革新,让这个硬件的效率支撑这个数据海量的增长。怎么做这件事情?我们知道数据越来越多就会产生从存储到内存更多的瓶颈,CPU要处理这些数据也会让它大幅度减缓。
怎么解决这个问题?
最好的办法就是我们把快速的存储介质闪存以及CPU非常吃力的这些计算把它放在一起,这样的话让计算更靠近数据,更靠近存储,就会大幅度减少数据不必要的转移,另外对于特定的计算大幅度加速。同时并行速度得到大幅度的增加,因为整个服务器插槽最多的是存储。这就是我们说的可计算存储的概念。
怎么来做这件事情?
有好几种模式:第一种是把简单的存储一些计算功能下放到存储这一端,这样可以认为它是一个存储和计算二合一的设备或者一个盘,这样大家的应用软件可以通过API的调用来加速,实际上是简单把两个功能拼放在一起。有没有更好的办法?更进一步的办法是可以把一些计算的负荷放在数据的通道上面,这样的话当我们读写这些数据的时候,相应的计算能够相应地直接放在数据通道里面,这有什么好处?可以看到这个数据的移动得到了很大的简化,这样效率也能得到很大的提高。第三种我们可以说是In-storageprocessing这样进一步减少不必要的数据移动,这种方式能够在进一步提高计算和存储的效率。
我们知道计算有很多种方式,大家有的是用通用的CPU像英特尔的服务器的CPU或者是用ARM或者是固定的电路或者是FPGA。哪种方式最适合来做计算?我们知道这个市场发展演变非常快,通常来说ASIC周期又非常长,虽然知道它的功耗、性能可以做得很好,通用的CPU刚才说这是摩尔定律到了现在很难负担那么多的计算。所以在早期一个新的创新, FPGA会是一个很好的选择,因为可以用很快的模型验证和数据中心来验证哪些适合放在存储这一段,所以FPGA这个时候是非常适合的选择,而且特定的计算可以有5-100倍的提升。举个例子比如非常常见在大数据库用的压缩,如果我们现在用CPU来做这件事情,假设放4张SSD在这,我们的瓶颈是在存储上面,但是如果能把这个计算相应放在每个盘上的话,可以看到这个性能可以呈线性的增长,基本上你的盘,你的容量,你的IO增加得越多,同时这个计算也能得到相应的增长,这样的话就能很好地解决这个瓶颈。第二个例子我们知道CPU做模糊查找非常难,如果用16核的CPU算大概只能到700兆,把数据放在服务器里面假设一个服务器能放24张高性能的SSD,我们用不了,为什么?因为这个瓶颈还是在计算,还是在CPU上面,所以不管放多少SSD都无法控解决这个问题。但是如果在每个盘加入这个计算的话可以看到这些瓶颈得到解决,而且这个效率得到数量级的提升,这就是Computational Storage 可以同时解决计算和存储的问题的关键所在。
整个基础架构从存储、计算再到上一层的数据平台,数据库和大数据的平台再到上一层的应用像AI、基因检测,利用这种模式都可以很好地来解决存储和计算瓶颈不均衡的问题。
另外一个刚才提到在数据中心里面,业务发展非常快,所以创新的频率要非常地快,所以刚才我们说为什么一开始FPGA是很好的选择,因为可以很好地和最新的存储介质相结合,能够和数据中心的应用结合起来,验证这个有效性。
很多大数据的应用在采用了Computational storage,在应用层面它有大幅度的提升,而且适合于非常多种类的数据库大数据的应用,从Hadoop,分布式存储等等在各种程度上得到大幅度的提升,而且物理形态非常简单,能和所有的通用服务器厂商像浪潮、联想、戴尔等服务器厂商非常好地进行兼容,虽然我们在改变和存储和计算的数据流通,但是在物理结构上,我们并没有去改变服务器基本的架构,所以能很好地和这些服务器厂商兼容,服务于开源领域甚至是闭源领域的数据库大数据的应用,是非常非常方便的方式。
再回过头看一下在过去的十几年,在存储领域发生了哪些技术的创新?我们知道可能在2010年之前,大家基本上看不到SSD,在2006年的时候就有一波的创业公司当时在硅谷和以色列把SSD的控制器芯片这个技术带到市场上。这些创业公司在很早的时候把SSD控制器的技术带到市场之后,后来三星、英特尔这些大厂相继把市场扩大化,这个时候创新移到下一步,所以可以看到超融合系统、全闪存系列等等,怎么把技术在系统层面发挥它更大的作用,后来出现非常多优秀的公司像Nutanix,Purestorage等等。我们是时候看看今后5-10年会发生怎样的趋势?Computational Storage,数据的增长和计算出现瓶颈之后,下一步的创新来解决这个问题,那计算和存储的融合是非常非常重要的部分,这就是我们现在ScaleFlux在做的事情。
这件事情在2014年底看到这个方向来做这个事情,当时业界对这个还不是特别感觉,在短短的几年内尤其是去年发布了这个产品的试用和上线之后,看到整个工业界对这个技术趋势有很大的认可,我们是第一个产品化这个技术并用到数据中心真实应用的公司。三星以及硅谷的另外两家创业公司也在这方面投入了很大的精力。现在大家看到这个是存储和计算今后发展的必然趋势,因为没有更好的办法解决这些挑战。现在大家能想象到的存储和计算的国际大厂商纷纷加入,包括英特尔、ARM甚至IBM,Oracle这些传统公司纷纷加入到这里,所以整个行业的趋势是非常好的,我们也是为这个行业做出小小的贡献,感觉到非常地自豪。Computational Storage整个技术的趋势在整个业界现在是已经得到了确定。一个SNIA的组织也把这些公司集合在一起,大家开始制定这个标准,就是可计算存储的标准。
这是我想和大家分享的。
钟浩 ScaleFlux创始人兼CEO