今年四月,西雅图的气温已经达到华氏90度。这不是抱怨,但人们绝对相信全球变暖正在发生,需要做出一些改变来解决它。但本文并不讨论关于气候变化问题,而是关于数据的问题。具体而言,这是关于非结构化数据的增长问题,如果我们继续否认这个问题,并忽略警告的话,将会面临悲观的命运。这听起来是不是很熟悉?
人们很难对非结构化数据增长的证据进行争论,估计会与研究机构所公布的有所不同,但普遍的共识是,直到2020年将会产生40-50泽字节,其中非结构化数据将占80%-90%。
是什么推动了非结构化数据的增长?
数据增长来自于很多地方。当然也有像4K高清电影、电视节目、电影、图片,以及我们每天都在使用的智能手机的图像,但是非结构化数据的增长源要这些广泛得多。还有在各种不同行业的大量机器和传感器,例如,工程和设计,金融服务,地理空间探索,医疗保健,以及更多的数据驱动的行业日常产生的大量数据。随着摄像头分辨率和保存时间的增长,单是视频监控每天产生的非结构化数据几乎达到艾字节。
这些不同的数据集具有一些共同的特点。通常情况下,它们分别是:
•大文件的组成;
•即不可压缩的数据,如重复数据删除技术无法有效降低数据;
•对创造数据的公司、部门或用户有一定的价值;
•保存多年。
与全球变暖的相似之处
那么,非结构化数据的增长如何像全球变暖一样?
人们所表现的就像是不存在这样的问题:公司每天产生的数据都在喷涌而出,越来越多的非结构化数据进入到他们的IT环境,但是当它涉及到管理这种增长时,一切照常。尽管所有证据与之相反,许多企业仍在尝试使用数据存储,他们一直使用相同的方法来管理和存储非结构化数据集,他们把数据都存储在磁盘上。这种方法开始分解在数据的规模和比例。超出生长成本以外,随着时间的推移,将内容摄取到存储系统的速度不够快,随着时间的失衡,其能力下降,而传统的备份方法不再足以保护数据。
对于这些庞大机器和传感器生成的数据集,明确了不同的方式来存储和管理这个数据是必需的。
这样的例子不胜枚举,但问题是,对于这些类型的数据集,冷数据变得更有价值或变得更“热”,需要改变数据的存储方式。即使需要保持用户访问的归档数据。
•有关电影或电视演播室生成的视频内容,可以重新利用并重新分配,想想“幕后”你最喜欢的电视真人秀节目。
•零售企业分析视频监控录像,跟踪购物模式,并使用洞察力,以增加销售。
•科学家们能够在几年前的数据集上进行分析,以获得新的见解,并在他们的领域推进新的创新。
•自主轿车开发者使用在早期试驾生成的视频和传感器数据,使自动驾驶汽车更加安全高效。
对于这些类型的数据集,因为冷数据变得更有价值或“升温”,该数据的存储方法需要改变。即使存档的数据需要保持用户的访问。
现在有必要行动。在你下一个大订单的磁盘存储之前,现在是停止和考虑其他的替代品。坚持现状是最简单的方法,也是一个导致多余的存储成本和效率低下的问题。
这个解决方案是什么?
为了解决这个问题,我们首先介绍一下可能是一个新的术语:数据工作流。在某些行业中,这是一个共同的术语,但对于许多行业来说,它可能是一个新概念,尽管是一个直观的概念。所有这些非结构化的数据集,这是迄今为止与之相关的一个工作流。它看起来像这样的东西:数据被产生或捕获,摄入到存储系统,并进行存储和处理,以达到一定的结果(通常需要许多用户之间的协作),然后数据归档长期保存和重新使用。这个过程对使用存储系统更加有效,该存储系统从一开始就为特定的数据集的工作流程所定制。
当需要时,工作流存储必须处理高性能摄取。在网络上共享也同样关键,以获得协作的能力,以及降低存储的成本,例如采用磁带,同时保持在网络上的用户和应用程序需要访问的数据。这是最后一块真正能走出来的存档数据的方式,不会破坏其价值和能力。
这个以工作流程为基础的存储方法,与将所有数据保存在闪存或机械磁盘相比,其结果显著降低了成本,并使其他组织可以存储更多的自己的数据。
而且兼顾环保节能
通过使用分层存储,可以将这些数据保存在低成本、低功耗的存储介质中,例如磁带,你实际上是在做一部分有益于环境的事,以应对全球变暖。
文章来源:机房专用完美在线(中国) http://www.niucirugiaplastica.com