大数据(big data,mega data),或称巨量资料,指的是需要新处理模式才能具有更强的决策力、洞察力和流程优化能力的海量、高增长率和多样化的信息资产。在维克托·迈尔-舍恩伯格及肯尼斯·库克耶编写的《大数据时代》中大数据指不用随机分析法(抽样调查)这样的捷径,而采用所有数据进行分析处理。大数据的4V特点:Volume(大量)、Velocity(高速)、Variety(多样)、Value(价值)。
除了有以上四个特性之外,大数据时代的数据还呈现出其他三个特性。第一的特性就是数据类型繁多。包括网络日志、音频、视频、图片、地理位置等,多类型的数据对数据的处理能力提出了更高的要求。第二个特性是数据价值密度相对较低。如随着物联网的广泛应用,信息感知无处不在,信息海量,但是价值密度较低,如何通过强大的机器算法更迅速地完成数据的价值的“提纯”,是大数据时代亟待解决的难题。
在了解大数据之前要先弄明白“大数据”和“数据”的区别,过去我们说的“数据”很大程度上是指“数字”,如我们所说的客户量,业务量,营业收入额,利润额等等,都是一个个数字或者是可以进行编码的简单文本,这些数据分析起来相对简单,过去传统的数据解决方案(如数据库或商业智能技术)就能轻松应对;而今天我们所说的“大数据”则不单纯指“数字”,可能还包括“文本,图片,音频,视频……”等多种格式,其涵括的内容十分丰富,如我们的博客,微博,轻博客,我们的音频视频分享,我们的通话录音,我们位置信息,我们的点评信息,我们的交易信息,互动信息等等,包罗万象。用正规的语句来概括就是,“数据”是结构化的,而“大数据”则包括了“结构化数据”“半结构化数据”和“非结构化数据”。相比“数据”,“大数据”有两个明显的特征:1,、数据的属性是包括结构化、非结构化和半结构化;2、数据之间频繁产生交互,大规模进行数据分析,并将事实与业务结合进行数据挖掘。对于结构化、半结构化、非结构化人们不是那么容易理解,其实人们可以这样理解,由于数据是结构化的,数据分析可以遵循一定的现有规律,如通过一定的线性相关或者某种趋势来分析预测下个月永夜收入额,而大数据是半结构化和非结构化得,其在分析过程中遵循的规律性则是未知的,它是通过综合各方面的信息进行模拟,从而假设应答结果,并计算每种可能性的可信度,通过大数据分析我们可以准确找到下一个市场热点。在弄明白数据与大数据之间的区别,那么再次分析理解大数据就简单多了。
大数据之所以让人这么捉摸不透是因为它有着广泛的来源,它可以来自企业内部自身的信息系统中产生的运营数据,这些数据大多是标准化、结构化的,而另外一部分则来自外部,包括广泛存在于社交网络、物联网、电子商务等之中的非结构化数据。由于数据的来源不同,所以不同的数据所传递的消息也是不同的,所以在分析这些数据时是很困难的,一般来说企业用以分析的数据来源越广越全面,其分析的结果就越立体,越接近真实,因此大数据分析又意味着企业能够从不同来源的数据中获取新的洞察力,并将其与企业业务体系的各个细节互相融合,以助力企业在创新上有所突破。所以这就表明了企业要想获取更精确的数据分析结果就必须要去从方方面面的去收集数据,尽可能多的挖据全面的数据,来获取更加全面的消息,从而得到更加严谨的分析结果。亚马逊CTO Vogels曾经说过,“在运用大数据时,你会发现数据越大,结果越好。为什么有的企业在商业上不断犯错?那是因为他们没有足够的数据对运营和决策提供支持。一旦进入大数据的世界,企业的手中将握有无限可能。”可以预料,在不远的未来,企业如何通过抓住用户获取源源不断的数据资产将会是一个新的兵家必争之地。这并不难理解,就如同我们逛商场一样,我们也会咨询很多卖家从而得到更多的产品消息,在此之间我们会得到很多种类型的消息,然后对这些消息进行分析来得到我们想要的效果。当然在此之前你要先想明白你想从得到的是什么,然后再去收集对你有用的数据,要带着目的去收集有用的数据。否则你将花费大量时间、资源成本去获取数据,分析数据。我们需要大数据应用是能够帮助解决问题的行为洞察,而不是试图研究每一条能够得到的信息。不得不说,大数据的世界太魔幻了,里面的诱惑很多,如果你不是带着明确的目标去应用,你很有可能被陷入在五光十色的诱惑中无法自拔。即使你走进了一座金山,最后你能带走的最多也只是你能提动的一小口袋。
总之随着云计算的到来,大数据时代也接涌而至,我们正处于一个“大数据”时代,这个时代的经济、政治、文化、生活等方面都会发生巨大的变化,这个时代的我们面临着更大的挑战与机遇。郑州软件开发