数据流区别特征

2022-09-09 浏览次数:95
与传统的关系数据模式区别
B.Babcock等[90]认为数据流模式在以下几个方面不同于传统的关系数据模式:
1. 数据联机到达;
2. 处理系统无法控制所处理的数据的到达顺序;
3. 数据可能是无限多的;
4. 由于数据量的庞大,数据流中的元素被处理后将被抛弃或存档(archive)。以后再想获取这些数据将会很困难,除非将数据存储在内存中,但由于内存大小通常远远小于数据流数据的数量,因此实际上通常只能在数据**次到达时获取数据。
三个特点
我们认为,当前所研究的数据流计算之所以不同于传统的计算模式,关键在于这些数据流数据本身具有如下三个特点:
数据的到达—快速
这意味着短时间内可能会有大量的输入数据需要处理。这对处理器和输入输出设备来说都是一个较大的负担,因此对数据流的处理应尽可能简单。

数据流
数据的范围—广域
这是指数据属性(维)的取值范围非常大,可能取的值非常多,如地域、手机号码、人、网络节点等。这才是导致数据流无法在内存或硬盘中存储的主要原因。如果维度小,即使到来的数据量很大,也可以在较小的存储器中保存这些数据。例如,对于无线通信网来说,同样的100万条通话记录,如果只有1000个用户,那么使用1000个存储单位就可以保存足够多和足够精确的数据来回答“某一用户的累计通话时间有多长”的问题;而如果共有100000个用户,要保存这些信息,就需要100000个存储单位。数据流数据的属性大多与地理信息、IP地址、手机号码等有关,而且往往与时间联系在一起。这时,数据的维度远远**过了内存和硬盘容量,这意味着系统无法完整保存这些信息,通常只能在数据到达的时候存取数据一次。
数据到达的时间—持续
数据的持续到达意味着数据量可能是无限的。而且,对数据进行处理的结果不会是较终的结果,因为数据还会不断地到达。因此,对数据流的查询的结果往往不是一次性而是持续的,即随着底层数据的到达而不断返回较新的结果。
以上数据流的特点决定了数据流处理的特点一次存取,持续处理,有限存储,近似结果,快速响应。
近似结果是在**个条件限制下产生的必然结果。由于只能存取数据一次,而且只有相对较小的有限空间存储数据,因此产生精确的计算结果通常是不可能的。而将对结果的要求从过去的“精确”改为“近似”后,实现数据流查询的快速响应也就成为了可能。

huizhiqiao.b2b168.com/m/
联系我们

在线客服: 308177750

联系人:梁经理

联系电话: 13971393636