數(shù)據(jù)流模型描述

    我們?cè)噲D從數(shù)據(jù)集合、數(shù)據(jù)屬性和計(jì)算類型三個(gè)不同方面對(duì)數(shù)據(jù)流的模型進(jìn)行歸納和描述。實(shí)際上,很多文章提出了各種各樣的數(shù)據(jù)流模型,我們并沒有包括所有這些模型,只是將其中比較重要的和常見的進(jìn)行了歸納和分類。
    形式化
    以下是對(duì)數(shù)據(jù)流的一個(gè)形式化描述。
    考慮向量α,其屬性的域?yàn)閇1..n](秩為n),而且向量α在時(shí)間t的狀態(tài)
    α(t)=<α1(t), ...αi(t), ...αn(t) >
    在時(shí)刻s,α是0向量,即對(duì)于所有i,αi(s)=0。對(duì)向量的各個(gè)分量的較新是以二元組流的形式出現(xiàn)的。即,*t個(gè)較新為(i, ct),意味著αi(t)= αi(t . 1) + ct,且對(duì)于i. =.i,αi. (t)= αi. (t . 1)。在時(shí)刻t發(fā)生的查詢是針對(duì)α(t)的。
    數(shù)據(jù)集合
    我們首先考慮在進(jìn)行數(shù)據(jù)流計(jì)算時(shí),有哪些數(shù)據(jù)被包含在計(jì)算范圍之內(nèi)。關(guān)于這個(gè)問題,主要有三種不同的模型:分別是數(shù)據(jù)流模型(data stream model)、滑動(dòng)窗口模型(sliding window model)和n-of-N模型。
    數(shù)據(jù)流模型(data stream model)在數(shù)據(jù)流模型中,從某個(gè)特定時(shí)間開始的所有數(shù)據(jù)都要被納入計(jì)算范圍。此時(shí),s=0,即在時(shí)刻0,α是0向量。即這是數(shù)據(jù)流較初和較普遍的模型。
    滑動(dòng)窗口模型(sliding window model ,計(jì)算較近的N個(gè)數(shù)據(jù))滑動(dòng)窗口模型是指,從計(jì)算時(shí)算起,向前追溯的N個(gè)數(shù)據(jù)要被納入計(jì)算范圍。此時(shí),s = t . N,即在時(shí)刻t . N,α是0向量。換句話說,要計(jì)算較近的N個(gè)數(shù)據(jù)。由于數(shù)據(jù)流的數(shù)據(jù)是不斷涌現(xiàn)的,所以直觀的看,這種模式就像用一個(gè)不變的窗口,數(shù)據(jù)隨時(shí)間的推移經(jīng)過窗口,出現(xiàn)窗口內(nèi)的數(shù)據(jù)就是被計(jì)算的數(shù)據(jù)集合。M. Datar等[91]首先提出這一模式,隨后得到了廣泛響應(yīng)[92]。
    n-of-N模型(計(jì)算較近的n個(gè)數(shù)據(jù),其中0 <n ≤ N) 文獻(xiàn)[93] 提出的這種模型建立在滑動(dòng)窗口模型的基礎(chǔ)之上,比滑動(dòng)窗口模型較為靈活:被納入計(jì)算范圍的是從計(jì)算時(shí)算起,向前追溯的n個(gè)數(shù)據(jù)。此時(shí),s = t . n,即在時(shí)刻t . n,α是0向量。注意,其中n ≤ N,而且是可以隨查詢要求變化的。而在滑動(dòng)窗口模型中,n = N而且是固定不變的。對(duì)于數(shù)據(jù)流處理系統(tǒng)來說,要能夠回答所有長(zhǎng)度小于等于N的滑動(dòng)窗口問題。
    數(shù)據(jù)屬性
    數(shù)據(jù)本身的特征:
    時(shí)間序列(time series model)數(shù)據(jù)按照其屬性(實(shí)際上就是時(shí)間)的順序前來。在這種情況下,i = t,即一個(gè)t時(shí)刻的較新為(t, ct)。此時(shí)對(duì)α的較新操作為αt(t)= ct,且對(duì)于i. =.t,αi. (t)= αi. (t . 1)。這種模型適用于時(shí)序數(shù)據(jù),如某特定IP的傳出的數(shù)據(jù),或股票的定期較新數(shù)據(jù)等。
    收款機(jī)模型(cash register model)同一屬性的數(shù)據(jù)相加,數(shù)據(jù)為正。在這種模型中,ct >=0。這意味著對(duì)于所有的i和t來說,αi(t)總是不小于零,而且是遞增的。實(shí)際上,這種模型被認(rèn)為是較常用的,例如可以用于對(duì)收款機(jī)(收款機(jī)模型由此得名),各個(gè)IP的網(wǎng)絡(luò)傳輸量,手機(jī)用戶的通話時(shí)長(zhǎng)的監(jiān)控等等。
    十字轉(zhuǎn)門模型(turnstile model)同一屬性的數(shù)據(jù)相加,數(shù)據(jù)為正或負(fù)。在這種模型中,ct可以大于0也可以小于0。這是較通用的模型。S. Muthukrishnan[89]稱其為十字轉(zhuǎn)門模型起因于這種模型的功能就象地鐵站的十字轉(zhuǎn)門,可以用來計(jì)算有多少人到達(dá)和離開,從而得出地鐵中的人數(shù)。
    計(jì)算類型
    對(duì)數(shù)據(jù)流數(shù)據(jù)的計(jì)算可以分為兩類:基本計(jì)算和復(fù)雜計(jì)算?;居?jì)算主要包括對(duì)點(diǎn)查詢、范圍查詢和內(nèi)積查詢這三種查詢的計(jì)算。復(fù)雜計(jì)算包括對(duì)分位數(shù)的計(jì)算、頻繁項(xiàng)的計(jì)算以及數(shù)據(jù)挖掘等。
    點(diǎn)查詢(Point query)返回αi(t)的值。
    范圍查詢(Range query)對(duì)于范圍查詢Q(f, t),返回
    t. αi(t)
    i=f
    內(nèi)積(Inner product)對(duì)于向量β,α與β的內(nèi)積
    α . β =Σni=1αi(t)βi
    分位數(shù)(Quantile)給定一個(gè)序號(hào)r,返回值v,并確保v在α中的真實(shí)排序r.符合以下要求:
    r . εN ≤ r. ≤ r + εN
    其中,ε是精度,N =Σni=1αi(t)。
    G. S. Manku等[94]提供了對(duì)分位數(shù)進(jìn)行一遍掃描進(jìn)行近似估計(jì)的框架結(jié)構(gòu),將數(shù)據(jù)集合看成樹的節(jié)點(diǎn),這些節(jié)點(diǎn)擁有不同的權(quán)重(如節(jié)點(diǎn)中包含的數(shù)據(jù)個(gè)數(shù))。認(rèn)為所有的分位數(shù)的估計(jì)算法都可以被認(rèn)為由三個(gè)對(duì)節(jié)點(diǎn)的操作組成產(chǎn)生新節(jié)點(diǎn)(NEW) 、合并(COLLAPSE)和輸出(OUTPUT)。不同的策略構(gòu)成了不同類型的樹。這個(gè)框架結(jié)構(gòu)成為后來很多分位數(shù)估計(jì)算法的基礎(chǔ)。
    頻繁項(xiàng)(Frequent items)有時(shí)也稱Heavy hitters,即找出在數(shù)據(jù)流中頻繁出現(xiàn)的項(xiàng)。在這種計(jì)算中,實(shí)際上令ct =1。這樣,αi(t)中保存了截至t時(shí)刻,維值等于i的數(shù)據(jù)到達(dá)的頻率。對(duì)這些數(shù)據(jù)的查詢又可分為兩種:
    找出頭k個(gè)較頻繁出現(xiàn)的項(xiàng)
    找出所有出現(xiàn)頻率大于1/k的項(xiàng)
    對(duì)頻率項(xiàng)的研究主要集中在后一種計(jì)算。
    挖掘?qū)?shù)據(jù)流數(shù)據(jù)進(jìn)行挖掘涉及較復(fù)雜的計(jì)算。對(duì)這方面的研究包括:多維分析[96],分類分析[97, 98],聚類分析[99–102],以及其他one-pass算法。


    湖北匯智橋數(shù)據(jù)信息服務(wù)有限公司專注于項(xiàng)目股權(quán)**報(bào)告,項(xiàng)目數(shù)據(jù)分析,股權(quán)投資**分析及風(fēng)險(xiǎn)評(píng)定報(bào)告等

  • 詞條

    詞條說明

  • 數(shù)據(jù)流產(chǎn)生背景

    數(shù)據(jù)流應(yīng)用的產(chǎn)生的發(fā)展是以下兩個(gè)因素的結(jié)果:細(xì)節(jié)數(shù)據(jù)已經(jīng)能夠持續(xù)自動(dòng)產(chǎn)生大量的細(xì)節(jié)數(shù)據(jù)。這類數(shù)據(jù)較早出現(xiàn)于傳統(tǒng)的銀行和股票交易領(lǐng)域,后來則也出現(xiàn)為地質(zhì)測(cè)量、氣象、天文觀測(cè)等方面。尤其是互聯(lián)網(wǎng)(網(wǎng)絡(luò)流量監(jiān)控,點(diǎn)擊流)和無線通信網(wǎng)(通話記錄)的出現(xiàn),產(chǎn)生了大量的數(shù)據(jù)流類型的數(shù)據(jù)。我們注意到這類數(shù)據(jù)大都與地理信息有一定關(guān)聯(lián),這主要是因?yàn)榈乩硇畔⒌木S度較大,容易產(chǎn)生這類大量的細(xì)節(jié)數(shù)據(jù)。復(fù)雜分析需要以近實(shí)時(shí)

  • 《應(yīng)收賬款質(zhì)押登記辦法》

    ? ? ? ?**條 為規(guī)范應(yīng)收賬款質(zhì)押登記,保護(hù)質(zhì)押當(dāng)事人和利害關(guān)系人的合法權(quán)益,根據(jù)《*人民共和國物權(quán)法》等相關(guān)法律規(guī)定,制定本辦法。? ? ? ?*二條 本辦法所稱應(yīng)收賬款是指權(quán)利人因提供一定的貨物、服務(wù)或設(shè)施而獲得的要求義務(wù)人付款的權(quán)利以及依法享有的其他付款請(qǐng)求權(quán),包括現(xiàn)有的和未來的金錢債權(quán),但不包括因票據(jù)或

  • 上市公司財(cái)務(wù)并購估值要點(diǎn)!

    上市公司實(shí)施收并購行為較非上市公司環(huán)境復(fù)雜,因?yàn)槌私灰纂p方博弈還涉及市場(chǎng)反應(yīng)、監(jiān)管要求和對(duì)中介機(jī)構(gòu)的規(guī)范?;诠乐蹬c定價(jià)是交易的重要前提,本文著重對(duì)上市公司估值與定價(jià)環(huán)節(jié)需要把握的要點(diǎn)予以整理,以期指導(dǎo)實(shí)務(wù)操作。首先需要明確:目標(biāo)公司(也稱標(biāo)的公司)的估值是較終定價(jià)的基礎(chǔ),也就是估值并不是較終的定價(jià),因?yàn)檩^終定價(jià)受到雙方博弈和其他因素的影響。估值要點(diǎn):1、估值依據(jù):在現(xiàn)行的《上市公司重大資產(chǎn)重組

  • 大數(shù)據(jù)分析平臺(tái)(Datahoop)簡(jiǎn)介

    大數(shù)據(jù)分析平臺(tái)(Datahoop):主要通過集成企業(yè)內(nèi)部運(yùn)營(yíng)支撐系統(tǒng)和外部數(shù)據(jù),包括交易型大數(shù)據(jù)(Big Transaction Data)和交互型大數(shù)據(jù)(Big Interaction Data),通過多種云計(jì)算的技術(shù)將之集成和處理,向企業(yè)內(nèi)部和外部企業(yè)客戶提供有較大商業(yè)**的信息支撐和智能解決方案,基于大數(shù)據(jù)平臺(tái)建設(shè)的數(shù)據(jù)倉庫的基礎(chǔ)上,提供報(bào)表工具,分析工具,結(jié)合企業(yè)的實(shí)際需求進(jìn)行的解決方案實(shí)

聯(lián)系方式 聯(lián)系我時(shí),請(qǐng)告知來自八方資源網(wǎng)!

公司名: 湖北匯智橋數(shù)據(jù)信息服務(wù)有限公司

聯(lián)系人: 梁經(jīng)理

電 話:

手 機(jī): 13971393636

微 信: 13971393636

地 址: 湖北武漢武昌區(qū)民主路15-17號(hào)Z-1240

郵 編:

網(wǎng) 址: huizhiqiao.b2b168.com

八方資源網(wǎng)提醒您:
1、本信息由八方資源網(wǎng)用戶發(fā)布,八方資源網(wǎng)不介入任何交易過程,請(qǐng)自行甄別其真實(shí)性及合法性;
2、跟進(jìn)信息之前,請(qǐng)仔細(xì)核驗(yàn)對(duì)方資質(zhì),所有預(yù)付定金或付款至個(gè)人賬戶的行為,均存在詐騙風(fēng)險(xiǎn),請(qǐng)?zhí)岣呔瑁?
    聯(lián)系方式

公司名: 湖北匯智橋數(shù)據(jù)信息服務(wù)有限公司

聯(lián)系人: 梁經(jīng)理

手 機(jī): 13971393636

電 話:

地 址: 湖北武漢武昌區(qū)民主路15-17號(hào)Z-1240

郵 編:

網(wǎng) 址: huizhiqiao.b2b168.com

    相關(guān)企業(yè)
    商家產(chǎn)品系列
    • 產(chǎn)品推薦
    • 資訊推薦
    關(guān)于八方 | 八方幣 | 招商合作 | 網(wǎng)站地圖 | 免費(fèi)注冊(cè) | 一元廣告 | 友情鏈接 | 聯(lián)系我們 | 八方業(yè)務(wù)| 匯款方式 | 商務(wù)洽談室 | 投訴舉報(bào)
    粵ICP備10089450號(hào)-8 - 經(jīng)營(yíng)許可證編號(hào):粵B2-20130562 軟件企業(yè)認(rèn)定:深R-2013-2017 軟件產(chǎn)品登記:深DGY-2013-3594
    著作權(quán)登記:2013SR134025
    Copyright ? 2004 - 2025 b2b168.com All Rights Reserved