• <code id="qkqy2"><abbr id="qkqy2"></abbr></code>
    <dfn id="qkqy2"><dd id="qkqy2"></dd></dfn>
    <rt id="qkqy2"><em id="qkqy2"></em></rt>

    四川中衛(wèi)北斗科技有限公司

    在線咨詢
    微信

    微信掃一掃

    長按二維碼關注微信加好友

    關于《我為什么要強烈反對:對著數(shù)據(jù)做數(shù)據(jù)的研究》的討論

    發(fā)布時間:2018-07-05 11:19

    前兩天公眾號所發(fā)出的推文《我為什么要強烈反對:對著數(shù)據(jù)做數(shù)據(jù)的研究》,引發(fā)了很多有益的討論。交通大數(shù)據(jù)分析研究的水面過于平靜,激起點波瀾是好事情??戳舜蠹业挠^點,感到有必要談一下自己的想法。

    首先,作者所提出的討論問題的框架(“定義-> 數(shù)據(jù)源->計算方法-> 擴樣方法-> 數(shù)據(jù)校核”)是數(shù)據(jù)分析的討論模式。這并非是說大數(shù)據(jù)分析不需要這方面的工作,由于大數(shù)據(jù)分析是建立在基于數(shù)據(jù)的統(tǒng)計分析基礎之上,必要的數(shù)據(jù)質量評估和數(shù)據(jù)修復是前提和基礎,但遠非全部。在大數(shù)據(jù)分析中采用“是否獲得確切的結論”,而不是采用“是否獲得有價值信息”的方式討論一些局部研究工作是不恰當?shù)摹?/p>

    同時需要注意的是大數(shù)據(jù)分析要盡可能避免“擴樣”,這一方面是大樣本分析與小樣本分析具有本質性的差異。小樣本方法也稱為“精確方法”,因為它往往是基于有關統(tǒng)計量的精確分布,小樣本方法的統(tǒng)計特性,如顯著性水平、置信系數(shù)等,往往是精確而非近似的。大樣本方法則被稱為“漸近方法”或“近似方法”,因為它是基于統(tǒng)計量的漸近分布,且有關的統(tǒng)計特性只是近似而非精確的,因而產(chǎn)生了近似程度如何的問題。更為重要的是,大數(shù)據(jù)具有很強的“蓋然性”特征(蓋然性在《現(xiàn)代漢語詞典》中的解釋是:有可能但又不是必然的性質)。由于大數(shù)據(jù)分析所使用的數(shù)據(jù)資源并非針對分析目的的“定制數(shù)據(jù)”(就如移動通信信令數(shù)據(jù)并非專為空間活動檢測的數(shù)據(jù)),其中的屬性判斷涉及“否定-模糊-肯定”三個值域,相當部分個體的屬性判斷是落在“模糊”區(qū)域的。在職住空間聯(lián)系結構的判斷中,就涉及對于是否就業(yè)者的判斷。缺乏個體社會屬性信息情況下,僅僅根據(jù)用戶空間活動特征必然存在相當部分難以判斷,而試圖獲取個體社會經(jīng)濟屬性則是一條不能逾越的紅線。采用傳統(tǒng)數(shù)據(jù)分析方法進行擴樣,強行區(qū)分將中間難以判斷部分人歸入是或者否的范疇,反而會造成可信度(大數(shù)據(jù)分析中應該采用可信度而非精度)方面的問題。因此,交通大數(shù)據(jù)分析一般應該僅使用“否定”和“肯定”部分所提供的信息。當然這種信息是不完整的,這就是為什么我一直強調大數(shù)據(jù)分析所獲得的單項證據(jù)絕大多數(shù)為“間接證據(jù)”的原因。認為這種不完備證據(jù)不具有分析價值是嚴重偏離了大數(shù)據(jù)分析的初衷,大數(shù)據(jù)分析中恰恰非常強調低信息密度數(shù)據(jù)。大數(shù)據(jù)分析最為重要的一點,是充分利用各種有價值信息,多層次、多角度、連續(xù)地觀察研究對象,對具體數(shù)據(jù)分析的任務應定位于“是否可以獲取有價值的信息”,而非“獲取完備信息”(直接證據(jù))。交通大數(shù)據(jù)分析研究并非不知道信息缺陷,而是不放棄不完備信息(間接證據(jù)),力圖通過“證據(jù)鏈”,采用基于證據(jù)的“證-析”方法解決問題。作者所批評的“職住空間聯(lián)系結構”研究工作,糾結于400萬確定個體以外部分占有很大份額,是誤解了相關的研究目的,自認為該方面的研究是力圖通過移動通信信令數(shù)據(jù)來確切了解城市中的各種職住分布與職住空間聯(lián)系,但是該項研究主要目的是識別“職住的空間聯(lián)系結構”包括哪些類型(至于作者所提出的推文中沒有討論數(shù)據(jù)具體處理的質量分析問題,我已經(jīng)建議作者應該去看該碩士論文,而不是公眾號的短文)。事實上,對于交通角度的研究工作來說,如果為了研究當前通勤交通流量是完全沒有必要繞道“職住”關系這個圈子。采用移動通信信令數(shù)據(jù)研究“職住空間聯(lián)系結構”特征的工作,并非識別每一個具體“職住社區(qū)”的空間位置和范圍,主要是希望通過移動通信信令數(shù)據(jù)判斷城市中的職住“社區(qū)”(此社區(qū)并非城市規(guī)劃中的“社區(qū)”,而是復雜網(wǎng)絡中所定義的社區(qū))結構,以及識別城市中具有廣泛意義的職住的空間聯(lián)系關系究竟有幾種類型,以完成宏觀層面的問題結構判斷,為相關案例剖析和深入調研方案打基礎。作者混淆了大樣本分析與小樣本分析的差異,也沒有真正理解“大數(shù)據(jù)分析”與“數(shù)據(jù)分析”的不同,也不知道這部分工作是在“宏微觀嵌套分析框架”下進行的,因此文中的這部分結論我是完全不贊同的。

    面對大數(shù)據(jù),傳統(tǒng)統(tǒng)計意義上的數(shù)據(jù)校核往往是難以實現(xiàn)的,這正是李國杰院士提出在大數(shù)據(jù)科學中需要研究相關統(tǒng)計學新問題的原因。仍然以職住空間聯(lián)系結構研究為例,移動通信信令數(shù)據(jù)的基礎是移動通信基站服務范圍,在市域范圍內(nèi)基站服務范圍差異很大,中心城區(qū)內(nèi)是2-300米的半徑,而外圍地區(qū)則達到數(shù)公里乃至10公里左右,也就是說其空間坐標參照系是非均勻的,這意味著相當部分定位數(shù)據(jù)橫向是不可比的。即使采用質量更好的數(shù)據(jù),所確定的個體位置也是具有很大不確定性。想要通過盡力提升數(shù)據(jù)質量,獲取理想數(shù)據(jù)來完成數(shù)據(jù)分析工作,仍然沒有擺脫傳統(tǒng)數(shù)據(jù)分析的思維方式,有可能遇到難以克服的障礙。如果把視野擴展到交通大數(shù)據(jù)分析中的“輿情分析”,通過語義分析技術從網(wǎng)絡中提取的輿情信息,更加不是傳統(tǒng)數(shù)據(jù)檢驗能夠完成可信度評估的任務。交通大數(shù)據(jù)分析探索的是完全不同的另外一條研究路線:挖掘不完備數(shù)據(jù)資源的價值,通過將間接證據(jù)組合成為證據(jù)鏈來,基于證據(jù)鏈通過群決策完成問題識別與判斷。

    作者的題目強調批判“對著數(shù)據(jù)做數(shù)據(jù)的研究”,有可能混淆了技術應用研究與探索性科學研究的界限。城市交通已經(jīng)進入“物理-信息-社會”三元空間的時代,感知網(wǎng)、物聯(lián)網(wǎng)等技術發(fā)展使得數(shù)據(jù)繞過“人”而直接產(chǎn)生信息,信息空間有很強的獨立性。在此背景下交通大數(shù)據(jù)分析的任務并非是“利用更多的數(shù)據(jù)資源去對已有經(jīng)驗外延”(這應該是交通數(shù)據(jù)分析的任務),而是充分利用各種信息,盡力發(fā)現(xiàn)我們所不知道的問題,以更好地應對具有復雜適應性特征的城市交通演化。為此,必須展開大量的探索性研究工作,從并不完備的海量數(shù)據(jù)中提取有價值信息的方法,就是其中的一部分。缺少了這部分工作,根本談不上在大量“間接證據(jù)”的基礎上構建“證據(jù)鏈”,進而完成城市交通的“情報決策”。但是要注意“對著數(shù)據(jù)做數(shù)據(jù)的研究”與“僅根據(jù)不完備數(shù)據(jù)分析下結論”是兩個完全不同的概念,作者似乎沒有對此加以區(qū)分。前者是科學和技術發(fā)展需要的(再次強調由于技術的發(fā)展,信息已經(jīng)成為一個相對獨立的空間),后者是錯誤的。就像不能認為采用傳統(tǒng)數(shù)據(jù)分析方法進行規(guī)劃等方面的問題研究是錯誤路徑一樣,也不能認為在一定需求背景下展開針對數(shù)據(jù)本身的特征提取和情報決策研究是鉆牛角尖。前者是采用數(shù)據(jù)分析技術的應用研究,后者是構建交通大數(shù)據(jù)分析的理論與方法的研究,任務不同。

    交通大數(shù)據(jù)分析技術研究必然會有波折起伏,在這個過程中更多觀點的討論是非常必要,只有這樣才能夠真正完成科學和技術的升華。對于一個遠談不上成熟的領域,在學術上還是很有必要區(qū)分“數(shù)據(jù)分析”與“大數(shù)據(jù)分析”的差異,以避免引起混亂。

    掃一掃在手機上閱讀本文章

    版權所有? 四川中衛(wèi)北斗科技有限公司    蜀ICP備14007264號-3    技術支持: 竹子建站
    国产精品无码2021在线观看,欧美一级特黄特黄大片连接,亚洲欧洲无码一区2区无码,国产精品无套内谢 国产AⅤ视频一区二区三区 欧美亚洲国产卡通
  • <code id="qkqy2"><abbr id="qkqy2"></abbr></code>
    <dfn id="qkqy2"><dd id="qkqy2"></dd></dfn>
    <rt id="qkqy2"><em id="qkqy2"></em></rt>