清研智談 | 經(jīng)濟(jì)普查數(shù)據(jù)挖掘可視化分析探究與實(shí)現(xiàn)

經(jīng)濟(jì)普查與人口普查、農(nóng)業(yè)普查組成三大周期性全國(guó)普查項(xiàng)目。經(jīng)濟(jì)普查每五年進(jìn)行一次,分別在逢3、逢8的年份實(shí)施,我國(guó)已在2004年、2008年、2013年、2018年開(kāi)展了四次全國(guó)經(jīng)濟(jì)普查。今年開(kāi)展的是第五次全國(guó)經(jīng)濟(jì)普查。
經(jīng)濟(jì)普查是國(guó)家為掌握國(guó)民經(jīng)濟(jì)第二產(chǎn)業(yè)和第三產(chǎn)業(yè)的發(fā)展規(guī)模及布局,了解我國(guó)產(chǎn)業(yè)組織、產(chǎn)業(yè)結(jié)構(gòu)、產(chǎn)業(yè)技術(shù)的現(xiàn)狀以及各生產(chǎn)要素的構(gòu)成,摸清我國(guó)各類企業(yè)和單位能源消耗的基本情況,建立健全覆蓋國(guó)民經(jīng)濟(jì)各行業(yè)的基本單位名錄庫(kù)、基礎(chǔ)信息數(shù)據(jù)庫(kù)和統(tǒng)計(jì)電子地理信息系統(tǒng),為研究和制定國(guó)民經(jīng)濟(jì)和社會(huì)發(fā)展規(guī)劃,提高決策和管理水平而進(jìn)行的一項(xiàng)大型國(guó)情國(guó)力調(diào)查。
我國(guó)經(jīng)濟(jì)普查數(shù)據(jù)研究的現(xiàn)狀
我國(guó)對(duì)經(jīng)濟(jì)普查數(shù)據(jù)質(zhì)量的控制和評(píng)估貫穿于普查工作的全過(guò)程,從事前清查、事中登記錄入?yún)R總到事后抽查,都制訂了相應(yīng)的數(shù)據(jù)質(zhì)量控制和評(píng)估辦法。但現(xiàn)階段,我國(guó)統(tǒng)計(jì)機(jī)構(gòu)對(duì)經(jīng)濟(jì)普查數(shù)據(jù)的研究與國(guó)外存在較大的差距。歐美等大部分發(fā)達(dá)國(guó)家對(duì)經(jīng)濟(jì)普查數(shù)據(jù)的研究已經(jīng)進(jìn)入到 Web應(yīng)用、數(shù)據(jù)倉(cāng)庫(kù)應(yīng)用以及智能數(shù)據(jù)分析技術(shù)應(yīng)用階段,我國(guó)統(tǒng)計(jì)機(jī)構(gòu)還未能將智能數(shù)據(jù)分析技術(shù)真正應(yīng)用到經(jīng)濟(jì)普查數(shù)據(jù)中,仍較多的使用網(wǎng)絡(luò)技術(shù)和數(shù)據(jù)庫(kù)技術(shù)來(lái)獲得一些結(jié)果。在我國(guó)經(jīng)濟(jì)不斷發(fā)展、普查過(guò)程中調(diào)整數(shù)量不斷增加的形勢(shì)下工作量變得不堪重負(fù),且過(guò)多的人工操作環(huán)節(jié)存在較多的失誤機(jī)率,并會(huì)引起工作的滯后性。因此,普查工作需要依靠更高的科技進(jìn)行網(wǎng)絡(luò)數(shù)據(jù)傳輸、科學(xué)利用智能數(shù)據(jù)分析方法或數(shù)據(jù)挖掘方法研究普查數(shù)據(jù)結(jié)果的輔助。

我國(guó)經(jīng)濟(jì)普查數(shù)據(jù)挖掘需求分析
經(jīng)濟(jì)普查是全國(guó)重大的大型國(guó)情、國(guó)力調(diào)查,涉及全部的法人單位、產(chǎn)業(yè)活動(dòng)單位和個(gè)體經(jīng)營(yíng)戶。根據(jù)調(diào)查對(duì)象的不同,其調(diào)查內(nèi)容也不盡相同。而經(jīng)濟(jì)普查數(shù)據(jù)挖掘可視化分析歸根結(jié)底還是數(shù)據(jù)處理,這就離不開(kāi)數(shù)據(jù)存儲(chǔ)的管理。
數(shù)據(jù)存儲(chǔ)的管理即針對(duì)經(jīng)濟(jì)普查數(shù)據(jù)處理業(yè)務(wù)的需求,以數(shù)據(jù)錄入存儲(chǔ)和數(shù)據(jù)分析處理為兩個(gè)主要功能環(huán)節(jié),通過(guò)數(shù)據(jù)庫(kù)存儲(chǔ)技術(shù)滿足其錄入需求,數(shù)據(jù)庫(kù)腳本語(yǔ)言技術(shù)滿足其數(shù)據(jù)表處理需求,基于此思想完成數(shù)據(jù)儲(chǔ)存的需求分析,并通過(guò)需求分析的逐步深入,確定用戶管理、數(shù)據(jù)錄入、數(shù)據(jù)查詢和匯總、系統(tǒng)導(dǎo)航幫助以及系統(tǒng)安全管理等功能點(diǎn)。
智能數(shù)據(jù)分析則是在數(shù)據(jù)采集、統(tǒng)計(jì)和匯總的基礎(chǔ)上,利用智能化的分析的模型挖掘和發(fā)現(xiàn)普查數(shù)據(jù)關(guān)系、經(jīng)濟(jì)發(fā)展問(wèn)題、經(jīng)濟(jì)水平地域劃分、經(jīng)濟(jì)指標(biāo)等級(jí)狀況以及基于經(jīng)濟(jì)指標(biāo)的全國(guó)經(jīng)濟(jì)發(fā)展布局對(duì)策建議。智能數(shù)據(jù)分析需要滿足對(duì)現(xiàn)有數(shù)據(jù)庫(kù)技術(shù)無(wú)法統(tǒng)計(jì)出的數(shù)據(jù)報(bào)表進(jìn)行有效統(tǒng)計(jì)和聚類、需要協(xié)助數(shù)據(jù)庫(kù)技術(shù)以期更全面地發(fā)現(xiàn)問(wèn)題從而更全面地掌握全局、需要為經(jīng)濟(jì)發(fā)展的下一步規(guī)劃做好基礎(chǔ)分析工作和預(yù)測(cè)建議。

經(jīng)濟(jì)普查數(shù)據(jù)挖掘需求分析匯總
經(jīng)濟(jì)普查智能數(shù)據(jù)分析方法與實(shí)現(xiàn)
普查數(shù)據(jù)質(zhì)量是普查工作的生命線,針對(duì)我國(guó)“五經(jīng)普”調(diào)查對(duì)象數(shù)量大幅增加、查準(zhǔn)查實(shí)普查單位難度空前加大、首次統(tǒng)籌開(kāi)展投入產(chǎn)出調(diào)查等新特點(diǎn),經(jīng)濟(jì)普查智能數(shù)據(jù)分析方法至關(guān)重要。首先,我們對(duì)原始數(shù)據(jù)進(jìn)行預(yù)處理,包括數(shù)據(jù)清洗、缺失值處理等。然后,我們利用聚類分析對(duì)產(chǎn)業(yè)進(jìn)行分類,并利用關(guān)聯(lián)規(guī)則挖掘發(fā)現(xiàn)了不同產(chǎn)業(yè)之間的關(guān)聯(lián)關(guān)系。最后,我們利用柱狀圖、折線圖等可視化方法展示不同產(chǎn)業(yè)的產(chǎn)值、就業(yè)人數(shù)等信息,以及經(jīng)濟(jì)增長(zhǎng)、就業(yè)等隨時(shí)間變化的趨勢(shì)。
常規(guī)的智能數(shù)據(jù)分析種類繁多,比如粗糙模糊集、概率粗糙集、遺傳算法、基于決策樹(shù)的分類、貝葉斯分類、層次聚類、貝葉斯網(wǎng)、馬爾科夫網(wǎng)、影響圖決策以及增強(qiáng)學(xué)習(xí)型算法和數(shù)據(jù)融合分析等。結(jié)合經(jīng)濟(jì)普查特點(diǎn),可重點(diǎn)運(yùn)用分類和聚類的各種方法實(shí)現(xiàn)對(duì)經(jīng)濟(jì)普查的智能化分析,主要包括模糊聚類算法、MMD算法(又稱最大最小距離算法)、K-均值聚類法、FCM算法(又稱模糊的c-均值聚類法),這四類的基本原理、算法過(guò)程以及其于經(jīng)濟(jì)普查數(shù)據(jù)分析的實(shí)踐運(yùn)用于經(jīng)濟(jì)普查數(shù)據(jù)分析效果良好,能很好地解決經(jīng)濟(jì)普查數(shù)據(jù)分析中的問(wèn)題。
模糊聚類算法
模糊聚類算法是一種廣泛應(yīng)用的模糊數(shù)學(xué)方法,它根據(jù)研究對(duì)象本身的屬性來(lái)構(gòu)造模糊矩陣,并模糊聚類算法是一種廣泛應(yīng)用的模糊數(shù)學(xué)方法,它根據(jù)研究對(duì)象本身的屬性來(lái)構(gòu)造模糊矩陣,并在此基礎(chǔ)上根據(jù)一定的隸屬度來(lái)確定聚類關(guān)系。聚類是無(wú)監(jiān)督學(xué)習(xí)的一種重要方法,旨在將相似的樣本聚集在同一個(gè)類中,使得它們之間的距離或相似度較高,而非相似的樣本則分散在不同的類中。
模糊聚類算法通常用一個(gè)向量來(lái)表示一個(gè)數(shù)據(jù)點(diǎn)的歸屬,向量中哪個(gè)維度的數(shù)值更大,意味著該數(shù)據(jù)點(diǎn)距離該維度對(duì)應(yīng)簇更近,即歸屬于該簇的概率越大。在模糊聚類分析中,每個(gè)樣本點(diǎn)對(duì)各個(gè)簇的隸屬度是不同的,而不僅僅是屬于某一類或不屬于某一類。
MMD(Maximum Mean Discrepancy)算法
MMD(Maximum Mean Discrepancy)算法是一種度量?jī)蓚€(gè)分布之間差異的方法,尤其在遷移MMD(Maximum Mean Discrepancy)算法是一種度量?jī)蓚€(gè)分布之間差異的方法,尤其在遷移學(xué)習(xí)中被廣泛用作損失函數(shù)。它是基于高斯核函數(shù)來(lái)計(jì)算兩個(gè)不同分布的樣本的均值和差值的度量方法,可以有效地判斷兩個(gè)分布的相似程度。
MMD的優(yōu)勢(shì)在于其不需要借助額外的參數(shù),而是直接利用數(shù)據(jù)本身的分布特性進(jìn)行計(jì)算。此外,MMD也被視為一種基于歐式距離的模式識(shí)別算法,能夠避免聚類種子過(guò)于臨近的問(wèn)題,從而具有更好的性能。
K-均值聚類法
K-均值聚類法是一種非監(jiān)督學(xué)習(xí)算法,其主要目標(biāo)是將數(shù)據(jù)分為K個(gè)組,使得K-均值聚類法是一種非監(jiān)督學(xué)習(xí)算法,其主要目標(biāo)是將數(shù)據(jù)分為K個(gè)組,使得每個(gè)組內(nèi)的數(shù)據(jù)點(diǎn)之間的相似度盡可能高,而不同組之間的數(shù)據(jù)點(diǎn)的相似度盡可能低。它的基本思想是通過(guò)迭代尋找K個(gè)聚類中心,然后將每個(gè)數(shù)據(jù)點(diǎn)分配給最近的聚類中心,形成K個(gè)簇。
模糊聚類算法與K均值聚類算法(Kmeans)有著密切的關(guān)系。Kmeans算法是根據(jù)樣本之間的歐氏距離來(lái)進(jìn)行聚類的,而模糊聚類則是基于樣本之間的相似性度量來(lái)進(jìn)行聚類的。因此,在進(jìn)行模糊聚類分析時(shí),可以借鑒Kmeans算法的一些思想。
FCM算法
FCM算法,全稱為模糊C均值聚類算法,是一種基于隸屬度的軟聚類方法。它可以將數(shù)據(jù)集劃分為K個(gè)類,每個(gè)樣本都有屬于每個(gè)類的隸屬度,并且所有隸屬度之和為1。
FCM算法的目標(biāo)是通過(guò)優(yōu)化目標(biāo)函數(shù)來(lái)確定聚類中心和隸屬度矩陣。目標(biāo)函數(shù)如下:J_m(U, v)=∑_{i=1}^c ∑_{k=1}^n x_{ik}^m ‖x_k-v_i‖^2,其中v = (v1, v2,…, vc),m > 1為模糊參數(shù),該參數(shù)決定了聚類的模糊度,也就是數(shù)據(jù)點(diǎn)可以成為多個(gè)類的程度,大多數(shù)情況下m=2。
經(jīng)濟(jì)普查智能數(shù)據(jù)挖掘可視化分析展望
伴隨大數(shù)據(jù)時(shí)代、物聯(lián)網(wǎng)、人工智能等技術(shù)的到來(lái),經(jīng)濟(jì)發(fā)展形勢(shì)更加復(fù)雜,我國(guó)政府既關(guān)注發(fā)展速度,又關(guān)注發(fā)展質(zhì)量,這也是衡量國(guó)家綜合實(shí)力的重要體現(xiàn),做好第五次經(jīng)濟(jì)普查,加強(qiáng)數(shù)據(jù)挖掘技術(shù)和方法研究,對(duì)提高經(jīng)濟(jì)普查數(shù)據(jù)利用價(jià)值具有重要的意義。經(jīng)濟(jì)普查智能數(shù)據(jù)挖掘可視化分析結(jié)合經(jīng)濟(jì)普查的重點(diǎn)、難點(diǎn),必將具備以下特點(diǎn):
涵蓋經(jīng)濟(jì)普查的全過(guò)程
經(jīng)濟(jì)普查從數(shù)據(jù)采集到錄入數(shù)據(jù)庫(kù)系統(tǒng),到對(duì)數(shù)據(jù)進(jìn)行有效分析,最后產(chǎn)生數(shù)據(jù)報(bào)表和呈現(xiàn)數(shù)據(jù)分析結(jié)果,經(jīng)濟(jì)普查智能數(shù)據(jù)挖掘的可視化需具備以上所有過(guò)程中涵蓋的各項(xiàng)功能的完整性。
數(shù)據(jù)存儲(chǔ)系統(tǒng)保障普查數(shù)據(jù)的時(shí)效性和共享性
以往的數(shù)據(jù)普查通過(guò)普查人員走訪、人工錄入電子設(shè)備,現(xiàn)有系統(tǒng)能滿足普查單位直接網(wǎng)上錄入,普查人員實(shí)時(shí)查看審核,時(shí)效性強(qiáng);同時(shí),普查數(shù)據(jù)網(wǎng)絡(luò)化能讓從上到下的各級(jí)單位 對(duì)數(shù)據(jù)進(jìn)行查看和操作,避免了上級(jí)需要下級(jí)進(jìn)行漫長(zhǎng)的數(shù)據(jù)報(bào)送后才能了解數(shù)據(jù)情況的問(wèn)題,系統(tǒng)實(shí)現(xiàn)了數(shù)據(jù)的共享。
智能數(shù)據(jù)分析系統(tǒng)應(yīng)用目前熱門的數(shù)據(jù)挖掘技術(shù)
數(shù)據(jù)挖掘技術(shù)在網(wǎng)絡(luò)信息出現(xiàn)“大爆炸”現(xiàn)象但知識(shí)貧乏的背景下而生,目的是能從海量信息中發(fā)現(xiàn)潛在的規(guī)律和有效的“知識(shí)”,全國(guó)經(jīng)濟(jì)普查數(shù)據(jù)滿足大而多的特點(diǎn),雖然具備一些潛在規(guī)律,但依然避免不了存在很多內(nèi)在的難以發(fā)現(xiàn)的問(wèn)題,高效的可視化數(shù)據(jù)挖掘技術(shù)需有效地彌補(bǔ)這一缺陷。
MatLab繪圖呈現(xiàn)結(jié)果精準(zhǔn)化、全面化
MatLab是一個(gè)應(yīng)用非常成熟的數(shù)學(xué)軟件,其繪圖功能能夠?qū)崿F(xiàn)各種圖形的繪制,將其運(yùn)用于經(jīng)濟(jì)普查數(shù)據(jù)分析結(jié)果的呈現(xiàn),保障繪圖數(shù)據(jù)的精準(zhǔn)化。同時(shí),MatLab能相對(duì)容易地進(jìn)行三維圖的 繪制,對(duì)經(jīng)濟(jì)普查數(shù)據(jù)走勢(shì)的繪圖將更直觀、更全面,這是目前一般統(tǒng)計(jì)類軟件所不具備的功能或擁有該功能但繪圖效果沒(méi)有那么明顯。

總之,經(jīng)濟(jì)普查數(shù)據(jù)的挖掘與可視化分析是大數(shù)據(jù)時(shí)代背景下的一項(xiàng)重要任務(wù)。通過(guò)對(duì)經(jīng)濟(jì)普查數(shù)據(jù)的挖掘與可視化分析,我們可以更好地了解國(guó)民經(jīng)濟(jì)的運(yùn)行狀況,為政府制定宏觀經(jīng)濟(jì)政策提供有力的支持。在未來(lái)的研究中,我們將繼續(xù)探索更加高效、準(zhǔn)確的經(jīng)濟(jì)普查數(shù)據(jù)挖掘與可視化分析方法,為我國(guó)經(jīng)濟(jì)發(fā)展做出更大的貢獻(xiàn)。
撰稿 | 王秋慧 清研集團(tuán)智能數(shù)據(jù)挖掘研究部研究員
編輯 | 陳澤璽
圖片 | 網(wǎng)絡(luò)