成人精品av一区二区三区_亚洲国产精品久久无码中文字_欧美黑人xxxx性高清版_欧美老熟妇xb水多毛多

大數(shù)據(jù)技術8篇

時間:2023-03-22 17:36:51

緒論:在尋找寫作靈感嗎?愛發(fā)表網(wǎng)為您精選了8篇大數(shù)據(jù)技術,愿這些內(nèi)容能夠啟迪您的思維,激發(fā)您的創(chuàng)作熱情,歡迎您的閱讀與分享!

大數(shù)據(jù)技術

篇1

關鍵詞:大數(shù)據(jù) 數(shù)據(jù)挖掘 營銷

中圖分類號:F49 文獻標識碼:A 文章編號:1007-9416(2015)030-0209-01

近幾年,大數(shù)據(jù)(big data)一詞越來越多地被提及,人們用它來描述和定義信息爆炸時代產(chǎn)生的海量數(shù)據(jù),并命名與之相關的技術發(fā)展與創(chuàng)新。2012 年3 月,奧巴馬公布了美國《大數(shù)據(jù)研究和發(fā)展計劃》,標志著大數(shù)據(jù)已經(jīng)成為國家戰(zhàn)略,上升為國家意志。從硅谷到北京,大數(shù)據(jù)的話題傳播迅速。

1 大數(shù)據(jù)時代

隨著計算機技術全面融入社會生活,經(jīng)過半個多世紀的發(fā)展,信息爆炸已經(jīng)積累到了一個開始引發(fā)變革的程度。它不僅使世界充斥著比以往更多的信息,而且其增長速度也在加快。最先經(jīng)歷信息爆炸的學科,如天文學和基因?qū)W,創(chuàng)造出了“大數(shù)據(jù)”這個概念。

1.1 大數(shù)據(jù)時代產(chǎn)生的背景

最早提出“大數(shù)據(jù)”時代到來的是全球知名咨詢公司麥肯錫,麥肯錫稱:“數(shù)據(jù),已經(jīng)滲透到當今每一個行業(yè)和業(yè)務職能領域,成為重要的生產(chǎn)因素。人們對于海量數(shù)據(jù)的挖掘和運用,預示著新一波生產(chǎn)率增長和消費者盈余浪潮的到來?!贝笠?guī)模生產(chǎn)、分享和應用海量數(shù)據(jù)的時代之所以能夠開啟,源于信息科技的進步、互聯(lián)網(wǎng)與云計算技術和物聯(lián)網(wǎng)的發(fā)展。

(1)信息科技的進步。信息處理、信息存儲和信息傳遞是信息科技的三個主要支撐,存儲設備性價比不斷提升、網(wǎng)絡帶寬的持續(xù)增加,為大數(shù)據(jù)的存儲和傳播提供了物質(zhì)基礎。

(2)互聯(lián)網(wǎng)與云計算技術?;ヂ?lián)網(wǎng)時代,電子商務、社交網(wǎng)絡和移動通信產(chǎn)生了大量結(jié)構(gòu)化和非結(jié)構(gòu)化的數(shù)據(jù),以云計算為基礎的信息存儲、分享和挖掘手段,可以便宜、有效地將這些大量、高速、多變化的終端數(shù)據(jù)存儲下來,并隨時進行分析與計算?;ヂ?lián)網(wǎng)領域的公司最早重視數(shù)據(jù)資產(chǎn)的價值,他們從大數(shù)據(jù)中淘金,并且引領著大數(shù)據(jù)的發(fā)展趨勢。

(3)物聯(lián)網(wǎng)的發(fā)展。眾所周知,物聯(lián)網(wǎng)時代所創(chuàng)造的數(shù)據(jù)不是互聯(lián)網(wǎng)時代所能比擬的,而且物聯(lián)網(wǎng)的數(shù)據(jù)是異構(gòu)的、多樣性的、非結(jié)構(gòu)和有噪聲的,最顯著的特點是是它的高增長率。大數(shù)據(jù)是物聯(lián)網(wǎng)中的關鍵技術,物聯(lián)網(wǎng)對大數(shù)據(jù)技術的要求更高,它的發(fā)展離不開大數(shù)據(jù)。

1.2 大數(shù)據(jù)與數(shù)據(jù)挖掘

Google、Amazon、Facebook、Twitter,這些稱霸全球互聯(lián)網(wǎng)的企業(yè),它們的成功都具備一個共同的因素,就是收集分析海量的各種類型的數(shù)據(jù),并能夠快速獲取影響未來的信息的能力?!百徺I了此商品的顧客還購買了這些商品”,這恐怕是世界上最廣為人知的一種商品推薦系統(tǒng)了,而創(chuàng)造出這個系統(tǒng)的正是Amazon。Amazon 通過分析商品的購買記錄、瀏覽歷史記錄等龐大的用戶行為歷史數(shù)據(jù),并與行為模式相似的其他用戶的歷史數(shù)據(jù)進行對照,提供出最適合的商品推薦信息。Facebook 可以為用戶提供類似“也許你還認識這些人”的提示,這種提示可以準確到令人恐怖的程度,而這正是對龐大的數(shù)據(jù)進行分析而得到的結(jié)果。這種以數(shù)據(jù)分析為核心的技術就是數(shù)據(jù)挖掘(data mining)。

從技術角度看,數(shù)據(jù)挖掘是從大量的、復雜的、不規(guī)則的、隨機的、模糊的數(shù)據(jù)中獲取隱含的、人們事先沒有發(fā)覺的、有潛在價值的信息和知識的過程。從商業(yè)角度來說,數(shù)據(jù)挖掘是從龐大的數(shù)據(jù)庫中抽取、轉(zhuǎn)換、分析一些潛在規(guī)律和價值,從中獲取輔助商業(yè)決策的關鍵信息和有用知識。大數(shù)據(jù)概念的提出,將為數(shù)據(jù)挖掘技術的發(fā)展和應用帶來一個很大的機遇。

2 數(shù)據(jù)挖掘

數(shù)據(jù)挖掘旨在從大數(shù)據(jù)中提取隱藏的預測性信息,用便于理解和觀察的方式反映給用戶,作為決策的依據(jù)。

2.1 數(shù)據(jù)挖掘原理

數(shù)據(jù)挖掘又稱為數(shù)據(jù)庫中的知識發(fā)現(xiàn)(Knowledge Diseoveryin Databases,KDD),是一個從數(shù)據(jù)庫或數(shù)據(jù)倉庫中發(fā)現(xiàn)并抽取隱含的、明顯未知的、具有潛在用處的信息的過程。數(shù)據(jù)挖掘一般流程主要包括三個階段:數(shù)據(jù)準備、數(shù)據(jù)挖掘、結(jié)果解釋和評價。在數(shù)據(jù)挖掘的處理過程中,數(shù)據(jù)挖掘分析方法是最為關鍵的。

(1)數(shù)據(jù)準備。數(shù)據(jù)準備是從海量數(shù)據(jù)源得到數(shù)據(jù)挖掘所用的數(shù)據(jù),將數(shù)據(jù)集成到一起的過程。由于數(shù)據(jù)收集階段得到的數(shù)據(jù)可能有一定的污染,即數(shù)據(jù)可能存在不一致,或有缺失數(shù)據(jù)、臟數(shù)據(jù)的存在,因此需通過數(shù)據(jù)整理,對數(shù)據(jù)進行清洗及預處理。

(2)數(shù)據(jù)挖掘。是數(shù)據(jù)挖掘中最關鍵的一步,使用智能的方法提取數(shù)據(jù)模式,例如決策樹、分類和聚類、關聯(lián)規(guī)則和神經(jīng)網(wǎng)絡等。首先決定要提取什么樣的模型,然后選取相應的算法參數(shù),分析數(shù)據(jù)從而得到可能形成知識的模式模型。

(3)結(jié)果解釋和評價。數(shù)據(jù)挖掘后的結(jié)果需要轉(zhuǎn)換成用戶能夠理解的規(guī)則或模式,并根據(jù)其是否對決策問題具有實際意義進行評價。

2.2 數(shù)據(jù)挖掘技術在營銷中的應用

無差別的大眾媒體營銷已經(jīng)無法滿足零和的市場環(huán)境下的競爭要求。精準營銷是企業(yè)現(xiàn)在及未來的發(fā)展方向,在精準營銷領域,最常用的數(shù)據(jù)挖掘分析方法包括分類、聚類和關聯(lián)三類。

(1)關聯(lián)規(guī)則。挖掘關聯(lián)規(guī)則就是發(fā)現(xiàn)存在于大量數(shù)據(jù)集中的關聯(lián)性或相關性,例如空間關聯(lián)挖掘出啤酒與尿布效應;時間關聯(lián)挖掘出孕嬰用品與家居裝修關系;時間關聯(lián)挖掘出調(diào)味品、紙巾與化妝品的消費等。

此外,關聯(lián)規(guī)則發(fā)現(xiàn)也可用于序列模式發(fā)現(xiàn)。序列模式發(fā)現(xiàn)的側(cè)重點在于分析數(shù)據(jù)項集在時間上或序列上的前后(因果)規(guī)律,可以看作是一種特定的關聯(lián)規(guī)則。例如顧客在購買了打印機后在一段時間內(nèi)是否會購買墨盒。

(2)分類分析。分類是假定數(shù)據(jù)庫中的每個對象屬于一個預先給定的類,從而將數(shù)據(jù)庫中的數(shù)據(jù)分配到給定的類中。它屬于預測性模型,例如在銀行業(yè),事先定義用戶的信用狀況分為兩類:信用好和信用壞,對于一個信用狀態(tài)未知的用戶,如果需要確定其信用度,可以采用“決策樹”法構(gòu)建一個分類模型,決策樹方法著眼于從一組無次序、無規(guī)則的客戶數(shù)據(jù)庫中推理出決策樹表現(xiàn)形式的分類規(guī)則。決策樹的非葉子節(jié)點均是客戶的一些基本特征,葉子節(jié)點是客戶分類標識,由根節(jié)點至上而下,到每個葉子節(jié)點,就生成了一條規(guī)則,由該決策樹可以得到很多規(guī)則,構(gòu)成了一個規(guī)則集合,從而進行數(shù)據(jù)分析。

(3)聚類分析。聚類是將物理或抽象對象的集合進行分組,然后組成為由類似或相似的對象組成的多個分類的分析過程,其目的就是通過相似的方法來收集數(shù)據(jù)分類。為品牌找客戶,回答品牌“誰來賣”是精準營銷首先要解決的問題,科學細分客戶是解決這一問題的有效手段。聚類可以將目標客戶分成多個類,同一個類中的客戶有很大的相似性,表現(xiàn)在購買行為的高度一致,不同類間的客戶有很大的相異性,表現(xiàn)在購買行為的截然不同。

3 結(jié)語

大數(shù)據(jù)時代背景下“數(shù)據(jù)成為資產(chǎn)”,數(shù)據(jù)挖掘技術作為支撐精準營銷的重要手段,將它應用于營銷行業(yè)的決策中,不僅拓展了數(shù)據(jù)挖掘技術的應用范圍,而且大數(shù)據(jù)時代的數(shù)據(jù)挖掘技術可以幫助企業(yè)獲得突破性回報。

參考文獻

[1]維克托?邁爾―舍恩伯格;肯尼思?庫克耶.大數(shù)據(jù)時代:生活、工作與思維的大變革[M].周濤譯.杭州:浙江人民出版社,2013.

[2]王偉玲.大數(shù)據(jù)產(chǎn)業(yè)的戰(zhàn)略價值研究與思考.技術經(jīng)濟與管理研究[J],2015(1).

[3]俞立平.大數(shù)據(jù)與大數(shù)據(jù)經(jīng)濟學[J].中國軟科學,2013(7):177-183.

篇2

關鍵詞:大數(shù)據(jù);數(shù)據(jù)庫集群技術;分布集群

一、分布集群數(shù)據(jù)庫在大數(shù)據(jù)中的應用

目前,許多數(shù)據(jù)增長率很高的大型數(shù)據(jù)庫系統(tǒng)正被用于改善全球人類活動,如通信、社交網(wǎng)絡、交易、銀行等,分布集群數(shù)據(jù)庫已成為提高數(shù)據(jù)訪問速度的解決方案之一。為多種類型的用戶在多個存儲中組織數(shù)據(jù)訪問,分布集群數(shù)據(jù)庫的問題不僅在于如何管理大量的數(shù)據(jù),而且在于如何組織分布式存儲中的數(shù)據(jù)模式。智能數(shù)據(jù)組織是提高檢索速度、減少磁盤I/O數(shù)量、縮短查詢響應時間的最佳方法之一?;谝?guī)則的聚類是提供數(shù)據(jù)庫自動聚類和數(shù)據(jù)存儲模式解釋的解決方案之一,基于規(guī)則的集群通過分析屬性和記錄上的數(shù)據(jù)庫結(jié)構(gòu),將數(shù)據(jù)模式表示為規(guī)則。使用不同規(guī)則池分區(qū)的每個集群,每個規(guī)則與內(nèi)部集群中的規(guī)則相似,與外部集群中的規(guī)則不同。分布集群數(shù)據(jù)庫是一種有向圖結(jié)構(gòu)的進化優(yōu)化技術,用于數(shù)據(jù)分類,在緊湊的程序中具有顯著的表示能力,這源于節(jié)點的可重用性,而節(jié)點本身就是圖形結(jié)構(gòu)的功能。為了實現(xiàn)基于規(guī)則的集群,分布集群數(shù)據(jù)庫可以通過分析記錄來處理數(shù)據(jù)集的規(guī)則提取。分布集群數(shù)據(jù)庫的圖形結(jié)構(gòu)由三種節(jié)點組成:起始節(jié)點、判斷節(jié)點和處理節(jié)點。開始節(jié)點表示節(jié)點轉(zhuǎn)換的開始位置;判斷節(jié)點表示要在數(shù)據(jù)庫中檢查的屬性。分布集群數(shù)據(jù)庫規(guī)則提取的節(jié)點準備包括兩個階段:節(jié)點定義和節(jié)點排列。節(jié)點定義的目的是準備創(chuàng)建規(guī)則,節(jié)點排列是選擇重要的節(jié)點,以便高效地提取大量規(guī)則。節(jié)點排列由以下兩個順序過程執(zhí)行,第一個過程是查找模板規(guī)則,第二個過程是結(jié)合第一個過程中創(chuàng)建的模板生成規(guī)則。提取模板以獲得數(shù)據(jù)集中經(jīng)常發(fā)生的屬性組合。在模板提取過程中,分布集群數(shù)據(jù)庫規(guī)則提取中只使用了少數(shù)幾個屬性,它旨在增加獲得高支持模板的可能性。與沒有模板規(guī)則的方法相比,該節(jié)點排列方法具有更好的聚類結(jié)果,這兩個過程中的規(guī)則生成都是通過圖結(jié)構(gòu)的演化來實現(xiàn)。

二、在線規(guī)則更新系統(tǒng)的應用

在線規(guī)則更新系統(tǒng)用于通過分析所有記錄從數(shù)據(jù)集中提取規(guī)則,在大數(shù)據(jù)應用中,每個節(jié)點都有自己的節(jié)點號,描述每個節(jié)點號的節(jié)點信息。程序大小取決于節(jié)點的數(shù)量,這會影響程序創(chuàng)建的規(guī)則的數(shù)量。起始節(jié)點表示根據(jù)連接順序執(zhí)行的判斷節(jié)點序列的起始點,開始節(jié)點的多個位置將允許一個人提取各種規(guī)則。判斷節(jié)點表示數(shù)據(jù)集的屬性,顯示屬性索引。在大數(shù)據(jù)應用環(huán)節(jié),從每個起始節(jié)點開始的節(jié)點序列用虛線a、b和c表示,節(jié)點序列流動,直到支持判斷節(jié)點的下一個組合不滿足閾值。在節(jié)點序列中,如果具有已出現(xiàn)在上一個節(jié)點序列,將跳過這些節(jié)點。在更新每個集群中的規(guī)則時,重要的是要找到與最新數(shù)據(jù)不匹配的屬性。因此,規(guī)則更新中要考慮的屬性由以下過程確定。當計算集群中每個屬性和數(shù)據(jù)之間的輪廓值時,閾值設置為0.85,只有輪廓值低于0.85的屬性。將為規(guī)則更新過程中的判斷節(jié)點的屬性選擇。一些數(shù)據(jù)的庫存值和權(quán)重值低于0.85,因此這些值不包括在國民生產(chǎn)總值的規(guī)則更新中。在線規(guī)則更新系統(tǒng)中包含用于更新規(guī)則的屬性,每個集群都具有屬性的主要值,這些屬性是集群質(zhì)量的錨定點,進而影響輪廓值。在線規(guī)則更新系統(tǒng)應用中,完成主要的規(guī)則提取過程,這是一個標準的規(guī)則提取,在線規(guī)則更新系統(tǒng)考慮到數(shù)據(jù)集中的所有屬性。執(zhí)行該過程,對初始數(shù)據(jù)集進行初始集群;改善規(guī)則更新過程,僅對輪廓值低于閾值的數(shù)據(jù)執(zhí)行。

三、大規(guī)模并行處理技術的應用

大規(guī)模并行處理技術主要用于編寫和調(diào)試現(xiàn)代處理器的程序,而不是本地匯編程序,所有的書面代碼都是從C/C++語言翻譯成一個低級的核心匯編程序。在大數(shù)據(jù)應用中,會產(chǎn)生很多數(shù)據(jù),在數(shù)據(jù)的分析和計算中,應該結(jié)合編程技術,標準語言是面向傳統(tǒng)體系結(jié)構(gòu)的,這就是為什么編譯器不能使用所有可能的DSP體系結(jié)構(gòu)以最佳效率生成代碼的原因。為了獲得一個良好的優(yōu)化代碼,有必要直接在低級匯編語言上編寫代碼。為了簡化編寫程序的任務,可以在某個處理器上使用面向代碼生成器。使用一個專門的匯編代碼生成器,使用并行結(jié)構(gòu)化的編程語言可以獲得比在C/C++中翻譯的應用程序更高效的代碼,生成高效的匯編代碼,該代碼積極利用DSP內(nèi)核的并行性和其他特性。低級匯編代碼是由所有編譯器生成的,但是它們與傳統(tǒng)的基于文本的語言(如C/C++)一起工作。大數(shù)據(jù)應用環(huán)節(jié),在數(shù)據(jù)分類和計算中,當兩個計算操作在不同的操作單元上執(zhí)行時,才能在一個dsp核心的vliw命令中并行執(zhí)行兩個計算操作。根據(jù)運算執(zhí)行單元的不同,計算運算可分為op1和op2兩種類型。屬于不同組使得在一個命令中執(zhí)行兩個操作成為可能。第一種類型包括由算術和邏輯單元執(zhí)行的操作,第二種類型包括由乘法器、移位器ms執(zhí)行的操作。在模板中,標記“1”表示第一種類型的標識,標記“2”分別表示第二種類型。如果兩個操作具有不同的類型并且沒有數(shù)據(jù)依賴關系,則可以進行并行化,DSP核心的并行性是通過在一個核心中存在多個操作單元來保證的。在大數(shù)據(jù)計算和分析中,如果有足夠多的通用寄存器來執(zhí)行這兩個操作,并且它們可以并行執(zhí)行,代碼就會并行化,提升數(shù)據(jù)計算的效率。

篇3

關鍵詞:大數(shù)據(jù) 數(shù)據(jù)挖掘 方法

中圖分類號:TP311 文獻標識碼:A 文章編號:1007-9416(2015)04-0222-01

1 大數(shù)據(jù)時代數(shù)據(jù)挖掘的重要性

隨著互聯(lián)網(wǎng)、物聯(lián)網(wǎng)、云計算等技術的快速發(fā)展,以及智能終端、網(wǎng)絡社會、數(shù)字地球等信息體的普及和建設,全球數(shù)據(jù)量出現(xiàn)爆炸式增長,僅在2011年就達到1.8萬億GB。IDC(Internet Data Center,互聯(lián)網(wǎng)絡數(shù)據(jù)中心)預計,到2020 年全球數(shù)據(jù)量將增加50倍。毋庸置疑,大數(shù)據(jù)時代已經(jīng)到來。一方面,云計算為這些海量的、多樣化的數(shù)據(jù)提供存儲和運算平臺,同時數(shù)據(jù)挖掘和人工智能從大數(shù)據(jù)中發(fā)現(xiàn)知識、規(guī)律和趨勢,為決策提供信息參考。

如果運用合理的方法和工具,在企業(yè)日積月累形成的浩瀚數(shù)據(jù)中,是可以淘到沙金的,甚至可能發(fā)現(xiàn)許多大的鉆石。在一些信息化較成熟的行業(yè),就有這樣的例子。比如銀行的信息化建設就非常完善,銀行每天生成的數(shù)據(jù)數(shù)以萬計,儲戶的存取款數(shù)據(jù)、ATM交易數(shù)據(jù)等。

數(shù)據(jù)挖掘是借助IT手段對經(jīng)營決策產(chǎn)生決定性影響的一種管理手段。從定義上來看,數(shù)據(jù)挖掘是指一個完整的過程,該過程是從大量、不完全、模糊和隨機的數(shù)據(jù)集中識別有效的、可實用的信息,并運用這些信息做出決策。

2 數(shù)據(jù)挖掘的分類

數(shù)據(jù)挖掘技術從開始的單一門類的知識逐漸發(fā)展成為一門綜合性的多學科知識,并由此產(chǎn)生了很多的數(shù)據(jù)挖掘方法,這些方法種類多,類型也有很大的差別。為了滿足用戶的實際需要,現(xiàn)對數(shù)據(jù)挖掘技術進行如下幾種分類:

2.1 按挖掘的數(shù)據(jù)庫類型分類

利用數(shù)據(jù)庫對數(shù)據(jù)分類成為可能是因為數(shù)據(jù)庫在對數(shù)據(jù)儲存時就可以對數(shù)據(jù)按照其類型、模型以及應用場景的不同來進行分類,根據(jù)這種分類得到的數(shù)據(jù)在采用數(shù)據(jù)挖掘技術時也會有滿足自身的方法。對數(shù)據(jù)的分類有兩種情況,一種是根據(jù)其模型來分類,另一種是根據(jù)其類型來分類,前者包括關系型、對象-關系型以及事務型和數(shù)據(jù)倉庫型等,后者包括時間型、空間型和Web 型的數(shù)據(jù)挖掘方法。

2.2 按挖掘的知識類型分類

這種分類方法是根據(jù)數(shù)據(jù)挖掘的功能來實施的,其中包括多種分析的方式,例如相關性、預測及離群點分析方法,充分的數(shù)據(jù)挖掘不僅僅是一種單一的功能模式,而是各種不同功能的集合。同時,在上述分類的情況下,還可以按照數(shù)據(jù)本身的特性和屬性來對其進行分類,例如數(shù)據(jù)的抽象性和數(shù)據(jù)的粒度等,利用數(shù)據(jù)的抽象層次來分類時可以將數(shù)據(jù)分為三個層次,即廣義知識的高抽象層,原始知識的原始層以及到多層的知識的多個抽象層。一個完善的數(shù)據(jù)挖掘可以實現(xiàn)對多個抽象層數(shù)據(jù)的挖掘,找到其有價值的知識。同時,在對數(shù)據(jù)挖掘進行分類時還可以根據(jù)其表現(xiàn)出來的模式及規(guī)則性和是否檢測出噪聲來分類,一般來說,數(shù)據(jù)的規(guī)則性可以通過多種不同的方法挖掘,例如相關性和關聯(lián)分析以及通過對其概念描述和聚類分類、預測等方法,同時還可以通過這些挖掘方法來檢測和排除噪聲。

2.3 按所用的技術類型分類

數(shù)據(jù)挖掘的時候采用的技術手段千變?nèi)f化,例如可以采用面向數(shù)據(jù)庫和數(shù)據(jù)倉庫的技術以及神經(jīng)網(wǎng)絡及其可視化等技術手段,同時用戶在對數(shù)據(jù)進行分析時也會使用很多不同的分析方法,根據(jù)這些分析方法的不同可以分為遺傳算法、人工神經(jīng)網(wǎng)絡等等。一般情況下,一個龐大的數(shù)據(jù)挖掘系統(tǒng)是集多種挖掘技術和方法的綜合性系統(tǒng)。

2.4 按應用分類

根據(jù)數(shù)據(jù)挖掘的應用的領域來進行分類,包括財經(jīng)行業(yè)、交通運輸業(yè)、網(wǎng)絡通信業(yè)、生物醫(yī)學領域如DNA等,在這些行業(yè)或領域中都有滿足自身要求的數(shù)據(jù)挖掘方法。對于特定的應用場景,此時就可能需要與之相應的特殊的挖掘方法,并保證其有效性。綜上所述,基本上不存在某種數(shù)據(jù)挖掘技術可以在所有的行業(yè)中都能使用的技術,每種數(shù)據(jù)挖掘技術都有自身的專用性。

3 數(shù)據(jù)挖掘中常用的方法

目前數(shù)據(jù)挖掘方法主要有4種,這四種算法包括遺傳、決策樹、粗糙集和神經(jīng)網(wǎng)絡算法。以下對這四種算法進行一一解釋說明。

遺傳算法:該算法依據(jù)生物學領域的自然選擇規(guī)律以及遺傳的機理發(fā)展而來,是一種隨機搜索的算法,利用仿生學的原理來對數(shù)據(jù)知識進行全局優(yōu)化處理。是一種基于生物自然選擇與遺傳機理的隨機搜索算法,是一種仿生全局優(yōu)化方法。這種算法具有隱含并行性、易與其它模型結(jié)合等優(yōu)點從而在數(shù)據(jù)挖掘中得到了應用。

決策樹算法:在對模型的預測中,該算法具有很強的優(yōu)勢,利用該算法對龐大的數(shù)據(jù)信息進行分類,從而對有潛在價值的信息進行定位,這種算法的優(yōu)勢也比較明顯,在利用這種算法對數(shù)據(jù)進行分類時非常迅速,同時描述起來也很簡潔,在大規(guī)模數(shù)據(jù)處理時,這種方法的應用性很強。

粗糙集算法:這個算法將知識的理解視為對數(shù)據(jù)的劃分,將這種劃分的一個整體叫做概念,這種算法的基本原理是將不夠精確的知識與確定的或者準確的知識進行類別同時進行類別刻畫。

神經(jīng)網(wǎng)絡算法:在對模型的預測中,該算法具有很強的優(yōu)勢,利用該算法對龐大的數(shù)據(jù)信息進行分類,從而對有潛在價值的信息進行定位,這種算法的優(yōu)勢也比較明顯,在利用這種算法對數(shù)據(jù)進行分類時非常迅速,同時描述起來也很簡潔,在大規(guī)模數(shù)據(jù)處理時,這種方法的應用性很強。光纜監(jiān)測及其故障診斷系統(tǒng)對于保證通信的順利至關重要,同時這種技術方法也是順應當今時代的潮流必須推廣使用的方法。同時,該診斷技術為通信管網(wǎng)和日常通信提供了可靠的技術支持和可靠的后期保證。

參考文獻

[1]孟小峰,慈祥.大數(shù)據(jù)管理:概念、技術與挑戰(zhàn)[J].計算機研究與發(fā)展,2013,50(01):146-169.

篇4

現(xiàn)狀

“檢察大數(shù)據(jù)”的概念厘定

“大數(shù)據(jù)”的生產(chǎn)與運用是一個“人人為我,我為人人”的互通、共享、多贏過程。檢察機關在整合應用其他政府機構(gòu)、企事業(yè)單位、社會組織提供的信息數(shù)據(jù)服務司法辦案的同時,也在辦案中生產(chǎn)“大數(shù)據(jù)”。這些數(shù)據(jù)既可作為檢察機關校準后續(xù)辦案的內(nèi)部參照系,同時部分數(shù)據(jù)亦可對外輸出服務社會。前者如在刑事檢察中整合同類案件形成案例數(shù)據(jù)庫,用以提升公訴量刑精準度,后者以當前檢察機關向社會公眾提供的行賄犯罪檔案查詢服務最為典型。顯然作為數(shù)據(jù)運用者,檢察機關“大數(shù)據(jù)”包括檢察工作所涉及的一切有用信息數(shù)據(jù)。其中,相當一部分數(shù)據(jù)并非檢察機關在司法辦案中產(chǎn)出的“原生”數(shù)據(jù)。如職務犯罪偵查辦案中反貪部門調(diào)用房產(chǎn)、銀行、公安行政機關的信息數(shù)據(jù)庫進行初查;相關業(yè)務部門在審查、出庭公訴、訴訟監(jiān)督、參與社會治理等方面運用信息化、數(shù)字化新技術等。

“檢察大數(shù)據(jù)”與上述檢察機關運用的“大數(shù)據(jù)”有本質(zhì)區(qū)別?!皺z察大數(shù)據(jù)”專指檢察機關司法辦案大數(shù)據(jù),是檢察機關在司法辦案中的“原生”案件信息數(shù)據(jù),其最核心的特征是相關數(shù)據(jù)是關于檢察業(yè)務辦案的信息數(shù)據(jù)。目前,在檢察司法辦案大數(shù)據(jù)的擷取、管理、應用方面,最高人民檢察院推進的“統(tǒng)一業(yè)務應用系統(tǒng)”是國家層面“檢察大數(shù)據(jù)”生成的最重要平臺;同時各地檢察機關亦多有創(chuàng)新,如北京市人民檢察院開發(fā)應用的“檢立方”系統(tǒng)、上海市閔行區(qū)人民檢察院試運行的“檢察官執(zhí)法辦案全程監(jiān)控考核系統(tǒng)”、浦東新區(qū)人民檢察院試運行的“綜合管理信息平臺一期”、湖北省人民檢察院研發(fā)的“互聯(lián)網(wǎng)檢務辦公室”,南京市鼓樓區(qū)人民檢察院研發(fā)的辦公辦案軟件“移動檢務通”等。上述系統(tǒng)平臺通過案件管理部門案件受理信息輸入及辦案人員在辦案過程中的流程信息輸入,生成、存儲、管理與檢察機關司法辦案相關的各項信息數(shù)據(jù),并通過對大數(shù)據(jù)不同子系統(tǒng)數(shù)據(jù)的深度分析,進而服務領導決策與司法辦案。

當前檢察工作中的大數(shù)據(jù)運用

無論是檢察機關的“原生”大數(shù)據(jù),還是第三方生成的關聯(lián)大數(shù)據(jù),在當前的檢察辦案與司法管理工作中都有著極為廣闊的應用前景。作為檢察機關大數(shù)據(jù)的核心內(nèi)容,“原生”大數(shù)據(jù)即“檢察大數(shù)據(jù)”,在輔助檢察辦案、服務司法管理中發(fā)揮著極為重要的作用。

在“檢察大數(shù)據(jù)”輔助檢察辦案方面,目前較為典型的如貴州省人民檢察機關的“大數(shù)據(jù)司法辦案輔助系統(tǒng)”。司法辦案輔助系統(tǒng)運用“實體識別”“數(shù)學建?!钡却髷?shù)據(jù)技術,通過繪制“犯罪構(gòu)成知識”圖譜,建立各罪名案件數(shù)學模型的司法辦案輔助系統(tǒng),為辦案提供案件信息智能采集、“要素―證據(jù)”智能關聯(lián)和風險預警、證據(jù)材料甄別,以及類案推送、量刑建議計算等智能化服務。目前,貴州省人民檢察機關的大數(shù)據(jù)司法辦案輔助系統(tǒng)已進行了三次迭代升級,正在貴州全省4個市(州)院和31個基層院試點運行。

在“檢察大數(shù)據(jù)”服務司法管理方面,上海市閔行區(qū)人民檢察院的檢察官執(zhí)法辦案全程監(jiān)控考核系統(tǒng)非常具有代表性。該院通過對各職能部門受理、立案(項)、辦理的案件以及不依附于自偵、批捕、等主要辦案業(yè)務的,有完整流程、審查結(jié)論及相關法律文書的訴訟監(jiān)督、社會治理、維護穩(wěn)定、預防犯罪等檢察業(yè)務進行梳理,對檢察建議、糾正違法等共性的檢察業(yè)務指標進行歸并,形成了較為規(guī)范的檢察機關司法辦案大數(shù)據(jù)目錄和工作指標w系。通過對檢察官在執(zhí)法辦案中產(chǎn)生的“原生”大數(shù)據(jù)的深度挖掘和研判分析,將案件統(tǒng)計、質(zhì)量監(jiān)控、專題研判、績效分析有機融為一體,進而使辦案監(jiān)督管理者能夠及時準確找出檢察官在辦案中存在的司法不規(guī)范問題,有效強化對司法辦案的績效考評與內(nèi)部監(jiān)控。

除了重視對“原生”大數(shù)據(jù)的收集整理與挖掘應用,如何發(fā)揮好“他山之石”的作用,在檢察辦案中運用好第三方關聯(lián)大數(shù)據(jù),也是大數(shù)據(jù)技術與檢察辦案深度融合的重要內(nèi)容。除了上述在職務犯罪案件偵查中對房產(chǎn)、銀行、公安行政機關等提供的關聯(lián)數(shù)據(jù)的常規(guī)運用外,當前一些地方檢察機關正在進行創(chuàng)新運用第三方大數(shù)據(jù)方面的積極探索。如江蘇省無錫市錫山區(qū)人民檢察院對接社會治理公共服務管理平臺和民情APP,推出檢察民情APP的創(chuàng)新做法。自對接平臺以來,錫山區(qū)人民檢察院已查閱近6000條民情信息,從海量數(shù)據(jù)中了解掌握群眾訴求,立足檢察職能,從中發(fā)現(xiàn)老百姓對征地拆遷、環(huán)境保護、社會保障等方面的民生需求,聚焦群眾關注的熱點民生問題深入挖掘職務犯罪案件線索、訴訟監(jiān)督線索、執(zhí)行監(jiān)督線索及公益訴訟線索,使第三方大數(shù)據(jù)真正成為輔助檢察辦案,拓展監(jiān)督案源的新渠道。

短板

檢察大數(shù)據(jù)系統(tǒng)的提升點

目前,檢察大數(shù)據(jù)系統(tǒng)在建設與應用方面存在的主要問題:

篇5

“大數(shù)據(jù)時代的預言家”維克托近日在北京面對一萬多名技術信徒再次預言。

顯然,這三大經(jīng)典的技術信條在大數(shù)據(jù)時代面臨動搖,

技術信徒的思維模式也即將發(fā)生顛覆。

那么,大數(shù)據(jù)對技術信徒意味著什么?

他們又將如何面對這一顛覆性的變革?

“技術匯成一條大河,一波推動另外一波?!盜BM中國開發(fā)中心首席技術官兼新技術研發(fā)中心總經(jīng)理毛新生帶著對技術的滿腔癡迷這樣形容道。

一波未平一波又起,移動、社交商務、云計算、大數(shù)據(jù)等先后涌現(xiàn)的新趨勢正在融合成一股巨大的潮流,將所有的行業(yè)IT化,進而推動商業(yè)和社會的演進。這也就意味著“科技是第一生產(chǎn)力”在當下有了更深層次的涵義——“IBM認為,在由新一代技術組成的智慧運算時代,中國的企業(yè)家們需要更為戰(zhàn)略地思考信息科技的定位,將其運用到自身的變革轉(zhuǎn)型之中?!?IBM全球副總裁兼大中華區(qū)軟件集團總經(jīng)理胡世忠為企業(yè)新發(fā)展出謀獻策。

由2012年的“軟件技術峰會”改名為2013年的“技術峰會”,在這么一個盛會上,IBM試圖展示的內(nèi)容涵蓋范圍更為廣泛——移動應用、大數(shù)據(jù)、云計算、DevOps軟件持續(xù)交付、應用整合、社交商務、專家集成系統(tǒng)等熱議話題,上百場技術主題演講、28場分論壇、22場動手實驗室和80個未來產(chǎn)品的現(xiàn)場演示,再加上被譽為“大數(shù)據(jù)時代的預言家”的《大數(shù)據(jù)時代》作者維克托·邁爾-舍恩伯格以及數(shù)十位來自IBM的院士、杰出工程師、相關領域的全球首席技術官和首席架構(gòu)師的現(xiàn)場分享,IBM 2013技術峰會再次成為技術精英們關注的焦點。 大數(shù)據(jù)的新信條

《大數(shù)據(jù)時代》作者、牛津大學網(wǎng)絡學院互聯(lián)網(wǎng)治理與監(jiān)管專業(yè)教授維克托·邁爾-舍恩伯格的出現(xiàn)著實讓場內(nèi)數(shù)以萬計的技術信徒激動了一把。作為深刻洞察大數(shù)據(jù)給人類生活、工作和思維帶來的大變革的第一人,維克托以價格預測網(wǎng)站的例子作為開場白,論證了大數(shù)據(jù)已經(jīng)悄然在大眾的身邊出現(xiàn)并給他們的生活帶來改變。

“全體性、混雜性和相關性是大數(shù)據(jù)的三個主要特點,而且這三個特點是互相加強的?!本S克托歸納出了大數(shù)據(jù)對應的思維變革。收集和分析更多的數(shù)據(jù)才能獲取足夠的數(shù)據(jù)隱含的細節(jié),這些細節(jié)恰恰是隨機抽樣所錯失的?!案蓛簟钡摹⒏哔|(zhì)量的數(shù)據(jù)不再是標的,大數(shù)據(jù)需要我們摒棄對宏觀上精確性的追求,轉(zhuǎn)而獲得微觀上的準確性,即接受混雜的數(shù)據(jù)。最重要的是,人們不再沉迷于追尋數(shù)據(jù)之間的因果關系,即不再糾結(jié)于為什么,而是直接獲得“是什么”的答案,并通過應用相關關系,更好地捕捉現(xiàn)在和預測未來——抽樣因錯失細節(jié)得不償失,盲目追求精確性已經(jīng)過時,執(zhí)著于因果關系喪失機遇。

如何在大數(shù)據(jù)時代生存?維克托指出了兩個關鍵點:一是意識到技術或者規(guī)模并不是成功的充分條件。遺忘規(guī)模經(jīng)濟,因為它的效益會逐漸淡化。20年前,一個公司只有擁有上十萬臺的服務器才能提供搜索服務,但在大數(shù)據(jù)時代,由于云計算的便利性,不擁有實體服務器的公司,如前文提到的,它只有30個員工,但它有能力為其上10億的用戶提供數(shù)據(jù)分析。二是為了在大數(shù)據(jù)時代獲得勝利,大數(shù)據(jù)的思維模式不可或缺,工具的力量不容小視,分析能力是必要的。藍色被谷歌選為搜索窗口的色彩,但藍色實際上有51種,而且這51種藍色人依靠裸眼無法明確區(qū)分,卻能在心理層面給人帶來不同的感受。經(jīng)過大數(shù)據(jù)分析,谷歌發(fā)現(xiàn)原本由人工選出來的藍色會導致谷歌損失200億~300億美元的收入,因為這一種藍色并不最具備誘惑力,無法激起人們點擊的欲望。

大數(shù)據(jù)的力量需要具備大數(shù)據(jù)的思維模式,并有效利用大數(shù)據(jù)的工具去發(fā)掘。IBM杰出工程師、InfoSphere Stream高級開發(fā)經(jīng)理James R Giles闡述了IBM對大數(shù)據(jù)的看法:“我們正一步步走到了一個新紀元——大數(shù)據(jù)時代。如同對待自然資源一樣,我們需要開掘、轉(zhuǎn)變、銷售、保護大數(shù)據(jù)資源;不同的是,大數(shù)據(jù)資源是無窮無盡的,我們不能任由大數(shù)據(jù)淹沒自己,而應該在獲得洞察需求的驅(qū)使下獲得價值?!?/p>

大數(shù)據(jù)的類型廣義而言有移動數(shù)據(jù)和靜態(tài)數(shù)據(jù),還有結(jié)構(gòu)性數(shù)據(jù)和非結(jié)構(gòu)性數(shù)據(jù),這對應著不同的處理方式。“技術人員的責任是,能夠去管理這些數(shù)據(jù),能夠理解這些從不同的數(shù)據(jù)源而來、不同類型的數(shù)據(jù),能夠分析這些數(shù)據(jù),得出結(jié)論,讓其提供決策支持,為企業(yè)擁抱新的大數(shù)據(jù)時代提供技術支撐,以保證管理、安全、商業(yè)的持續(xù)性?!?James R Giles號召技術人員積極行動,以大數(shù)據(jù)的思維模式展現(xiàn)技術的價值和魅力。

找到內(nèi)在聯(lián)系

技術的趨勢總是融合,也只有有機融合才能形成合力,發(fā)揮更大的威力,而實現(xiàn)這一合力的前提是明確各個趨勢之間的內(nèi)在聯(lián)系。

“實際上,社交商務、移動、大數(shù)據(jù)、云計算是一體化的。”毛新生建議技術人員用一個全面的、融合的范式來沉著看待和應對紛繁的熱點技術,理解這些熱點會如何影響整個IT的走向,進而明晰IT如何可以很好地支持各行各業(yè)的業(yè)務轉(zhuǎn)型和創(chuàng)新,“讓每個行業(yè)都可以從新的技術轉(zhuǎn)型當中獲得足夠的原動力”。

從貼近最終用戶的角度來看,移動技術、社交技術改變了商業(yè)機構(gòu)與其雇員、客戶進行互動的方式?!熬臀覀€人的經(jīng)歷而言,航空公司的移動應用可以提供更好的客戶交互。我是西北航空公司的粉絲,因為它家的移動應用服務很貼心,比如查詢航班信息、根據(jù)我的喜好預留位置、定制化地進行社交推薦等?!泵律砸粋€普通消費者的感受證明了企業(yè)通過移動應用收集并利用用戶行為數(shù)據(jù)所帶來的服務質(zhì)量的提升。

移動催生了“一種嶄新的服務交付端點”,即為用戶提供了更多樣化的服務體驗點,讓用戶隨時隨地可以利用碎片化的時間去獲得業(yè)務服務,也為企業(yè)帶來了全新的服務交付渠道。移動這個渠道提供了更為豐富的全樣性數(shù)據(jù),在此基礎上,大數(shù)據(jù)分析就更可信?!耙苿铀邆涞乃槠攸c會帶來更大量的用戶行為信息。當把所有的人的行為結(jié)合在一起,就可以做群體的社會性分析。社會性分析會得到比較準確的群體特征。而群體特征足以獲得很好的交叉銷售與線上銷售機會?!泵律J為移動與大數(shù)據(jù)結(jié)合給企業(yè)提供了新的商業(yè)機會。

移動的設備無處不在。人、汽車,甚至建筑物、道路、橋梁,它們無時無刻不在提供數(shù)據(jù),這就是新的數(shù)據(jù)源,是它們引領我們來到維克托所描述的更為廣闊的大數(shù)據(jù)世界。

移動和社交商務的便捷性使得企業(yè)的整個業(yè)務流程變得非常自動化,用戶可以享受自助服務,對應到企業(yè)端就意味著業(yè)務流程對前端的需求要反應得更為迅速,也意味著各個業(yè)務系統(tǒng)之間無縫連接,否則沒有辦法支撐以最終用戶為中心的服務體驗,但跨部門和跨應用的整合實屬不易。進一步延伸開來,對用戶體驗的追求是無止境的,合作伙伴的API和服務可以作為補充,這即是“跨企業(yè)邊界”的行為。這種行為必然導致大規(guī)模的用戶訪問。這些整合和外部拓展都需要云計算提供靈活有效的基礎。沒有云計算,移動前端的體驗、大數(shù)據(jù)分析的效果都會大打折扣。“云的基礎設施使大規(guī)?;印⒋笠?guī)模數(shù)據(jù)處理、大規(guī)模應用可以更好地服務我們?!泵律赋?。

環(huán)境變化加速,競爭更加激烈,要求企業(yè)的反應速度越來越快,應用以及端到端解決方案快速改變。毛新生饒有興致地介紹道:“這個改變有多快呢?我們有的客戶嘗試以天為周期去改變,這意味著應用和業(yè)務流程的設計、開發(fā)、部署、測試、維護的整個過程要大大加快,也就是所謂的DevOps。只有把敏捷的開發(fā)和運維結(jié)合起來,生命周期變得以天為周期,才能響應新的商業(yè)環(huán)境?!?/p>

“移動、云計算、大數(shù)據(jù)、社交商務之間的緊密聯(lián)系讓我們應該以整體的眼光來審視它們?!焙乐覉孕?,它們的組合可以創(chuàng)造可持續(xù)的競爭優(yōu)勢,可以迸發(fā)變革的力量。

至于一個企業(yè)應該從哪里下手來實現(xiàn)這一幅宏偉藍圖?毛新生給出的答案是:“每一個企業(yè),因為它所處的行業(yè)或者特定的情況而擁有不同的切入點,有一些企業(yè)需要從移動開始,有一些企業(yè)需要從云計算開始,有一些企業(yè)需要從大數(shù)據(jù)開始,但是它們是不可分割的整體,只有綜合地運用它們,找到適合自己的切入點,一步一步腳踏實地,才能掌握先機,打造競爭力。在這個過程中,要擁有正確的思維,改變既有思維,理解趨勢,制定策略?!?/p>

例如,銀行、保險、零售業(yè)這一類和最終消費者打交道的服務業(yè)在很大概率上需要先從移動、社交商務入手,從而使其有機會改善和用戶交互的過程。而以數(shù)據(jù)為生的行業(yè)會琢磨如何將自己的內(nèi)容和資源數(shù)據(jù)增值,而傳統(tǒng)的運營基礎設施的重資產(chǎn)企業(yè),會追求將資產(chǎn)數(shù)字化,得到數(shù)據(jù)并進行分析,以優(yōu)化資產(chǎn)的生命周期管理來預防性地降低維護成本,這些企業(yè)是以大數(shù)據(jù)作為切入點的。還有一些企業(yè)希望跨行業(yè)整合進行業(yè)務創(chuàng)新,背后牽扯到它們自身現(xiàn)有的業(yè)務模式和新業(yè)務模式的整合,這種情況下需要以云的方式構(gòu)建新的應用、服務、商業(yè)流程。

毛新生認為切入點不同只是表象,每一種場景到最后都是綜合性的運用,要把這幾個技術綜合運用起來。從前端開始,首先是利用移動,并借助社交渠道交流,很快這些渠道會得到新的數(shù)據(jù),這些新的數(shù)據(jù)和原有的交易數(shù)據(jù)和積累的數(shù)據(jù)結(jié)合起來做進一步的數(shù)據(jù)分析,這就是大數(shù)據(jù)分析。大數(shù)據(jù)分析以后可以做社交推薦、關聯(lián)推薦了。隨后,能不能跨界再實現(xiàn)更廣泛的銷售?跟別的價值鏈上的合作伙伴合作,那么引入云是解決之道。數(shù)據(jù)量增大,用戶數(shù)增多,云的基礎設施可以讓成本更合理?!八哉f,到最后都是綜合性的應用,盡管起點不一樣”,毛新生說。

對技術人員而言,IT就是交付業(yè)務流程的基礎,是信息化的工具。它的目標無非是優(yōu)化業(yè)務流程或者創(chuàng)新業(yè)務流程。創(chuàng)新到達一定程度后,業(yè)務流程的量變會導致質(zhì)變。“這就解釋了為何全球越來越多的CEO將技術視為驅(qū)動企業(yè)發(fā)展的首要因素?!?IBM軟件集團大中華區(qū)中間件集團總經(jīng)理李紅焰強調(diào),技術人員有能力,也有責任將“看不見的技術轉(zhuǎn)變?yōu)榭吹靡姷南硎堋薄?/p>

移動開發(fā)的轉(zhuǎn)變

在大數(shù)據(jù)的帶領下我們進入移動時代,企業(yè)有了新機遇,技術人員卻有了新挑戰(zhàn)。為什么移動開發(fā)和之前不一樣呢?有什么不一樣呢?這成為了縈繞在技術人員腦子里最主要的兩個問題。

IBM杰出工程師及IBM移動平臺首席架構(gòu)師Greg Truty解答了這兩個疑問。他認為,很多企業(yè)現(xiàn)在所做的事情與在移動的狀態(tài)下做的事情是不一樣的,移動狀態(tài)下的任務和規(guī)劃更具有戰(zhàn)略性。移動應用是在不穩(wěn)定的網(wǎng)絡上運行的,所占用的資源更少。用戶在移動設備上和非移動設備上的體驗是完全不一樣的,他們會希望在不穩(wěn)定的網(wǎng)絡上仍然能夠獲得良好的體驗。企業(yè)現(xiàn)在需要思考的是,怎么樣把大量數(shù)據(jù)、大量體驗變成一些有意義的體驗。同時,移動管理的需求也不一樣了,開發(fā)的特性也不一樣了。比如對一個企業(yè)來說,移動開發(fā)周期更短,有更多設備需要支持,有更多開發(fā)方法可供選擇,也有更多的工具和庫可供選擇,這時候企業(yè)就需要仔細斟酌,哪些開發(fā)方法和工具是自己需要的。

自然而然,對于設備的管理也有了變化,因為應用變化了?!耙恢币詠恚蛻舳朔掌鞯膽眉軜?gòu)是企業(yè)在使用的。你需要協(xié)調(diào)在服務器端的服務以及在客戶端的服務,挑戰(zhàn)非常大。你不可能強迫客戶運行你的應用,而必須能協(xié)調(diào)和兼容原有的系統(tǒng)。這是非常關鍵的一點?!?Greg Truty強調(diào)了設備管理的重要性。

此外,產(chǎn)品種類也非常多,新應用層出不窮。Greg Truty 認為多而新的局面下更需要冷靜處理:“我們會把應用和數(shù)據(jù)結(jié)合起來,移動和社交網(wǎng)絡結(jié)合起來,這樣做會創(chuàng)造一些新的得到數(shù)據(jù)的機會,需要進行管理。新的機會、新的技術,給整個IT組織帶來了更多的挑戰(zhàn)?!?/p>

篇6

關鍵詞:大數(shù)據(jù) Hadoop Spark Spark 流

中圖分類號:TP311 文獻標識碼:A 文章編號:1007-9416(2015)09-0000-00

大數(shù)據(jù)遠不止大量的數(shù)據(jù)(TB)和處理大量數(shù)據(jù)的技術,它以一種前所未有的方式,通過對海量數(shù)據(jù)進行分析,獲得有巨大價值的產(chǎn)品和服務[1]。然而面對龐大的數(shù)據(jù)來獲得有價值的信息是一個巨大的挑戰(zhàn)。為了克服上述困難,近幾年來推出了Hadoop、PureData和Exadata等多種大數(shù)據(jù)系統(tǒng)分析平臺,以Hadoop平臺最為突出,深受用戶的歡迎。但是隨著應用的不斷深入,Hadoop暴露出了它的局限性。主要體現(xiàn)在以下幾方面:第一,操作過于單一,僅支持Map和Reduce兩種操作;第二,迭代計算效率較低,尤其在機器學習和圖形計算方面[2]。 2013年底由Apache 軟件基金會提出的Spark框架技術較好地解決了這些問題。

1 Spark技術架構(gòu)

1.1 Spark設計思想

Spark是一種基于HDFS的并行計算架構(gòu)。主要思想是通過一種新的作業(yè)和數(shù)據(jù)容錯方式來減少磁盤和網(wǎng)絡的I/O開銷 其核心技術是彈性分布式數(shù)據(jù)集(RDD),是指在一組存儲計算機中的只讀數(shù)據(jù)集合,這個數(shù)據(jù)集合可以在分區(qū)對象丟失后進行重建[5]。也就是說RDD的元素不一定需要存儲在物理介質(zhì)中,相反,一個RDD的處理進程包含了如何從可靠的數(shù)據(jù)存儲中去獲取足夠的信息來對這個RDD進行處理。如果RDDS的任務節(jié)點失敗,總可以進行重建[3]。

1.2 Spark系統(tǒng)架構(gòu)

與MapReduce不同,Spark并不僅僅局限于編寫map和reduce兩個方法,它為用戶提供了更為強大的內(nèi)存計算模型,使得用戶可以通過編程將數(shù)據(jù)讀取到集群的內(nèi)存當中,這樣可以快速在內(nèi)存中對數(shù)據(jù)集進行多次迭代,支持復雜的數(shù)據(jù)挖掘算法和圖計算算法使用Scala語言開發(fā),以Mesos作為底層的調(diào)度框架,可以和 Hadoop和Ec2緊密集成,直接讀取HDFS或S3的文件進行計算并把結(jié)果寫回HDFS或S3,是Hadoop和Amazon云計算生態(tài)圈的一部分,項目的core部分代碼只有63個Scala文件,執(zhí)行效率高效。Spark主要由四個模塊組成:Spark SQL、MLlib、Spark 流和GraphX。Spark SQL為了兼容主流關系型數(shù)據(jù)庫系統(tǒng)(RDBMS)可以允許用戶編寫SQL和HQL兩種腳本執(zhí)行查詢,其核心組件是JavaSchemaRDD,它是一個類似于RDBMS的一個Table,由Row和Schema對象來描述Table中行對象和列的DataType。

2 Spark運行模式

2.1 Spark任務調(diào)度方式

Spark的運行模式有多種,主要由SparkContext的MASTER環(huán)境變量所獲得的值來決定,有些模式還需要程序接口來配合輔助決定。但概括起來,Spark運行都以Spark-Context為總調(diào)度驅(qū)動程序,負責應用程序的資源分配,期間分別創(chuàng)建作業(yè)調(diào)度和任務調(diào)度兩級模塊。作業(yè)調(diào)度模塊是基于階段的高層調(diào)度模塊,每個Spark 作業(yè)計算通常有多個階段,每個階段分解為一組任務集,以任務組的形式提交給底層任務調(diào)度模塊來具體執(zhí)行實際計算任務,任務調(diào)度模塊負責啟動實際任務,監(jiān)控和匯報任務運行情況。如果分配任務成功,SparkContext會將應用程序代碼給指定的執(zhí)行者完成一個或多個任務[4]。

2.2 Spark運行模式類型

Spark的運行模式,歸納起來有六種。

(1)Local[M]。該模式使用 LocalBackend 調(diào)用TaskSchedulerImpl 實現(xiàn)。LocalBackend 響應Scheduler的receiveOffers請求,根據(jù)可用CPU Core的設定值[M]直接生成WorkerOffer資源返回給Scheduler,并通過Executor類在線程池中依次啟動和運行Scheduler返回的任務列表。

(2)Standalone。該模式使用SparkDeploySchedulerBackend調(diào)用TaskSchedulerImpl來實現(xiàn) ,而SparkDeploySchedulerBackend同時繼承了CoarseGrainedSchedulerBackend。是一個在Akka Actor上實現(xiàn)的粗粒度的資源調(diào)度類,在整個Spark Job運行期間,監(jiān)聽和擁有注冊給它的Executor資源,比如接受Executor注冊,狀態(tài)更新,響應Scheduler請求等,并且根據(jù)現(xiàn)有Executor資源發(fā)起任務流程調(diào)度。

(3)Local-cluster。偽分布模式實際上是在Standalone模式上實現(xiàn)的,也就是在SparkContext初始化的過程中在本地啟動一個單機的偽分布Spark集群,后面的執(zhí)行流程與Standalone模式相同。

(4)Mesos。該模式主要根據(jù)顆粒度大小來區(qū)分,粗粒度的CoarseMesosSchedulerBackend繼承了CoarseGrained SchedulerBackend,相對于父類額外做的工作還要實現(xiàn)MScheduler接口,注冊到Mesos資源調(diào)度的框架中,用于接收Mesos的資源分配,在得到資源后通過Mesos框架遠程啟動CoarseGrainedExecutorBackend,以后的任務交互過程和Spark standalone模式一樣,由DriverActor和Executor Actor直接完成。 細粒度的MesosSchedulerBackend直接繼承SchedulerBackend,但同樣實現(xiàn)了MScheduler接口,完成Mesos資源調(diào)度框架中的注冊,接收Mesos的資源分配。不同之處是在接收資源分配以后,MesosSchedulerBackend啟動的是遠程Executor,通過在遠程執(zhí)行命令來啟動MesosExecutorBackend,直接執(zhí)行對應的任務。

(5)Yarn-standalone。Yarn-Standalone模式相對其它模式有些特殊,需要外部程序輔助啟動應用程序。Client通過Yarn Client API在Hadoop集群上啟動一個Spark App Master,Spark App Master首先為自己注冊一個Yarn App Master,再啟動用戶程序,然后根據(jù)Client傳遞過來的參數(shù),Spark App Master通過Yarn RM/NM接口在集群中啟動多個Container運行CoarseGrainedExecutorBackend往CoarseGrainedSchedulerBackend注冊。后面的任務調(diào)度流程跟其它Cluster模式類似,不再述說。

(6)Yarn-client。該模式的SparkContext運行在本地,適用于應用程序本身需要在本地交互的情景。這種模式下SparkContext在初始化時首先啟動YarnClientSchedulerBackend,然后再調(diào)用客戶端包遠程啟動一個作業(yè)作為Spark的App Master,相對于Yarn-standalone模式,此模式不再負責啟動用戶程序,而只是啟動Backend便于跟客戶端本地Driver進行數(shù)據(jù)傳遞,后面的任務調(diào)度流程跟其它模式類似。

3 Spark應用現(xiàn)狀及發(fā)展

目前SPARK已經(jīng)構(gòu)建了自己的整個大數(shù)據(jù)處理生態(tài)系統(tǒng),如流處理、圖技術、機器學習、NoSQL查詢等方面的技術,并且是Apache頂級項目。雖然Spark對內(nèi)存要求較高,推出時間較短未經(jīng)過實踐考驗,但伴隨著大數(shù)據(jù)相關技術和產(chǎn)業(yè)的逐步成熟,繼Hadoop之后,Spark技術以集大成的無可比擬的優(yōu)勢,發(fā)展迅速,將成為替代Hadoop的下一代云計算、大數(shù)據(jù)核心技術??梢灶A計2015年下半年在社區(qū)和商業(yè)應用上會有爆發(fā)式的增長。

參考文獻

[1] K. Shvachko, K. Hairong, S. Radia e R. Chansler. The Hadoop Distributed File System[C]. IEEE 26th Symposium on Mass Storage Systems and Technologies, 2010.

[2] Spark: Lighting-fast cluster computing[EB/OL]. http:///.

[3] M. Hirzel, H. Andrade, B. Gedik, et al. IBM Streams Processing Language: Analyzing Big Data in motion[J]. IBM Journal of Research and Development.2013,57(7):1-7.

[4] T. Chardonnens, P. Cudre-Mauroux, M. Grund ,et al.Big data analytics on high Velocity streams: A case study[C]. IEEE International Conference on Big Data, 2013.

篇7

關鍵詞:大數(shù)據(jù);智能交通;數(shù)據(jù)技術

隨著國民經(jīng)濟的不斷發(fā)展,人們生活水平的不斷提高,居民購買汽車能力加強。我國的汽車保有量隨之增加,在一些大城市機動車擁有量以超過10%的速度加速,機動車成為每個家庭代步的交通工具,在有限的交通資源配置下,機動車的增加縮短了道路使用周期,城市主干道路超負荷使用,違法停車致使道路不能合理使用、行車不文明、乘車環(huán)境不良等現(xiàn)象有增無減。大數(shù)據(jù)時代,如何改善當前的交通狀況是本文闡述的核心內(nèi)容。文章從以下幾個方面來闡述:大數(shù)據(jù)的現(xiàn)狀、大數(shù)據(jù)的概述、大數(shù)據(jù)的應用、智能交通的需求、智能交通體系的建立、數(shù)據(jù)技術。

1 大數(shù)據(jù)的現(xiàn)狀

據(jù)權(quán)威數(shù)據(jù)顯示,大數(shù)據(jù)應用在我國還處在起步階段。但在未來三年,通信、金融領域?qū)⒃诖髷?shù)據(jù)市場突破100億元。市場規(guī)模在2012年有望達到4.7億元,到2013年增至11.2億元,增長率高達138%,2014年,保持了與2013年基本持平的增速,增長率為114.38%,市場規(guī)模達到24.1億元,未來三年內(nèi)有望突破150億元,2016年有望達到180億規(guī)模。自從2014年以來,各界對大數(shù)據(jù)的誕生都備加關注,已滲透到各個領域:交通行業(yè)、醫(yī)療行業(yè)、生物技術、零售行業(yè)、電商、農(nóng)牧業(yè)、個人位置服務等行業(yè),由此也正在不斷涌現(xiàn)大數(shù)據(jù)的新產(chǎn)品、新技術、新服務。

大數(shù)據(jù)行業(yè)“十三五”規(guī)劃主要目標:在2020年,將大數(shù)據(jù)打造成為國民經(jīng)濟新興支柱產(chǎn)業(yè)并在社會各領域廣泛應用,推動我國大數(shù)據(jù)產(chǎn)業(yè)穩(wěn)步快速發(fā)展,基本健全大數(shù)據(jù)產(chǎn)業(yè)體系,推動制定一批相關大數(shù)據(jù)的國標、行標和地方標準,引進具備大數(shù)據(jù)條件的企業(yè),建設大數(shù)據(jù)產(chǎn)業(yè)孵化基地,提高全國信息化總體水平,以躋身世界先進水平。

2 大數(shù)據(jù)的概述

2.1 大數(shù)據(jù)定義

大數(shù)據(jù)即巨量數(shù)據(jù)集合,目前還沒有一個統(tǒng)一的定義。大數(shù)據(jù)的概念最早是由全球著名的管理咨詢公司麥肯錫提出,2011年Mckinsey研究稱,大數(shù)據(jù)通常是指信息爆炸時代產(chǎn)生的海量數(shù)據(jù),在各個行業(yè)和業(yè)務領域,數(shù)據(jù)已經(jīng)滲透到行業(yè)中并逐漸成為重要的要素,人們能夠從海量數(shù)據(jù)中挖掘出有用的數(shù)據(jù)并加以應用。對大數(shù)據(jù)定義的另一說法是利用常用軟件工具捕獲、管理和處理數(shù)據(jù)所耗時間超過可容忍時間的數(shù)據(jù)集。

隨著信息時代的高速發(fā)展,大數(shù)據(jù)已經(jīng)成為社會生產(chǎn)力發(fā)展的又一推動力。大數(shù)據(jù)被稱為是繼云計算、物聯(lián)網(wǎng)之后信息時代的又一大顛覆性的技術革命。大數(shù)據(jù)的數(shù)據(jù)量巨大,一般10TB規(guī)模左右,但在實際應用中,多個數(shù)據(jù)集放在一起,已經(jīng)形成了PB級的數(shù)據(jù)量,甚至EB、ZB、TB的數(shù)據(jù)量。

2.2 大數(shù)據(jù)的特點

2.2.1 數(shù)據(jù)量巨大

數(shù)據(jù)量級別從TB級別躍升到PB級別。隨著可穿戴設備、物聯(lián)網(wǎng)和云計算、云存儲等技術的發(fā)展,用戶的每一個動作都可以被記錄,由此每天產(chǎn)生大量的數(shù)據(jù)信息。據(jù)有關人士估算:1986~2007年,全球數(shù)據(jù)的存儲能力每年提高23%,雙向通信能力每年提高28%,通用計算能力每年提高58%;2007年,人類大約存儲了超過300EB

的數(shù)據(jù);到2013年,世界上存儲的數(shù)據(jù)能達到約1.2ZB。

2.2.2 數(shù)據(jù)類型多樣化

即數(shù)據(jù)類型繁多,產(chǎn)生了海量的新數(shù)據(jù)集,新數(shù)據(jù)集可以是關系數(shù)據(jù)庫和數(shù)據(jù)倉庫數(shù)據(jù)這樣的結(jié)構(gòu)化數(shù)據(jù)到半結(jié)構(gòu)化數(shù)據(jù)和無結(jié)構(gòu)數(shù)據(jù),從靜態(tài)的數(shù)據(jù)庫到動態(tài)的數(shù)據(jù)流,從簡單的數(shù)據(jù)對象到時間數(shù)據(jù)、生物序列數(shù)據(jù)、傳感器數(shù)據(jù)、空間數(shù)據(jù)、超文本數(shù)據(jù)、多媒體數(shù)據(jù)、軟件程序代碼、Web數(shù)據(jù)和社會網(wǎng)絡數(shù)據(jù)[1]。各種數(shù)據(jù)集不僅產(chǎn)生于組織內(nèi)部運作的各個環(huán)節(jié),也來自于組織外部。

2.2.3 數(shù)據(jù)的時效性高

所謂的數(shù)據(jù)時效性高指以實時數(shù)據(jù)處理、實時結(jié)果導向為特征的解決方案,數(shù)據(jù)的傳輸速度、響應、反應的速度不斷加快。數(shù)據(jù)時效性為了去偽存真,采用非結(jié)構(gòu)化數(shù)據(jù)剔除數(shù)據(jù)中無用的信息,而當前未有真正的解決方法,只能是人工承擔其中的智能部分。有些專員負責數(shù)據(jù)分析問題并提出分析后的解決方案。

2.2.4 數(shù)據(jù)真實性低

即數(shù)據(jù)的質(zhì)量。數(shù)據(jù)的高質(zhì)量是大數(shù)據(jù)時代重要的關注點。但在生活中,“臟數(shù)據(jù)”無處不在,例如,一些低劣的偽冒產(chǎn)品被推上市場,由于營銷手段的成功,加之其他因素的影響導致評分很高。但是這并不是真實的數(shù)據(jù),如果對數(shù)據(jù)不加分析和鑒別而直接使用,即使計算的結(jié)果精度高,結(jié)果都是無意義的,因為數(shù)據(jù)本身就存在問題出現(xiàn)。

2.2.5 價值密度低

指隨著物聯(lián)網(wǎng)的廣泛應用,信息巨大,信息感知存在于客觀事物中,有很多不相關的信息。由于數(shù)據(jù)采集的不及時,數(shù)據(jù)樣本不全面,數(shù)據(jù)可能不連續(xù)等等,數(shù)據(jù)可能會失真,但當數(shù)據(jù)量達到一定規(guī)模,可以通過更多的數(shù)據(jù)達到更真實全面的反饋。

2.3 大數(shù)據(jù)的應用

2.3.1 醫(yī)療大數(shù)據(jù)

利用大數(shù)據(jù)平臺收集患者原先就醫(yī)的病例和治療方案,根據(jù)患者的體征,建立疾病數(shù)據(jù)庫并對患者的病例分類數(shù)據(jù)庫。一旦患者在哪個醫(yī)院就醫(yī),憑著醫(yī)??ɑ蚓驮\卡,醫(yī)生就可以從疾病數(shù)據(jù)庫中參考病人的疾病特征、所做的檢查報告結(jié)果快速幫助患者確診。同時擁有的數(shù)據(jù)也有利于醫(yī)藥行業(yè)開發(fā)出更符合治療疾病的醫(yī)療器械和藥物的研發(fā)。

2.3.2 傳統(tǒng)農(nóng)牧業(yè)大數(shù)據(jù)

因為傳統(tǒng)農(nóng)牧業(yè)主要依賴于天氣、土壤、空氣質(zhì)量等客觀因素,因此利用大數(shù)據(jù)可以收集客觀因素的數(shù)據(jù)以及作物成熟度,甚至是設備和勞動力的成本及可用性方面的實時數(shù)據(jù),能夠幫助農(nóng)民選擇正確的播種時間、施肥和收割作物的決策。當農(nóng)民遇到技術市場問題可以請教專業(yè)人員,專業(yè)人員根據(jù)實時數(shù)據(jù)做出科學的指導,制定合理的優(yōu)化決策,降低農(nóng)民的損失成本,提高產(chǎn)品的產(chǎn)量,從而為轉(zhuǎn)向規(guī)?;?jīng)營打下良好基礎。

2.3.3 輿情大數(shù)據(jù)

利用大數(shù)據(jù)技術收集民眾訴求的數(shù)據(jù),降低社會,有利管理犯罪行為。通過大數(shù)據(jù)收集在微博的尋找走失的親人或提供可能被拐賣人口的信息,來幫助別人。

3 智能交通的需求

隨著城市一體化的快速發(fā)展,新時代農(nóng)民工涌入大城市,促使城市人口的增大不斷給城市交通帶來問題。究其原因主要有:一是機動車的迅猛發(fā)展導致城市主次干道的流量趨于飽和,大量機動車的通行和停放占據(jù)主干道路。二是城市交通的道路基礎設施供給不平衡導致路網(wǎng)承擔能力差。三是停車泊位數(shù)量不足導致機動車使用者不得不過多依賴道路停車。四是公共設施的公交車分擔率不高導致交通運輸效率降低。五是城市的土地開發(fā)利用與道路交通發(fā)展不均衡。六是行人和機動車主素質(zhì)不文明導致道路通行效率降低。為此,智能交通的出現(xiàn)是改善當前城市交通的必要需求,能夠在一定程度上有效的解決城市交通問題。

大數(shù)據(jù)是如何在智能交通的應用呢?可以從兩個方面說明:一是對交通運行數(shù)據(jù)的收集。由于每天道路的通行機動車較多,能夠產(chǎn)生較大的數(shù)據(jù),數(shù)據(jù)的采集并發(fā)數(shù)高,利用大數(shù)據(jù)使機動車主更好的了解公路上的通行密度,有效合理對道路進行規(guī)劃,可規(guī)定個別道路為單行線。其二是可以利用大數(shù)據(jù)來實現(xiàn)主干道根據(jù)道路的運行狀況即時調(diào)度信號燈,提高已有線路運行能力,可以保障交通參與者的生命和提高有關部門的工作效率,降低成本。對于機動車主可以根據(jù)大數(shù)據(jù)隨時的了解當前的交通狀況和停車位數(shù)量。如果交通擁堵,車主則可選擇另一路線,節(jié)約了車主的大量時間。

4 智能交通體系的建立

4.1 智能交通建立的框架

主要包括感知數(shù)據(jù)層、軟件應用平臺及分析預測和優(yōu)化管理的應用。物理感知層主要是采集交通的運行狀況和對交通數(shù)據(jù)的及時感知;軟件應用平臺主要整合每個感知終端的信息、將信息進行轉(zhuǎn)換和處理,達到支撐分析并做出及時的預警措施。比如:對主要交通干進行規(guī)劃,對頻發(fā)交通事故進行監(jiān)控。同時還應進行應用系統(tǒng)建設的優(yōu)化管理。比如:對機動車進行智能誘導、智能停車。

智能交通系統(tǒng)需要在各道路主干道上安裝高清攝像頭,采用先進的視頻監(jiān)控、智能識別和信息技術手段,來增加可管理的維度,從空間的廣度、時間的深度、范圍的精細度來管理。整個系統(tǒng)的組成包括信息綜合應用平臺、信號控制系統(tǒng)、視頻監(jiān)控系統(tǒng)、智能卡口系統(tǒng)、電子警察系統(tǒng)、信息采集系統(tǒng)、信息系統(tǒng)。每個城市建立智能交通并進行聯(lián)網(wǎng),則會產(chǎn)生越來越多的視頻監(jiān)控數(shù)據(jù)、卡口電警數(shù)據(jù)、路況信息、管控信息、營運信息、GPS定位信息、射頻識別信息等數(shù)據(jù),每天產(chǎn)生的數(shù)據(jù)量將可以達到PB級別,并且呈現(xiàn)指數(shù)級的增長。

4.2 智能交通數(shù)據(jù)處理體系的構(gòu)成

主要包括交通的數(shù)據(jù)輸入、車輛信息、道路承載能力等的數(shù)據(jù)處理、數(shù)據(jù)存儲、數(shù)據(jù)檢索。其中交通數(shù)據(jù)輸入可以是靜態(tài)數(shù)據(jù)或者是動態(tài)數(shù)據(jù)。數(shù)據(jù)處理是針對實時數(shù)據(jù)的處理。數(shù)據(jù)主要存儲的是每天采集的巨大數(shù)據(jù)量。為了從中獲取有用的數(shù)據(jù),則需要進行數(shù)據(jù)查詢和檢索,還要對數(shù)據(jù)進行規(guī)劃。

5 大數(shù)據(jù)技術

5.1 數(shù)據(jù)采集與預處理

數(shù)據(jù)采集與預處理主要對交通領域全業(yè)態(tài)數(shù)據(jù)的立體采集與處理來支撐交通建設、管理、運行決策。采集的數(shù)據(jù)主要是車輛的實時通行數(shù)據(jù),以實現(xiàn)實時監(jiān)控、事先預測、及時預警,完成道路網(wǎng)流量的調(diào)配、控。這些數(shù)據(jù)獲取可以采用安裝的傳感器、識別技術并完成對已接收數(shù)據(jù)的辨析、轉(zhuǎn)換、抽取、清洗等操作。

5.2 數(shù)據(jù)存儲與管理

大數(shù)據(jù)的存儲與管理是把采集到的數(shù)據(jù)存放在存儲器,并建立相應的數(shù)據(jù)庫,如關系數(shù)據(jù)庫、Not Only SQL即對關系型SQL數(shù)據(jù)系統(tǒng)的補充。利用數(shù)據(jù)庫采用更簡單的數(shù)據(jù)模型,并將元數(shù)據(jù)與應用數(shù)據(jù)分離,從而實現(xiàn)管理和調(diào)用。

5.3 數(shù)據(jù)分析與挖掘

數(shù)據(jù)分析及挖掘技術是大數(shù)據(jù)的核心技術。從海量數(shù)據(jù)中,提取隱含在其中,人們事先未知的,但又可能有用的信息和知識的過程。從復雜數(shù)據(jù)類型中挖掘,如文本、圖片、視頻、音頻。該技術主要從數(shù)據(jù)中自動地抽取模式、關聯(lián)、變化、異常和有意義的結(jié)構(gòu),可以預測模型、機器學習、建模仿真。從而實現(xiàn)一些高級別數(shù)據(jù)分析的需求。

5.4 數(shù)據(jù)展現(xiàn)與應用

數(shù)據(jù)技術能夠?qū)⒚刻焖a(chǎn)生的大量數(shù)據(jù)從中挖掘出有用的數(shù)據(jù),應用到各個領域有需要的地方以提高運行效率。

6 結(jié)束語

大數(shù)據(jù)時代,能對智能交通信息資源進行優(yōu)化配置,能夠改善傳統(tǒng)的交通問題。對非機動車主而言,利用大數(shù)據(jù)可以更好的規(guī)劃線路,更好的了解交通狀況,在一定程度上可以對問題預先提出解決方案,起到節(jié)省大量時間、額外的開支。同時對交管部門而言,能夠在限的警力情況下合理配置人員資源和交通設備,主干道路在高峰期出現(xiàn)的問題能夠合理利用大數(shù)據(jù)信息配置資源,在刑事案件偵查中也能發(fā)揮更重要的作用。

全國要實現(xiàn)智能交通的聯(lián)網(wǎng),依然有問題需要突破,這都是大數(shù)據(jù)的數(shù)據(jù)技術應用所在。

篇8

關鍵詞:煙草;數(shù)據(jù)中心;大數(shù)據(jù);Hadoop;Impala

1.大數(shù)據(jù)技術現(xiàn)狀

當前許多企業(yè)都已基本實現(xiàn)了信息化建設,企業(yè)積累了海量數(shù)據(jù)。同時企業(yè)間的競爭日益加劇,企業(yè)為了生存及發(fā)展需要保證自身能夠更加準確、快速和個性化地為客戶提品及服務。而大數(shù)據(jù)技術能夠從海量的數(shù)據(jù)中獲取傳統(tǒng)數(shù)據(jù)分析手段無法獲知的價值和模式,幫助企業(yè)更加迅速、科學、準確地進行決策和預測。

1.1大數(shù)據(jù)技術現(xiàn)狀

廣大企業(yè)的迫切需求反之也促進了大數(shù)據(jù)技術的飛速發(fā)展,涌現(xiàn)出了諸如Hadoop、Spark等實用的架構(gòu)平臺。其中,目前最主流的就是Hadoop。Hadoop的分布式處理架構(gòu)支持大規(guī)模的集群,允許使用簡單的編程模型進行跨計算機集群的分布式大數(shù)據(jù)處理。通過使用專門為分布式計算設計的文件系統(tǒng)HDFS,計算的時候只需要將計算代碼推送到存儲節(jié)點上,即可在存儲節(jié)點上完成數(shù)據(jù)本地化計算。因此,Hadoop實現(xiàn)了高可靠性、高可拓展性、高容錯性和高效性,可以輕松應對PB級別的數(shù)據(jù)處理。

1.2大數(shù)據(jù)技術對煙草數(shù)據(jù)中心建設的影響

當前,煙草企業(yè)基于多年的信息化建設已經(jīng)積累了海量數(shù)據(jù),同時每天還不斷有新的各種數(shù)據(jù)產(chǎn)生。在高并發(fā)、大體量的情況下,需要在數(shù)據(jù)采集、存儲和運算方面采用與以往完全不同的計算存儲模式,這就不可避免地需要采用大數(shù)據(jù)技術。同時,除了購進單、卷煙交易數(shù)據(jù)、貨源投放數(shù)據(jù)等結(jié)構(gòu)化數(shù)據(jù)外,還產(chǎn)生越來越多的非結(jié)構(gòu)化數(shù)據(jù),利用大數(shù)據(jù)技術,對非結(jié)構(gòu)化數(shù)據(jù)進行預處理,可為人工判斷和機器學縮減范圍。對海量數(shù)據(jù)以及非結(jié)構(gòu)化的信息進行分析統(tǒng)計,僅僅依靠傳統(tǒng)的技術手段很難實現(xiàn),只有引入大數(shù)據(jù)技術才能充分的將所有的數(shù)據(jù)資源利用起來,成為企業(yè)決策的助力。

2.江蘇煙草數(shù)據(jù)中心應用現(xiàn)狀

2.1江蘇煙草數(shù)據(jù)中心體系架構(gòu)

目前江蘇煙草數(shù)據(jù)中心以一體化數(shù)據(jù)中心、一體化數(shù)據(jù)管理和一體化數(shù)據(jù)分析三個部分為核心,構(gòu)建了一套完整的數(shù)據(jù)中心架構(gòu)。一體化數(shù)據(jù)中心是整個數(shù)據(jù)中心最核心的部分。通過數(shù)據(jù)倉庫模型、數(shù)據(jù)存儲、ETL工具等組成部分,構(gòu)建了業(yè)務數(shù)據(jù)的收集、加工、存儲、分發(fā)的總體架構(gòu)。建立了按ODS(SODS、UODS)、DW、DM三層結(jié)構(gòu)設計建設的數(shù)據(jù)倉庫。一體化數(shù)據(jù)管理通過主數(shù)據(jù)管理、信息代碼管理、ESB平臺構(gòu)建了企業(yè)主數(shù)據(jù)收集、標準化、同步分發(fā)過程。結(jié)合指標管理,全面管控企業(yè)的公用基礎信息。通過數(shù)據(jù)質(zhì)量管理,全面有效管控數(shù)據(jù)質(zhì)量。通過數(shù)據(jù)服務管理,有效提升數(shù)據(jù)中心的對外服務能力與水平。通過元數(shù)據(jù)管理來管理數(shù)據(jù)中心元數(shù)據(jù)。一體化數(shù)據(jù)分析通過構(gòu)建移動信息、業(yè)務分析、數(shù)據(jù)挖掘三大模塊,針對性解決當前不同人員的決策、管理以及操作需求,發(fā)揮數(shù)據(jù)中心的數(shù)據(jù)、技術、平臺優(yōu)勢。通過移動信息模塊為各級領導提供決策支持;通過業(yè)務分析模塊為業(yè)務人員的日常工作提供支撐;通過數(shù)據(jù)挖掘模塊,發(fā)掘數(shù)據(jù)所蘊含的隱性價值?;谏鲜鲆徽准軜?gòu)的支撐,目前數(shù)據(jù)中心構(gòu)建了全省范圍的數(shù)據(jù)集成、交換體系,一方面提升了全省基礎數(shù)據(jù)、業(yè)務數(shù)據(jù)的規(guī)范化程度和數(shù)據(jù)質(zhì)量,另一方面為在建業(yè)務系統(tǒng)的實施、已有系統(tǒng)的改造提供了標準化的高質(zhì)量數(shù)據(jù)保障。

2.2大數(shù)據(jù)技術的應用場景分析

隨著江蘇數(shù)據(jù)中心的不斷運行,一些基于傳統(tǒng)技術架構(gòu)的功能逐漸暴露出種種問題。其中較為突出的問題有:一是使用者對于大數(shù)據(jù)量數(shù)據(jù)的查詢需求?;趥鹘y(tǒng)技術架構(gòu)的查詢功能響應較慢;二是分析支持靈活性的不足。傳統(tǒng)統(tǒng)計分析應用的數(shù)據(jù)結(jié)構(gòu)大多是預先定義好的,面對靈活的非傳統(tǒng)的統(tǒng)計查詢需求難以支撐,需要進行額外的加工處理。江蘇煙草數(shù)據(jù)中心結(jié)合互聯(lián)網(wǎng)大數(shù)據(jù)技術特性,引入Hadoop平臺以及Impala等工具,搭建基于大數(shù)據(jù)的自定義數(shù)據(jù)查詢平臺,以補充基于傳統(tǒng)技術架構(gòu)的功能不足,并為未來進一步發(fā)展建設基于大數(shù)據(jù)技術和云環(huán)境的數(shù)據(jù)中心做好準備。

3.基于大數(shù)據(jù)的自定義數(shù)據(jù)查詢平臺實現(xiàn)

3.1設計思路及架構(gòu)

基于大數(shù)據(jù)的自定義數(shù)據(jù)查詢平臺是在現(xiàn)有數(shù)據(jù)中心的建設成果之上,以數(shù)據(jù)中心的數(shù)據(jù)存儲為基礎,以Hadoop、Hive、Impala等大數(shù)據(jù)技術工具為手段,以簡單靈活、快速高效的查詢展現(xiàn)為目標,建立的數(shù)據(jù)查詢分析支持平臺。

3.2技術方案

自定義數(shù)據(jù)查詢平臺的建設主要涉及數(shù)據(jù)存儲架構(gòu)、后臺數(shù)據(jù)加工準備、前端展現(xiàn)三塊內(nèi)容。自定義數(shù)據(jù)查詢平臺的數(shù)據(jù)存儲分為兩部分。一部分為KETTLE、Impala等工具以及自定義查詢相關的元數(shù)據(jù)存儲,另一部分則是查詢所需的各種統(tǒng)計數(shù)據(jù)的存儲。元數(shù)據(jù)的存儲根據(jù)元數(shù)據(jù)庫的不同主要分為兩部分。第一部分為基于Mysql數(shù)據(jù)庫的元數(shù)據(jù)存儲。這部分元數(shù)據(jù)主要包括有ETL工具KETTLE的元數(shù)據(jù),以及前端自定義查詢需要定義的權(quán)限、數(shù)據(jù)源、表、列和表列關系等信息。第二部分為基于Hive的元數(shù)據(jù)存儲。這部分存儲的是前端查詢需要使用的Impala工具的元數(shù)據(jù)。統(tǒng)計數(shù)據(jù)的存儲則是使用Hadoop的HDFS實現(xiàn)的。根據(jù)Hadoop平臺架構(gòu),自定義數(shù)據(jù)查詢平臺的HDFS建立在6臺虛擬主機構(gòu)建的集群上的。其中:2臺虛擬主機作為NameNode,一臺為主節(jié)點,另一臺為備份節(jié)點;其余4臺虛擬主機都作為DataNode用于存儲數(shù)據(jù)。所有數(shù)據(jù)將會統(tǒng)一分塊自動分配存儲到4個DataNode上。自定義數(shù)據(jù)查詢平臺的數(shù)據(jù)加工,是通過開源ETL工具KETTLE實現(xiàn)的。通過KETTLE從數(shù)據(jù)中心現(xiàn)有數(shù)據(jù)倉庫及數(shù)據(jù)集市中讀取需要的數(shù)據(jù),根據(jù)自定義數(shù)據(jù)查詢平臺的數(shù)據(jù)模型定義對數(shù)據(jù)進行處理,最終加載到Hadoop的HDFS文件系統(tǒng)中。自定義數(shù)據(jù)查詢平臺的前端展現(xiàn)功能,主要是基于JSP技術實現(xiàn)頁面開發(fā),通過JDBC或者ODBC對后臺Mysql數(shù)據(jù)庫進行訪問。使用者在查詢頁面中組織定義查詢的內(nèi)容,查詢服務自動根據(jù)獲取的元數(shù)據(jù)信息將定義的查詢內(nèi)容拼接轉(zhuǎn)換成為查詢SQL,之后通過Impala執(zhí)行查詢SQL對HDFS文件系統(tǒng)中的統(tǒng)計數(shù)據(jù)進行查詢。

3.3系統(tǒng)實現(xiàn)效果

利用大數(shù)據(jù)技術,自定義數(shù)據(jù)查詢平臺較好地解決了目前數(shù)據(jù)中心所面對的問題,滿足了使用人員對于大數(shù)據(jù)量以及分析靈活性的需求。面對使用人員層出不窮的查詢需求,自定義數(shù)據(jù)查詢平臺通過預先梳理、分類定義各種維度以及統(tǒng)計指標。使用者可以自由的根據(jù)實際需求選擇分析所需的維度及統(tǒng)計指標,同時還可以基于這些基礎的內(nèi)容更進一步自定義過濾條件以及計算公式,并指定其展現(xiàn)形式。在大數(shù)據(jù)量查詢效率方面,自定義查詢平臺相比傳統(tǒng)架構(gòu)的查詢功能有了較大提升。

4.結(jié)束語

大數(shù)據(jù)技術的發(fā)展方興未艾,應用前景無比廣闊,對各行各業(yè)的巨大作用正在逐步展現(xiàn)。江蘇煙草數(shù)據(jù)中心的建設既要看到大數(shù)據(jù)技術未來的前景,更需要明確地認識到大數(shù)據(jù)平臺的建設并非一朝一夕,需要有明確而長遠的規(guī)劃,不斷完善數(shù)據(jù)環(huán)境建設、云計算環(huán)境的構(gòu)建以及數(shù)據(jù)服務的擴展。

參考文獻

[1]陳鵬.大數(shù)據(jù)時代下的信息安全問題研究[J].電子制,2015,18:48

[2]劉憶魯,劉長銀,侯艷權(quán).大數(shù)據(jù)時代下的信息安全問題論述[J].信息通信.2016,181-182

推薦期刊