首頁 > 精品范文 > 數(shù)據(jù)挖掘技術(shù)分析論文
時間:2022-12-21 17:52:27
序論:寫作是一種深度的自我表達。它要求我們深入探索自己的思想和情感,挖掘那些隱藏在內(nèi)心深處的真相,好投稿為您帶來了七篇數(shù)據(jù)挖掘技術(shù)分析論文范文,愿它們成為您寫作過程中的靈感催化劑,助力您的創(chuàng)作。
數(shù)據(jù)挖掘技術(shù)是近些年發(fā)展起來的一門新興學(xué)科,它涉及到數(shù)據(jù)庫和人工智能等多個領(lǐng)域。隨著計算機技術(shù)的普及數(shù)據(jù)庫產(chǎn)生大量數(shù)據(jù),能夠從這些大量數(shù)據(jù)中抽取出有價值信息的技術(shù)稱之為數(shù)據(jù)挖掘技術(shù)。數(shù)據(jù)挖掘方法有統(tǒng)計學(xué)方法、關(guān)聯(lián)規(guī)則挖掘、決策樹方法、聚類方法等八種方法,關(guān)聯(lián)規(guī)則是其中最常用的研究方法。關(guān)聯(lián)規(guī)則算法是1993年由R.Atal,Inipusqi,Sqtm三人提出的Apriori算法,是指從海量數(shù)據(jù)中挖掘出有價值的能夠揭示實體和數(shù)據(jù)項間某些隱藏的聯(lián)系的有關(guān)知識,其中描述關(guān)聯(lián)規(guī)則的兩個重要概念分別是Suppor(t支持度)和Confi-dence(可信度)。只有當(dāng)Support和Confidence兩者都較高的關(guān)聯(lián)規(guī)則才是有效的、需要進一步進行分析和應(yīng)用的規(guī)則。
二、使用Weka進行關(guān)聯(lián)挖掘
Weka的全名是懷卡托智能分析環(huán)境(WaikatoEnviron-mentforKnowledgeAnalysis),是一款免費的、非商業(yè)化的、基于JAVA環(huán)境下開源的機器學(xué)習(xí)以及數(shù)據(jù)挖掘軟件[2]。它包含了許多數(shù)據(jù)挖掘的算法,是目前最完備的數(shù)據(jù)挖掘軟件之一。Weka軟件提供了Explorer、Experimenter、Knowledge-Flow、SimpleCLI四種模塊[2]。其中Explorer是用來探索數(shù)據(jù)環(huán)境的,Experimenter是對各種實驗計劃進行數(shù)據(jù)測試,KnowledgeFlow和Explorer類似,但該模塊通過其特殊的接口可以讓使用者通過拖動的形式去創(chuàng)建實驗方案,Simple-CLI為簡單的命令行界面。以下數(shù)據(jù)挖掘任務(wù)主要用Ex-plorer模塊來進行。
(一)數(shù)據(jù)預(yù)處理
數(shù)據(jù)挖掘所需要的所有數(shù)據(jù)可以由系統(tǒng)排序模塊生成并進行下載。這里我們下載近兩年的教師科研信息。為了使論文總分、學(xué)術(shù)著作總分、科研獲獎總分、科研立項總分、科研總得分更有利于數(shù)據(jù)挖掘計算,在這里我們將以上得分分別確定分類屬性值。
(二)數(shù)據(jù)載入
點擊Explorer進入后有四種載入數(shù)據(jù)的方式,這里采用第一種Openfile形式。由于Weka所支持的標準數(shù)據(jù)格式為ARFF,我們將處理好的xls格式另存為csv,在weka中找到這個文件并重新保存為arff文件格式來實現(xiàn)數(shù)據(jù)的載入。由于所載入的數(shù)據(jù)噪聲比較多,這里應(yīng)根據(jù)數(shù)據(jù)挖掘任務(wù)對數(shù)據(jù)表中與本次數(shù)據(jù)任務(wù)不相關(guān)的屬性進行移除,只將學(xué)歷、職稱、論文等級、學(xué)術(shù)著作等級、科研獲獎等級、科研立項等級、科研總分等級留下。
(三)關(guān)聯(lián)挖掘與結(jié)果分析
WeakExplorer界面中提供了數(shù)據(jù)挖掘多種算法,在這里我們選擇“Associate”標簽下的Apriori算法。之后將“l(fā)owerBoundMinSupprot”(最小支持度)參數(shù)值設(shè)為0.1,將“upperBoundMinSupprot”(最大支持度)參數(shù)值設(shè)為1,在“metiricType”的參數(shù)值選項中選擇lift選項,將“minMetric”參數(shù)值設(shè)為1.1,將“numRules”(數(shù)據(jù)集數(shù))參數(shù)值設(shè)為10,其它選項保存默認值,這樣就可以挖掘出支持度在10%到100%之間并且lift值超過1.1且排名前10名的關(guān)聯(lián)規(guī)則。其挖掘參數(shù)信息和關(guān)聯(lián)挖掘的部分結(jié)果。
三、挖掘結(jié)果與應(yīng)用
以上是針對教師基本情況和科研各項總分進行的反復(fù)的數(shù)據(jù)挖掘工作,從挖掘結(jié)果中找到最佳模式進行匯總。以下列出了幾項作為參考的關(guān)聯(lián)數(shù)據(jù)挖掘結(jié)果。
1、科研立項得分與論文、科研總得分關(guān)聯(lián)度高,即科研立項為A級的論文也一定是A。這與實際也是相符的,因為科研立項得A的教師應(yīng)該是主持了省級或是國家級的立項的同時也參與了其他教師的科研立項,在課題研究的過程中一定會有國家級論文或者省級論文進行發(fā)表來支撐立項,所以這類教師的論文得分也會很高。針對這樣的結(jié)果,在今后的科研工作中,科研處要鼓勵和幫助教師搞科研,為教師的科研工作提供精神上的支持和物質(zhì)上的幫助,這樣在很大程度上能夠帶動整個學(xué)校科研工作的進展。
2、副教授類的教師科研立項得分很高,而講師類教師和助教類教師的科研立項得分很低,這樣符合實際情況。因為副教授類的教師有一定的教學(xué)經(jīng)驗,并且很多副教授類的教師還想晉職稱,所以大多數(shù)副教授類教師都會申請一些課題。而對于講師類和助教類的教師,由于教學(xué)經(jīng)驗不足很少能進行省級以上的課題研究,因此這兩類教師的科研立項分數(shù)不高。針對這樣的結(jié)果,在今后的科研工作中,科研處可以采用一幫一、結(jié)對子的形式來幫助年輕教師,這樣可以使青年教師參與到老教師的科研課題研究工作中去,在課題研究工程中提高科研能力和教學(xué)能力。
關(guān)鍵詞:中醫(yī)證侯;研究概況;進展
【中圖分類號】R255.2 【文獻標識碼】A 【文章編號】1672-3783(2012)05-0093-01
1 引言
辨證是中醫(yī)學(xué)的特點與優(yōu)勢之一,也是中醫(yī)藥取得療效的前提。中醫(yī)是以傳承性為主的實踐醫(yī)學(xué),受生產(chǎn)技術(shù)水平的影響,前人在辨證的時候主要靠個人的臨診經(jīng)驗,摻雜了許多主觀因素與模糊概念,加上眾多的醫(yī)學(xué)流派推崇不同的思辨方式,使證侯的外延與內(nèi)涵愈加復(fù)雜而不可確定。隨著計算機、生物技術(shù)的進步以及交叉學(xué)科的發(fā)展,中醫(yī)證侯的研究開始了新局面,能否從病、證、癥、生物學(xué)基礎(chǔ)等不同層次中挖掘出其固有的規(guī)律性的聯(lián)系,以確定不同證侯的概念范疇、使辨證更具重復(fù)性和臨床可操作性,這成為大家所探求的方向。眾多學(xué)者為此開展了不少研究工作,筆者就中醫(yī)證侯近十年的研究概況進行論述并分析如下。
2 中醫(yī)證侯近十年的研究概況
2.1 證侯研究成果檢索結(jié)果與分析:利用“中醫(yī)”、“證或證侯”、“文獻”、“臨床” 及“動物(實驗)”等主題詞檢索CNKI數(shù)據(jù)庫從2000-2008年所收錄的論文,其中文獻研究相關(guān)論文272篇,臨床研究相關(guān)論文5323篇,動物實驗相關(guān)論文238篇。統(tǒng)計結(jié)果如圖1所示。從圖中可以看出以下特點:1)臨床研究是證侯研究的主要方式,這是由中醫(yī)的臨證性所決定的。2)中醫(yī)古籍資源有限、研究成果轉(zhuǎn)換周期較長,是導(dǎo)致文獻研究數(shù)量低的主要原因。
2.2 證侯研究主要切入方向的研究成果檢索結(jié)果與分析:在檢索“證”或“證侯”研究論文的基礎(chǔ)上,以“四診規(guī)范”、“生物學(xué)”、“數(shù)據(jù)挖掘”等關(guān)鍵詞結(jié)合手工進一步檢索,獲得近十年發(fā)表的論文中,與四診規(guī)范研究相關(guān)的論文227篇,與生物學(xué)研究相關(guān)論文436篇,與數(shù)據(jù)挖掘相關(guān)論文220篇。其研究態(tài)勢如圖2所示。從圖2中可以看出,相關(guān)研究論文均有逐年上升的趨勢。就近十年而言,證侯生物學(xué)研究相關(guān)論文最多,數(shù)據(jù)挖掘類論文數(shù)量增長迅速。
2.3 證侯的具體研究概況
2.3.1 四診的定性與定量研究:通過四診收集到的癥狀(主要由患者自己敘述出來)、體征(由患者表現(xiàn)出來,通過望、聞、切可知的,包括舌象、脈象、面色、神志狀況)等信息是證侯的構(gòu)成基礎(chǔ)。舌、脈和面色雖客觀存在,但易受周圍環(huán)境、自然光線及醫(yī)者主觀判斷的影響,因此利用物理儀器、高分辨率的數(shù)碼相機結(jié)合色彩、圖譜分析軟件力求量化已成為趨勢。就舌象客觀化而言,不少學(xué)者對舌色、苔色、舌苔的厚度與濕度、齒痕、紋理特征,甚至對舌體的胖瘦、歪斜,舌下絡(luò)脈的長度、寬度、顏色進行了量化分析[2-5],具有一定的臨床符合率。
此外,通過問診所獲取的信息在中醫(yī)證候分類中起著重要的作用。如何控制和把握這些“軟指標”,近年來不少學(xué)者也做了很多工作。有學(xué)者把社會學(xué)中的定性研究引入中醫(yī)問診領(lǐng)域[12],建議與患者進行深入交談,對患者的語氣、語言表達方式、神態(tài)、言語內(nèi)容等進行綜合分析,以期獲取盡可能多的與病癥相關(guān)的信息,這些信息可能容易被醫(yī)生所忽視,但對證侯的判別起重要作用,能彌補定量研究的缺憾。
2.3.2 證侯生物學(xué)基礎(chǔ)的研究:中醫(yī)證侯的確立是依據(jù)表現(xiàn)型組資料得來的,對于現(xiàn)代生命科學(xué)而言,一個證候表現(xiàn)型的產(chǎn)生必然有從基因組層次到器官組層次的不同范圍的功能異常[13]。從文獻檢索的結(jié)果來看,涉及細胞、基因?qū)用娴难芯空撐妮^多,技術(shù)相對成熟;蛋白、代謝組學(xué)層面的論文較少,研究技術(shù)有待完善。
就細胞層面而言,研究較多的是細胞因子、細胞外基質(zhì)及細胞表面標志物在不同證侯下的特異表達。細胞因子的相關(guān)性研究趨于熱化主要是因為:其介導(dǎo)細胞間相互影響、作用而形成復(fù)雜的人體調(diào)節(jié)網(wǎng)絡(luò),這可能是證的實質(zhì)所在[14];其種類眾多,功能各異,如白細胞介素、腫瘤壞死因子、趨化性細胞因子及其細胞膜受體和可溶性受體等,這些指標常見于諸多論文中;檢測方法較為便利,且敏感性強。
2.3.3 利用數(shù)據(jù)挖掘方法的證侯研究:中醫(yī)辨證的過程是醫(yī)者憑借個人經(jīng)驗從患者的一系列癥狀、體征或生物學(xué)指征、外界環(huán)境等復(fù)雜的非線性現(xiàn)象[15]中提取出相互關(guān)聯(lián)的、有內(nèi)在規(guī)律的、特異的組合信息。數(shù)據(jù)挖掘[16]則是從大量的、不完全的、有噪聲的、模糊的、隨機的數(shù)據(jù)集中識別有效的、新穎的、潛在有用的,以及最終可理解的模式的非平凡過程??梢哉f兩者在獲取信息的方式與過程上有契合之處。
研究者常依據(jù)不同的研究目的及數(shù)據(jù)的特點選擇不同的多元統(tǒng)計方式。如探討飲食習(xí)慣、居住環(huán)境、體質(zhì)因素等不同的致病因素或生物學(xué)檢測指標或某一疾病下各證型的癥狀、體征與該證型之間的關(guān)聯(lián)性多采用回歸法,如進一步分析哪些癥狀、體征和生物學(xué)指標對區(qū)分不同的證侯有較高的貢獻度,多通過逐步判別分析。
3 結(jié)語
就近年主要的研究成果來看,將宏觀與微觀、定性與定量的研究方式相結(jié)合是證侯研究的可行路徑和發(fā)展趨勢。然而如何將有一定組合規(guī)則和重疊涵蓋關(guān)系的證侯要素進行合理的分解,四診宏觀信息如何定量,生物學(xué)微觀指標如何定性,二者怎樣結(jié)合,采用什么樣的方式結(jié)合才能真正提示或反應(yīng)、甚而揭示證侯的內(nèi)涵,這是目前研究的困惑與癥結(jié)所在,借鑒現(xiàn)代計算機信息處理技術(shù)、生物學(xué)技術(shù)和多學(xué)科交叉的優(yōu)勢互補,可能會有所突破。
參考文獻
[1] 郭蕾,王永炎,張志斌.關(guān)于證候概念的詮釋.北京中醫(yī)藥大學(xué)學(xué)報,2002; 26(2): 5-7
[2] 衛(wèi)保國,沈蘭蓀.舌體胖瘦的自動分析.計算機工程,2004; 30(11):25-58
[3] 衛(wèi)保國,沈蘭蓀,蔡軼珩.舌體歪斜的自動分析.計算機工程與應(yīng)用,2003; 25(10): 22-26
[4] 沙洪,趙舒,王妍,任超世. 中醫(yī)脈象多信息采集系統(tǒng)的研制.中華中醫(yī)藥雜志,2007; 22(1): 21-24
關(guān)鍵詞: 居民出行特征; 數(shù)據(jù)挖掘; GPS軌跡數(shù)據(jù); DBSCAN
中圖分類號:TP29 文獻標志碼:A 文章編號:1006-8228(2017)05-37-03
Research on the characteristics of resident travel based on the taxi
GPS trajectory data mining
Lin Jiyan, Zhang Yaqiong, Zhang Hui
(School of Information Technology, Yulin University, Yulin, Shaanxi 719000, China)
Abstract: The analysis to the characteristics of urban residents travel is becoming increasingly important in urban traffic planning, and has become an important basis of urban road traffic construction. The urban taxi can well reflect the characteristics of residents travel because of its operational characteristics and rule. Therefore, in order to effectively solve the problem of city road congestion and provide the basis for city traffic planning, the paper presents the research on the characteristics of resident travel based on the taxi GPS trajectory data mining. The research uses DBSCAN algorithm to realize the clustering analysis of the historical GPS trajectory data, which can not only extract the temporal and spatial characteristics of urban resident travel, but also effectively reduce the taxi no-load rate.
Key words: resident travel characteristic; data mining; GPS trajectory data; DBSCAN
0 引言
在城市的上下班高峰期,道路磯率淺鞘薪煌ㄎ侍庵兇釵突出的難題,這跟城市居民出行行為密不可分,因為出行的居民是交通量的主要來源[1]。一個城市的交通系統(tǒng)狀況跟城市居民的出行行為息息相關(guān),居民的出行行為會對城市交通體系產(chǎn)生影響[2]。對居民出行特征進行研究是城市和交通規(guī)劃、城市公共基礎(chǔ)設(shè)施建設(shè)管理中的一個基礎(chǔ)性任務(wù),不僅可以用來對目前的交通出行情況進行評估,也可以用來對居民的出行需求進行預(yù)測,對實施合理有效的城市交通規(guī)劃起著至關(guān)重要的作用[3]。
出租車因其靈活性和便利性,已日漸成為城市交通系統(tǒng)的重要組成部分,同時,因為它的起點和終點由乘客決定,且24小時不間斷服務(wù),所以,出租車的運營規(guī)律能夠反映出乘客的出行特征[4]。由于裝載在出租車上的GPS和通信設(shè)備以一定的頻率向城市交通客運管理中心傳送出租車的實時經(jīng)緯度、運營狀態(tài)、行駛方向、速度等信息,因此,管理中心會積累大量的出租車GPS軌跡數(shù)據(jù)[5],利用DBSCAN對這些進行數(shù)據(jù)進行聚類分析,可以在一定程度上挖掘乘客出行的時空特征,也能為出租車尋找最佳的載客區(qū)域提供依據(jù),有效的降低出租車的空駛率。
1 GPS軌跡數(shù)據(jù)挖掘設(shè)計
1.1 數(shù)據(jù)預(yù)處理
本文選取榆陽區(qū)(地理坐標為東經(jīng)108?58'-110?24',北緯37?49'-38?58'之間)作為研究區(qū)域,GPS軌跡數(shù)據(jù)使用榆陽區(qū)1100多輛出租車五天的運營數(shù)據(jù),對數(shù)據(jù)進行預(yù)處理后,出租車軌跡數(shù)據(jù)由車牌ID tID、、當(dāng)前位置loc、GPS時間ct、營運狀態(tài)tsta、行駛方向tdir、GPS速度dspe等六個屬性組成,部分屬性值如表1所示。
表1中,營運狀態(tài)的取值為0-3,其中0表示空載,1表示載客,2表示駐車,3表示停運;GPS方向的取值為000-360,以度為單位,即與北極方向的夾角,代表車輛的行駛方向。
1.2 利用DBSCAN算法進行聚類挖掘
居民的作息和社會活動有明顯的時間規(guī)律,比如上下班高峰期的載客點分布情況和非高峰期的居民出行特征有可能完全不同,因此,可以先將GPS歷史軌跡數(shù)據(jù)根據(jù)時間特征分類,再進行密度聚類分析,如此便可充分挖掘在不同時間段上居民出行特征的空間密度分布情況,給出租車提供更加合理的時空載客區(qū)域分布數(shù)據(jù),有效地提高其巡游過程中的載客成功率?;诖耍撐囊肓薉BBSCAN算法,該算法需要3個輸入?yún)?shù):歷史軌跡數(shù)據(jù)對象D,空間半徑ε,以及密度閾值MinPts;輸出參數(shù)為聚類簇C,部分MATLAB代碼如下:
data=importdata('data.xlsx');
data=data.data.Sheet1;
……
num=size(data,1);
k=floor(log(num))+1;
k=round(num/25)+1;
k_dist=zeros(num,1);
for i=1:num
temp=repmat(data(i,:),num,1);
gx0=temp(:,1); gy0=temp(:,2);
gx1=data(:,1);gy1=data(:,2);
dist0=sqrt((gx0-gx1).^2+(gy0-gy1).^2);
dist_s=sort(dist0);
k_dist(i)=dist_s(k);
end
x=1:num;
figure;plot(x,k_dist,'r-');
xlabel('?ù±?±à??');ylabel('k_{-}dist');title('k_{-}dist??');
……
x=[(1:m)' data];
[m,n]=size(x);
types=zeros(1,m);
dealed=zeros(m,1);
dis=calDistance(x(:,2:n));
number=1;
……
img=imread('map.jpg');
[Ny,Nx]=size(img);
……
figure;imagesc(x00,y00,img); colormap(gray); hold on;
for i=1:m
if class(i)==-1
plot(data(i,1),data(i,2),'.r');
else if class(i)==1
if types(i)==1
plot(data(i,1),data(i,2),'+b');
else
plot(data(i,1),data(i,2),'.b');
end
elseif class(i)==2
if types(i)==1
plot(data(i,1),data(i,2),'+g');
else
plot(data(i,1),data(i,2),'.g');
end
……
plot(x1,y1,'r*');
xlabel('度'); ylabel('緯度');
2 實驗結(jié)果
聚類結(jié)果如圖1和圖2所示,出行熱點區(qū)域在圖中用圓圈標出。
以上的聚類結(jié)果顯示,榆陽區(qū)的居民出行呈現(xiàn)一定空間和時間特征。工作日和非工作日出租車熱點區(qū)域不同,且工作日的不同時間居民出行的特征不同;在工作日,出租車的載客熱點數(shù)比非工作日多;而載客熱點分布,工作日比非工作日分散。該聚類結(jié)果也可以給出租車司機提供歷史載客熱點序列,從一定程度上解決巡游方式的出租車空載率高的問題。
3 結(jié)束語
本文利用DBSCAN算法對出租車的歷史GPS軌跡數(shù)據(jù)進行挖掘,從挖掘結(jié)果可以分析出居民出行的時空特征,從而用來對目前的交通出行情況進行評估,同時也可以用來對居民的出行需求進行預(yù)測;再者,可以根據(jù)挖掘結(jié)果給出租車司機提供歷史載客熱點序列,幫助出租車司機降低空駛率。本文僅針對工作日和周末特定時刻給出了聚類分析,沒有詳細地分析一天中不同時刻的居民出行特征,以后的工作中會繼續(xù)研究和改進。
參考文獻(References):
[1] 衛(wèi)龍,高紅梅.基于軌跡數(shù)據(jù)挖掘的居民出行特征研究進展[J].西部交通科技,2016.10:87-92
[2] 馮琦森.基于出租車軌跡的居民出行熱點路徑和區(qū)域挖掘[D].重慶大學(xué),2016.
[3] 陳世莉,陶海燕,李旭亮,卓莉.基于潛在語義信息的城市功能區(qū)識別――廣州市浮動車GPS時空數(shù)據(jù)挖掘[J].地理學(xué)報,2016.3:471-483
[4] 張俊濤,武芳,張浩.利用出租車軌跡數(shù)據(jù)挖掘城市居民出行特征[J].地理與地理信息科學(xué),2015.6:104-108
[5] 張薇,林龍.基于數(shù)據(jù)挖掘的增城居民出行特征分析[J].科技和產(chǎn)業(yè),2015.7:61-64
[6] 趙苗苗.基于出租車軌跡數(shù)據(jù)挖掘的推薦模型研究[D].首都經(jīng)濟貿(mào)易大學(xué)碩士學(xué)位論文,2015.
[7] 童曉君.基于出租車GPS數(shù)據(jù)的居民出行行為分析[D].中南大學(xué)碩士學(xué)位論文,2012.
長久以來信息的不完備是影響管理者進行理性判斷和決策的直接原因之一,而現(xiàn)有的數(shù)據(jù)庫系統(tǒng)雖然可以高效地實現(xiàn)數(shù)據(jù)的錄入、查詢和部分統(tǒng)計等功能,但是無法發(fā)現(xiàn)數(shù)據(jù)中存在的關(guān)系和規(guī)則,無法根據(jù)現(xiàn)有的數(shù)據(jù)預(yù)測未來的發(fā)展趨勢。因此,杭州市西湖區(qū)院為了在檢察業(yè)務(wù)信息、隊伍建設(shè)情況和綜合行政事務(wù)方面輔助領(lǐng)導(dǎo)決策,建設(shè)應(yīng)用行政決策輔助系統(tǒng),將各科室以往分散的數(shù)據(jù)資源進行整合,并充分發(fā)揮電子政務(wù)平臺的優(yōu)勢,通過系統(tǒng)提供的多種分析功能進行多角度、多層次的分析,將各類數(shù)據(jù)轉(zhuǎn)化為院領(lǐng)導(dǎo)決策所需要的信息。它的實施使得行政決策者可以在廣泛了解決策所需信息的前提下進行決策,避免了靠經(jīng)驗決策和決策信息不完備導(dǎo)致的決策的盲目性現(xiàn)象,從而提高了行政決策的科學(xué)性和合理性,支持與強化行政決策過程。
一、系統(tǒng)架構(gòu)及技術(shù)分析
系統(tǒng)架構(gòu)主要由數(shù)據(jù)倉庫系統(tǒng)、模型庫系統(tǒng)、知識庫系統(tǒng)及可視化接口4部分構(gòu)成。采用的關(guān)鍵技術(shù)是數(shù)據(jù)倉庫技術(shù)(DW)、數(shù)據(jù)挖掘技術(shù)(DM)、在線分析處理技術(shù)(OLAP)。
(一)數(shù)據(jù)倉庫的作用
電子政務(wù)的決策過程是一個從非結(jié)構(gòu)化數(shù)據(jù)中抽取結(jié)構(gòu)化信息,再提供非結(jié)構(gòu)化決策分析結(jié)果的過程。因此,為了營造良好的電子政務(wù)決策數(shù)據(jù)環(huán)境,獲得高質(zhì)量的數(shù)據(jù)分析結(jié)果,建立適合政府決策的數(shù)據(jù)倉庫系統(tǒng)是電子政務(wù)決策支持系統(tǒng)的關(guān)鍵環(huán)節(jié),以確保政務(wù)系統(tǒng)中的數(shù)據(jù)能夠更好地發(fā)揮分析、決策的作用。這種數(shù)據(jù)倉庫系統(tǒng)的功能要能向兩個不同方向拓展,一是廣度計算,二是深度計算。廣度計算是使數(shù)據(jù)倉庫系統(tǒng)的應(yīng)用范圍盡量擴大,能基本涵蓋市級政府決策、服務(wù)的領(lǐng)域;深度計算使數(shù)據(jù)倉庫系統(tǒng)克服了以往數(shù)據(jù)庫簡單數(shù)據(jù)操作處理(即事務(wù)處理)的缺點,對數(shù)據(jù)處理提出了更高的要求,使其能更多地參與政府對數(shù)據(jù)分析和決策的制定等工作。
(二)模型庫系統(tǒng)的功能
模型庫系統(tǒng)包括模型庫及其管理系統(tǒng),模型庫是一個包含有財務(wù)、統(tǒng)計、運籌和其他定量模型的軟件包,存放解決行政管理問題的經(jīng)驗?zāi)P停菫闆Q策提供分析能力的部件,給予決策者通過推理、比較、選擇來分析、預(yù)測和解答整個問題的能力。因此,研究一些決策支持模型,建立一個政府決策的模型庫系統(tǒng)是完成系統(tǒng)的關(guān)鍵環(huán)節(jié)之一。這種模型庫系統(tǒng)應(yīng)具有以下兩個特點,一是能實現(xiàn)多目標決策;二是能實現(xiàn)多領(lǐng)域、多部門、多用途的決策,即按經(jīng)濟內(nèi)容來看應(yīng)具有預(yù)測類模型、綜合平衡模型、結(jié)構(gòu)優(yōu)化模型、經(jīng)濟控制類模型等,按決策活動來看應(yīng)有規(guī)劃模型、推理模型、分析模型、預(yù)測模型、評估模型等。
(三)知識庫系統(tǒng)的功能
知識庫系統(tǒng)包括知識庫及知識庫管理系統(tǒng),其功能是對知識進行系統(tǒng)化組織與管理,存儲、增加、刪除、修改和查詢知識,以及對知識進行一致性和完整性校驗。知識庫與數(shù)據(jù)庫既有區(qū)別又有聯(lián)系,從知識的邏輯表示觀點來看,關(guān)系數(shù)據(jù)庫是一種簡單的知識庫,數(shù)據(jù)庫中的每一個關(guān)系是一個原子公式,即一個謂詞,關(guān)系中的元組即是知識中的事實,因此利用關(guān)系數(shù)據(jù)庫來建造知識庫,就可以充分利用關(guān)系數(shù)據(jù)庫管理系統(tǒng)的功能,便于知識庫管理系統(tǒng)的設(shè)計與實現(xiàn)。
(四)可視化接口
可視化接口包括預(yù)測、分析、查詢和維護等4個子系統(tǒng)。通過數(shù)據(jù)分析和預(yù)測工具對數(shù)據(jù)倉庫中的數(shù)據(jù)進行多維分析、匯總,結(jié)果可以用二維表、餅圖、折線圖和直方圖表示。
二、數(shù)據(jù)挖掘的技術(shù)工具和基本過程
數(shù)據(jù)挖掘就是從大量的、不完全的、有噪聲的、模糊的、隨機的實際應(yīng)用數(shù)據(jù)中提取隱含在其中的、人們事先不知道的、但又是潛在有用的信息和知識的過程。數(shù)據(jù)挖掘常用的技術(shù)有神經(jīng)網(wǎng)絡(luò)、決策樹、遺傳算法、近鄰算法和規(guī)則推導(dǎo)等。數(shù)據(jù)挖掘常用的工具有:
第一,基于神經(jīng)網(wǎng)絡(luò)的工具。由于對非線性數(shù)據(jù)具有快速建模能力,神經(jīng)網(wǎng)絡(luò)很適合非線性數(shù)據(jù)和含噪聲數(shù)據(jù),所以在政府?dāng)?shù)據(jù)庫的分析和建模方面可以應(yīng)用。
第二,基于關(guān)聯(lián)規(guī)則和決策樹的工具。大部分數(shù)據(jù)挖掘工具采用規(guī)則發(fā)現(xiàn)或決策樹分類技術(shù)來發(fā)現(xiàn)數(shù)據(jù)模式和規(guī)則,其核心是某種歸納算法。
第三,基于模糊邏輯的工具。其發(fā)現(xiàn)方法是應(yīng)用模糊邏輯進行數(shù)據(jù)查詢、排序等。
第四,綜合多方法工具。不少數(shù)據(jù)挖掘工具采用了多種開采方法,這類工具一般規(guī)模較大,適用于大型數(shù)據(jù)庫或者并行數(shù)據(jù)庫。數(shù)據(jù)挖掘的基本過程包括數(shù)據(jù)準備、模型搜索、結(jié)果分析和生成報告。
數(shù)據(jù)準備:收集和凈化來自數(shù)據(jù)源的信息并加以存儲,將其放入數(shù)據(jù)倉庫中。
模型搜索:利用數(shù)據(jù)挖掘工具在數(shù)據(jù)中查找模型,搜索過程可以由系統(tǒng)自動執(zhí)行,也可以由用戶參與執(zhí)行。對于一個主題的搜索,可用神經(jīng)網(wǎng)絡(luò)、專家系統(tǒng)、統(tǒng)計方法等。
結(jié)果分析:一般地說,數(shù)據(jù)挖掘的搜索過程需要反復(fù)多次,因為當(dāng)分析人員評價輸出結(jié)果后,他們可能會發(fā)現(xiàn)一些偏差或一些新的問題,要求對某一方面做更精細的查詢。
摘要:本文闡述了電子表格在投資分析中的應(yīng)用,并以某只股票價格數(shù)據(jù)為例(華夏銀行600015),作為數(shù)據(jù)挖掘的對象,得出股票買賣的定價模型。并通過實證,說明電子表格在數(shù)據(jù)挖掘和財務(wù)管理方面是可以帶來經(jīng)濟效益的。
關(guān)鍵詞 :電子表格;股票價格;買賣定價模型;案例分析
在現(xiàn)實的生產(chǎn)與生活中,有許多事物我們還沒有掌握其規(guī)律,讓我們做起來很容易失敗,甚至造成很大的損失。但我們又想利用它,就必須研究其規(guī)律。例如,氣象學(xué)中的天氣預(yù)報,我們?nèi)祟愐呀?jīng)研究的比較準確了。但在地震、洪澇災(zāi)害等面前,人類就還遠沒有研究明白。也就是說,數(shù)據(jù)挖掘活動仍有廣闊的研究空間和大有用武之地,人類還需要做出大量的數(shù)據(jù)挖掘才能發(fā)現(xiàn)新的或更多的事物的規(guī)律性。
一、數(shù)據(jù)挖掘的作用
1.數(shù)據(jù)挖掘有助于領(lǐng)導(dǎo)者提高決策質(zhì)量
決策是在兩個以上方案或諸多方案中選擇一個比較正確的方案的過程。使用數(shù)據(jù)挖掘技術(shù)來揭示事物發(fā)展變化的規(guī)律,然后制定出一種符合規(guī)律的行為模式,這樣取得成功的概率才比較大。在企業(yè),領(lǐng)導(dǎo)層經(jīng)常要進行各種決策。如果沒有一些有利數(shù)據(jù)的支持,全憑借你“拍腦門”決策,就容易事與愿違,欲速則不達。利用數(shù)據(jù)挖掘技術(shù)可以幫助企業(yè)改善決策,它能及時和更好地幫助領(lǐng)導(dǎo)者做好決策。
2.數(shù)據(jù)挖掘在市場營銷的應(yīng)用
數(shù)據(jù)挖掘技術(shù)在企業(yè)市場營銷中得到了比較普遍的應(yīng)用,它是以市場營銷學(xué)的市場細分原理為基礎(chǔ),其基本假定是“消費者過去的行為是其今后消費傾向的最好說明”。通過收集、加工和處理涉及消費者消費行為的大量信息,確定特定消費群體或個體的興趣、消費習(xí)慣、消費傾向和消費需求,進而推斷出相應(yīng)消費群體的消費行為,以此為基礎(chǔ),對所識別出來的消費群體進行特定內(nèi)容的定向營銷,這與傳統(tǒng)的營銷手段相比,大大節(jié)省了營銷成本,提高了營銷效果,從而為企業(yè)贏得更多的利潤。
3.數(shù)據(jù)挖掘在投資領(lǐng)域的應(yīng)用
投資活動的目的是為了盈利,但是有些投資者(機構(gòu)、個人)卻事與愿違,不但未能盈利,反倒是虧損了。股市上歷來有:“七賠兩平一虧”的說法。這說明,那些在投資活動的贏家肯定是有一套成功的方法,而成功的方法依然是離不開數(shù)據(jù)挖掘的結(jié)果。可以斷言,在公平的游戲規(guī)則下,長期來看,任何成功者都是成功的數(shù)據(jù)挖掘者,都是在掌握了大量經(jīng)驗或有關(guān)數(shù)據(jù),進行符合規(guī)律性的操作的結(jié)果;而違背規(guī)律的操作就必然造成投資失敗。當(dāng)前,在投資領(lǐng)域,有股票、期貨、黃金、外匯、白銀、比特幣等。這些領(lǐng)域就是很值得數(shù)據(jù)挖掘。做好了,就是可以實現(xiàn)盈利的。所以,如果你建立了一個有效的數(shù)據(jù)模型進行有關(guān)投資的買賣,就等于你有了一個金礦的挖掘機,從市場中可以挖掘出許多超額利潤來。
二、股票數(shù)據(jù)挖掘的案例分析
1.數(shù)據(jù)挖掘的目標、思路、依據(jù)和任務(wù)
股票數(shù)據(jù)挖掘,目的是為了在炒股中盈利。在這里,我主要說明一下我利用電子表格進行股票數(shù)據(jù)挖掘的做法,并進行實證檢驗。
只有通過低買高賣才能賺取差價而獲利。股票價格是高低波動著的。在股票價格運行在低點區(qū)域時買入,運行到高點區(qū)域時賣出就掙錢了。所以,股票價格低到什么程度買,高到什么區(qū)域賣,最重要的是需要計算股票的買賣價格系數(shù)。
任何事物都是有著自身變化規(guī)律的,股票價格的運動也必定是按照某種規(guī)律變化著的。股票價格的變動規(guī)律可以通過對大量歷史價格資料進行統(tǒng)計觀察而被發(fā)現(xiàn)。利用計算機電子表格進行股票數(shù)據(jù)挖掘的主要任務(wù)是:對股票價格開展對比計算、平均值計算和標準差的計算,從而得出制定股票買賣價格的重要參數(shù),解決了人工計算的速度太慢的問題。
2.研究的過程
(1)搜集數(shù)據(jù)資料,應(yīng)用電子表格對股票價格數(shù)據(jù)的處理搜集數(shù)據(jù)。從網(wǎng)上搜索到華夏銀行股票2013 年之前的價格資料做樣本,導(dǎo)入到電子表格,以便于快速計算。這里取2004年5月21日至2012年12月28日的共424個交易周的價格資料,限于篇幅,為說明該股票實際價格構(gòu)成情況,這里只列示了首尾少數(shù)幾周的數(shù)據(jù)(見表1)。
(2)買賣價格系數(shù)的計算與買賣定價公式的建立這里僅以股票的周線資料做研究對象,讀者也可以類推到日線、月線和季度線等的研究。步驟如下:
①抽取某股票的n 周(n>30)歷史價格資料,并利用
這樣定價的道理是為了低買高賣,賺得股票價差利得。
式中,為概率度,根據(jù)概率論原理,t=1時,盈利的可靠性為68.27%左右;t=1.5時股票贏利的可靠性為0.8664;
t=2 時,盈利的可靠性為0.9545 左右;t=3 時,盈利的可靠性為0.9973左右。
②股票買賣價格的制定,即股票買賣定價模型為:
買價=上周收盤價×股票買價系數(shù)(R)
賣價=上日收盤價×股票賣價系數(shù)(S)
股票華夏銀行每周的買賣定價模型和操作批量如下:
本周買價=上周收盤價×0.8974
這個盈利水平還是不錯的,和一般企業(yè)的年收益率大體相近。如果再結(jié)合趨勢分析來做,盈利程度將更高。從投資管理的麻煩程度來看,比企業(yè)管理要輕松得多。所以,按這種方法來炒股,是可以帶來穩(wěn)定收益的。
四、結(jié)論
數(shù)據(jù)挖掘技術(shù)具有廣泛的應(yīng)用空間。只要明確研究目的和任務(wù),設(shè)計出合理的研究方案,就能找到事物內(nèi)在的規(guī)律。本論文只是研究了一只股票的買賣定價方法,可見還是很有優(yōu)勢的。在證券投資領(lǐng)域如此,在其他各個領(lǐng)域也都是如此,只不過研究的內(nèi)容不同罷了。上述研究方法也可以推廣到炒股指期貨、炒黃金、炒外匯、炒白銀、炒各種貴金屬、炒原油和農(nóng)產(chǎn)品等價格波動型投資對象中的買賣價格定價模式的研究上。因為在大量數(shù)據(jù)面前,事物的規(guī)律性才能暴露出來,而基于計算機高速計算能力的現(xiàn)代數(shù)據(jù)挖掘技術(shù)的廣泛應(yīng)用,必將給研究成果的利用者帶來豐厚的回報。
參考文獻:
[1]楊云生.數(shù)據(jù)挖掘技術(shù)在客戶關(guān)系管理中的應(yīng)用[J].價值工程,2004年03期.
[2]王崢,王彥慶.客戶知識管理的數(shù)據(jù)挖掘方法研究[J].哈爾濱工業(yè)大學(xué)學(xué)報(社會科學(xué)版),2009年05期.
關(guān)鍵詞:數(shù)據(jù)挖掘;客戶價值分析;K-Means聚類分析
DOI:10.16640/ki.37-1222/t.2017.04.248
1 緒論
體驗經(jīng)濟時代消費趨勢主要有以下六個方面:體驗化、情感化、個性化、主動化、休閑化和求美化。[1]第三次工業(yè)革命以來,現(xiàn)代信息技術(shù)得到迅猛發(fā)展,各行各業(yè)意識到數(shù)據(jù)的重要性,建立了無數(shù)的數(shù)據(jù)庫,面對數(shù)以億計的數(shù)據(jù),傳統(tǒng)的統(tǒng)計方法的弊端日益顯現(xiàn)。人們面對海量的數(shù)據(jù),卻不能挖掘出有用的信息,隨著“數(shù)據(jù)爆炸”困惑的增加,人們迫切需要新的數(shù)據(jù)處理技術(shù),因而數(shù)據(jù)挖掘技術(shù)應(yīng)運而生。法國著名雕塑家羅丹說,生活中從不缺少美,而是缺少發(fā)現(xiàn)美的眼睛。如今,企業(yè)從不缺少數(shù)據(jù),而是缺少挖掘數(shù)據(jù)價值的能力。通過對現(xiàn)有數(shù)據(jù)的挖掘,發(fā)現(xiàn)隱藏在數(shù)據(jù)里的模式,有用信息,指導(dǎo)航空公司作出決策,增加顧客的滿意度,是航空公司必須解決的問題。自從1989年舉行的第十一屆國際聯(lián)合公認學(xué)術(shù)會上首次提出數(shù)據(jù)庫中發(fā)現(xiàn)知識(KDD),到目前為止,美國人工智能協(xié)會曾經(jīng)舉辦了9次KDD全球研討會。規(guī)模從原來的專題討論會到策略和技術(shù)的集成以及多學(xué)科跨領(lǐng)域融合。數(shù)據(jù)挖掘技術(shù)迅速在航空電子領(lǐng)域,航空安全領(lǐng)域,航空維修等等航空領(lǐng)域得到較好的應(yīng)用與發(fā)展。我國在上世紀90年代的時候就已經(jīng)開始的對數(shù)據(jù)挖掘的研究,經(jīng)過多年的研究,我國已經(jīng)形成數(shù)據(jù)挖掘基礎(chǔ)理論的框架,并且越來越多的學(xué)者投入數(shù)據(jù)挖掘的研究之中。不過相對于國外來說,我國的數(shù)據(jù)挖掘應(yīng)用并沒有得到較高的發(fā)展,依然面臨著嚴重的挑戰(zhàn),仍舊有很多問題等待著研究人員去探索和發(fā)現(xiàn)。
2 數(shù)據(jù)挖掘技術(shù)
數(shù)據(jù)挖掘有三大步驟:第一數(shù)據(jù)籌備,第二數(shù)據(jù)挖掘,第三結(jié)果表達和解釋[5]。
數(shù)據(jù)籌備包含數(shù)據(jù)集成,數(shù)據(jù)選擇,目標數(shù)據(jù)預(yù)處理。
數(shù)據(jù)挖掘主要是對預(yù)處理后的數(shù)據(jù)進行挖掘。
結(jié)果表達和解釋即我們所說的結(jié)果可視化。
3 航空公司客戶價值分析
3.1 傳統(tǒng)客戶價值分析方法
傳統(tǒng)的客戶價值分析使用RFM方法(Recency--最近購買日期, Frequency--各時期購買頻率, Monetary一段時間內(nèi)消費總和)在多數(shù)領(lǐng)域中的多數(shù)情況下能有效地預(yù)測老顧客今后可能的消費行為和費用,之后對銷售毛利率、關(guān)系營銷費用進行預(yù)測,就能按不同時間段分析出今后短期內(nèi)的客戶價值。[6]說明, 在這種分析方法中,客戶價值是指CRM毛利。CRM毛利 = 購買金額 - 產(chǎn)品成本 - 關(guān)系營銷費用。[7]
RFM模型以Recency為X軸,F(xiàn)requency為Y軸,Monetary為Z軸做一個三維立體模型,可以把客戶價值分為八種:重要發(fā)展客戶、重要價值客戶、一般發(fā)展客戶、一般價值客戶、一般保持客戶、一般挽留客戶、重要保護客戶、重要挽留客戶。
由于航空公司客戶的獨特性,RFM方法分析航空公司客戶價值存在多種弊端和不足,造成分析結(jié)果的不準確和實用性降低。
(1)在RFM模型中,消費金額是一段時間內(nèi)客戶消費總和,由于航空票價受到運輸距離,艙位等級,閑忙時,天氣等眾多因素的影響,同樣消費金額的客戶對于航空公司的價值是不同的。所以用這個指標分析航空公司客戶價值存在不妥。
(2)RFM是使用屬性分箱法分析客戶價值的,這種方法細分客戶群較多,需要逐個識別客戶特征和行為,大大提高的針對性營銷的成本。
(3)RFM方法在處理大量數(shù)據(jù)時由于模型的限制需要的成本較高。
3.2 航空公司客戶數(shù)據(jù)分析方法與步驟
航空客戶信息,包含會員檔案信息和其他乘坐航班記錄信息等
(1)因為消費金額總和這一指標在航空公司客戶價值分析過程中不太實用,所以我們可以選擇航空客戶在一段時間內(nèi)積累的乘坐距離M和乘坐艙位折扣系數(shù)平均值C來替代消費金額總和。同時,因為航空公司會員的加入時間一定程度上可以影響客戶價值,所以我們在航空公司客戶價值分析模型中添加客戶關(guān)系長度L,當(dāng)做區(qū)分客戶價值的另一個指標,所以我們構(gòu)建出LRFMC模型。
(2)使用聚類分析的方法把客戶進行分類,并且分析客戶群的特征,分析客戶價值。
第1步數(shù)據(jù)抽取。
(1)以2014年3月31為結(jié)束日期,選取寬度為兩年的時間段作為分析觀測窗口,抽取觀測窗口內(nèi)有乘機記錄的所有顧客的詳細資料形成歷史數(shù)據(jù)。對于后來新增客戶信息利用數(shù)據(jù)中最大的某個時間作為結(jié)束時間,采用同樣的方法進行抽取,形成增量數(shù)據(jù)。
(2)根據(jù)末次飛行日期從航空公司系統(tǒng)內(nèi)抽取2012年4月1日至2014年3月31日內(nèi)所有所有乘客的詳細數(shù)據(jù),共62988條記錄。
第2步數(shù)據(jù)探索分析。
在原始數(shù)據(jù)中存在票價為空的情況,票價為空值的數(shù)據(jù)有可能是航空客戶未有乘機記錄造成的。票價最小值為0,折扣率最小值為0,總飛行里程不為0的數(shù)據(jù)有可能是顧客使用0折機票或者是使用積分兌換的機票造成的。
第3步數(shù)據(jù)預(yù)處理。
(1)數(shù)據(jù)清洗:從航空公司業(yè)務(wù)和數(shù)據(jù)挖掘建模需要考慮篩選出需要的數(shù)據(jù)。
A)不需要票價為空的數(shù)據(jù)。
B)不需要票r為0,平均折扣率不為0,總飛行里程不為0的數(shù)據(jù)。
(2)屬性規(guī)約。在原始數(shù)據(jù)中數(shù)據(jù)屬性太多,我們只需要與LRFMC模型相關(guān)的6個數(shù)據(jù)屬性,所以我們需要刪除不相關(guān),弱相關(guān)和冗余的數(shù)據(jù)屬性。
(3)數(shù)據(jù)變換。A)數(shù)據(jù)屬性構(gòu)造 B)數(shù)據(jù)標準化
第4步建構(gòu)模型。
構(gòu)建航空公司客戶價值分析LRFMC模型
A)客戶K-Means聚類分析 B)客戶價值分析 C)應(yīng)用模型
A客戶K-Means聚類分析。
采用K-Means辦法對所有客戶數(shù)據(jù)進行聚類分析,將客戶數(shù)據(jù)聚為5類。(具體情況具體分析,必須依據(jù)實際狀況決定分幾類)
B客戶價值分析。
對聚類結(jié)果進行屬性分析:顧客群1在L、M屬性上最??;顧客群2在R屬性上最大,在F、M上最?。豢蛻羧?在屬性F、M上最大,在R上最小;客戶群4在屬性L上最大;客戶群5在屬性C上最大。
根據(jù)航空公司業(yè)務(wù)定義為五個等級的客戶類別:重要保持客戶,重要發(fā)展客戶,重要挽留客戶,普通價值客戶,低價值客戶。
根據(jù)每種客戶群類型的特征對客戶群M行客戶價值排名,以便獲得高價值客戶的信息。
C模型應(yīng)用:根據(jù)每種客戶群的特征,可以采取更多個性化服務(wù)和營銷策略。
由于各種行業(yè)面臨的具體問題不同,數(shù)據(jù)挖掘技術(shù)的發(fā)展受到不同的挑戰(zhàn),不過總大趨勢來說,數(shù)據(jù)挖掘技術(shù)必將會得到更好發(fā)展和更加普遍的運用。隨著數(shù)據(jù)量爆炸式的激增,分析決策難度的增加,傳統(tǒng)分析方法弊端的顯現(xiàn),人們對分析決策智能化和自動化的迫切需求,數(shù)據(jù)挖掘技術(shù)與工具將得到更廣泛的使用和發(fā)展。在數(shù)據(jù)爆炸時代,航空公司面臨的新挑戰(zhàn)為數(shù)據(jù)挖掘技術(shù)提供了發(fā)展背景,個性化服務(wù)的發(fā)展為數(shù)據(jù)挖掘技術(shù)提供了很好的基礎(chǔ)和發(fā)展平臺。
數(shù)據(jù)挖掘未來會吸引越來越多的研究人員,會涌現(xiàn)出越來越多的研究成果。從目前來看,數(shù)據(jù)挖掘在中國的研究與應(yīng)用還有很多務(wù)實的問題沒有解決。本文僅僅是數(shù)據(jù)挖掘技術(shù)在航空公司客戶價值分析中的初步嘗試,展望未來數(shù)據(jù)挖掘的發(fā)展,有以下幾點需要注意的地方:要充分考慮是否有必要進行數(shù)據(jù)挖掘。傳統(tǒng)的數(shù)據(jù)分析辦法的確有很多弊病,但是相對于傳統(tǒng)的方法數(shù)據(jù)挖掘需要成本較高。在傳統(tǒng)數(shù)據(jù)分析技術(shù)可以滿足要求的情況下,沒有必要必須進行數(shù)據(jù)挖掘,這樣能更加節(jié)省成本。數(shù)據(jù)挖掘需要較大的成本,須要大量的人力,物力和財力用于數(shù)據(jù)籌備,數(shù)據(jù)搜集,問題建模,生成模型和數(shù)據(jù)分析等等。
參考文獻:
[1]吳釗.體驗經(jīng)濟時代六大消費趨勢[J].商業(yè)研究,2003(24).[2]Jiaweihan,Miche line kan ber.Data ming:Concepts and techniques.Diane Cerra Publisher.20063
[3]劉浩,韓晶.MATLAB R2014a一本通[J].電子工業(yè)出版社.
[4]李定遠.CIO時代網(wǎng).2012,09(29).
[5]耿向華.數(shù)據(jù)挖掘在旅游商務(wù)系統(tǒng)中的應(yīng)用研究[J].魅力中國,2013,5(27).
[6]郭良.基于數(shù)據(jù)挖掘技術(shù)的客戶信息分析[J].華東師范大學(xué)碩士論文,2015.
關(guān)鍵詞:大數(shù)據(jù);Hadoop;分布式;k-means
中圖分類號:TP393.02
“大數(shù)據(jù)”時代已經(jīng)降臨,在商業(yè)、經(jīng)濟及其他領(lǐng)域中,決策將日益基于數(shù)據(jù)和分析而作出,而并非基于經(jīng)驗和直覺[1]。隨著互聯(lián)網(wǎng)和信息行業(yè)的發(fā)展,在日常運營中生成、累積的用戶網(wǎng)絡(luò)行為數(shù)據(jù)的規(guī)模是非常龐大的,以至于不能用G或T來衡量。我們希望從這些結(jié)構(gòu)化或半結(jié)構(gòu)化的數(shù)據(jù)中學(xué)習(xí)到有趣的知識,但這些數(shù)據(jù)在下載到關(guān)系型數(shù)據(jù)庫用于分析時會花費過多時間和金錢。因此,并行化數(shù)據(jù)挖掘成為了當(dāng)下的一個熱門研究課題,其主要編程模式包括:數(shù)據(jù)并行模式,消息傳遞模式,共享內(nèi)存模式以及后兩種模式同時使用的混合模式[2][3]。
1 國內(nèi)研究現(xiàn)狀
當(dāng)前中國的云計算的發(fā)展正進入成長期,國內(nèi)很多研究者正進入分布式的數(shù)據(jù)挖掘領(lǐng)域,利用國外的成熟平臺,例如Hadoop來實現(xiàn)大數(shù)據(jù)的聚類等算法。但是數(shù)據(jù)的多樣性,文本多格式,造成對數(shù)據(jù)的操作有很大的難度,而如今大多數(shù)論文都利用了標準化的mapreduce方法來進行代碼的編寫,具有一定的通用性,但是Hadoop下還有許多的工具,能夠簡化m/r過程,同樣對一定結(jié)構(gòu)的數(shù)據(jù)具有很好的并行效果,但是這方面的研究比較少,因此本文引入了HIVE的運用,簡化了數(shù)據(jù)的操作過程,利用類似標準的SQL語句對數(shù)據(jù)集進行運算,在一定程度上提高了并行化計算的效率。
2 Hadoop并行化基礎(chǔ)
數(shù)據(jù)挖掘(Data Mining)是對海量數(shù)據(jù)進行分析和總結(jié),得到有用信息的知識發(fā)現(xiàn)的過程[4]。其中的聚類是一個重要的研究課題,在面對如此的海量數(shù)據(jù),現(xiàn)有的單機模式的挖掘算法在時間與空間上遇到了很大的限制,而并行化處理是一種比較好的解決模式。Hadoop是當(dāng)下比較熱門的一個分布式計算的平臺,其中的一個數(shù)據(jù)倉庫工具HIVE簡單快捷地實現(xiàn)MapReduce方法,適用于結(jié)構(gòu)化數(shù)據(jù)的存儲模式。
Hadoop是一個分布式系統(tǒng)的基礎(chǔ)架構(gòu),其平臺由兩部分組成,Hadoop分布式文件存儲系統(tǒng)(HDFS)和MapReduce計算模型[5]。
HDFS的架構(gòu)是基于一組特定的節(jié)點構(gòu)建的(參見圖1),這是由它自身的特點決定的。這些節(jié)點包括NameNode(僅一個),它在HDFS內(nèi)部提供元數(shù)據(jù)服務(wù);DataNode,它為HDFS提供存儲塊。由于僅存在一個NameNode,因此這是HDFS的一個缺點(單點失?。?。存儲在HDFS中的文件被分成塊,然后將這些塊復(fù)制到多個計算機中(DataNode)。這與傳統(tǒng)的RAID架構(gòu)大不相同。塊的大?。ㄍǔ?4MB)和復(fù)制的塊數(shù)量在創(chuàng)建文件時由客戶機決定。NameNode可以控制所有文件操作。HDFS內(nèi)部的所有通信都基于標準的TCP/IP協(xié)議。
MapReduce是一種高效的分布式編程模型,用于海量數(shù)據(jù)(大于1TB)的并行運算[6],它的主要思想就是映射(Map)和化簡(Reduce)。一個任務(wù)(Job)需要實現(xiàn)基本的MapReduce過程主要包括三個部分:(1)輸入數(shù)據(jù);(2)實現(xiàn)Map函數(shù)與Reduce函數(shù);(3)實現(xiàn)此任務(wù)的配置項(JobConf)[7],圖1描述了實現(xiàn)MapReduce的基本原理:
圖1 MapReduce原理圖
3 基于HIVE的并行k-means聚類算法設(shè)計
3.1 Hive簡介
Hive是基于Hadoop的一個數(shù)據(jù)倉庫工具,是建立在Hadoop上的數(shù)據(jù)倉庫基礎(chǔ)構(gòu)架,可以將結(jié)構(gòu)化的數(shù)據(jù)文件映射為一張數(shù)據(jù)庫表,并提供完整的sql查詢功能,可以將sql語句轉(zhuǎn)換為MapReduce任務(wù)進行運行。其優(yōu)點是可以通過類SQL語句快速實現(xiàn)簡單的MapReduce統(tǒng)計,不必開發(fā)專門的MapReduce應(yīng)用,十分適合數(shù)據(jù)倉庫的統(tǒng)計分析。
3.2 Hive體系結(jié)構(gòu)
圖2 HIVE體系結(jié)構(gòu)圖
圖2顯示了HIVE的主要組件以及它和Hadoop的相互作用[8],其主要組件說明如下:
外部接口,Hive同時提供了用戶界面的命令行(CLI)和Web UI,以及應(yīng)用程序編程接口(API),如JDBC和ODBC。
Hive Thrift服務(wù)器公開了一個簡單的客戶端API來執(zhí)行HiveQL語句。Thrift[9]是一個用于跨語言服務(wù)的框架,框架內(nèi)用一種語言(如Java)編寫,服務(wù)器也可以支持其他的語言的客戶端。Thrift Hive客戶端用不同語言生成用于構(gòu)建常用的驅(qū)動程序,如JDBC(java),ODBC(c++),以及用php,perl,python等編寫的腳本驅(qū)動程序。
元數(shù)據(jù)存儲(metastore)是系統(tǒng)目錄。所有其他的Hive組件都和metastore有交互。
3.3 K-means算法介紹
k-means算法是最為經(jīng)典的基于劃分的聚類方法,它的基本思想是:以空間中k個點作為中心進行聚類,對最靠近它們的對象進行分類。通過迭代的方法,逐次更新各聚類中心的值,直到有良好的收斂[10]。假設(shè)要把樣本集分為m個類別,算法描述如下:
(1)適當(dāng)選擇m個類的初始中心;
(2)在第k次迭代中,對任意一個樣本,求其到m個中心的距離,將該樣本歸到距離最短的中心所在的類;
(3)利用歐式距離等方法更新每一個新類的中心值;
(4)對于所有的m個聚類中心,如果利用(2)(3)的迭代法更新后,值保持不變或者變化在可允許范圍內(nèi),則迭代結(jié)束,否則重復(fù)(2)(3)步驟。
參考文獻:
[1]杜鵑,沈銘思.大數(shù)據(jù)時代,讓子彈飛[J].中國制衣,2013-02-05:12.
[2]胡善杰.數(shù)據(jù)挖掘算法并行化研究[J].電子世界,2012(12):67-68.
[3]都志輝.高性能計算之并行編程技術(shù)——MPI并行程序設(shè)計[M].北京:清華大學(xué)出版社,2006.
[4]王超鵬.基于云計算分布式數(shù)據(jù)挖掘算法研究[J].技術(shù)研發(fā),2012:92-104.
[5]Dean J,Ghemawat S.MapReduce:simplified data processing on large clusters[C].Proceedings of Operating Systems Design and Implementation. San Francisco,CA,2004:137-150.
[6]付東華.基于HDFS的海量分布式文件系統(tǒng)研究與優(yōu)化[J].北京:北京郵電大學(xué)軟件工程,2012-05.
[7]江小平,李成華,向文,張新訪,顏海濤.k-means聚類算法的MapReduce并行化實現(xiàn)[J].華東科技大學(xué)學(xué)報,2011-06(39):120-124.
[8]葉文宸.基于HIVE性能優(yōu)化方法的研究與實踐[J].南京:南京大學(xué)軟件工程學(xué)院,2011.
[9]劉書楠.Thrift入門簡介[J].YOUNG青年與社會,2013(1):228.
[10]崔丹丹.K-means聚類算法研究及改進[M].安徽:安徽大學(xué)計算機學(xué)院,2012-04.
[11]Xu X W,Jager J, Kriegel H P. A fast parallel clustering algorithm for large spaial databases[J].Data Mining aand knowledeg Discovery,1999,3(3):263-290.