時(shí)間:2023-03-20 16:13:52
緒論:在尋找寫作靈感嗎?愛發(fā)表網(wǎng)為您精選了8篇聚類分析論文,愿這些內(nèi)容能夠啟迪您的思維,激發(fā)您的創(chuàng)作熱情,歡迎您的閱讀與分享!
1.1城郊農(nóng)戶此種類型的農(nóng)戶主要是對其生活、農(nóng)業(yè)種植、畜禽養(yǎng)殖、鄉(xiāng)村旅游進(jìn)行污染區(qū)分。①污染源區(qū)分:農(nóng)家樂是目前鄉(xiāng)村旅游的重要形式,其污染源包括污水、人類尿便等,鄉(xiāng)村旅游污染和旅游人數(shù)之間有著直接的關(guān)系。所以,這一類污染的產(chǎn)污單元可以看做是每一位鄉(xiāng)村游客。②污染強(qiáng)度的劃分:生活污水(包括垃圾、人類尿)排放強(qiáng)度=每戶游客污水日排放量/每戶游客數(shù)。
1.2種養(yǎng)結(jié)合戶此種類型農(nóng)戶的污染源劃分主要是根據(jù)農(nóng)戶種植污染、畜禽養(yǎng)殖污染、農(nóng)戶生活污染等進(jìn)行劃分。其中,畜禽養(yǎng)殖污染源的劃分同典型養(yǎng)殖戶;農(nóng)戶生活、農(nóng)戶農(nóng)業(yè)種植污染源識別同典型種植戶。
2農(nóng)村環(huán)境污染物排放的核算
2.1農(nóng)村環(huán)境污染物具體排放量的計(jì)算研究得知,各污染源污染實(shí)物的排放量多少是和流失系數(shù)、產(chǎn)污系數(shù)等密切相關(guān)的。而農(nóng)村環(huán)境污染具有極其明顯的地域性,所以我們計(jì)算中需要的參數(shù)值必須通過對某一地區(qū)內(nèi)各種相關(guān)聯(lián)的因素進(jìn)行測定和綜合分析才能得出。目前,得出這些參數(shù)的方法一般有兩種,一是通過特定地區(qū)的污染發(fā)生學(xué)實(shí)驗(yàn)研究來得出,二是通過相關(guān)的文獻(xiàn)進(jìn)行篩選、調(diào)研。
2.2農(nóng)村環(huán)境污染敏感性的調(diào)研這里提到的敏感性主要是指調(diào)研區(qū)域地表水環(huán)境對農(nóng)村各種社會(huì)經(jīng)濟(jì)活動(dòng)的反應(yīng)的敏感程度??梢苑从钞a(chǎn)生地表水水體富營養(yǎng)化的概率的大小,敏感性分為5級,即不敏感、輕度敏感、中度敏感、高度敏感、極敏感。根據(jù)相關(guān)的調(diào)查,對農(nóng)村環(huán)境污染的敏感性評價(jià)可以采用污染物(COD、TN、TP)的排放濃度結(jié)合水質(zhì)評價(jià)模型進(jìn)行評定。具體可有以下3種方法。①單向水質(zhì)指數(shù)法。在確定各基本單元的基本指數(shù)后,用污染物(COD、TN、TP)的水質(zhì)指數(shù)作為變量,進(jìn)行全面的聚類分析,然后根據(jù)分析結(jié)果,劃分敏感級別。②加權(quán)指數(shù)法。運(yùn)用加權(quán)指數(shù)法可以反映出污染物(COD、TN、TP)在不同地區(qū)對環(huán)境污染的影響。首先要確定影響農(nóng)村環(huán)境污染敏感性發(fā)熱污染物(COD、TN、TP)的排放濃度,然后再依據(jù)加權(quán)指數(shù)法計(jì)算出各基本敏感單元的敏感性數(shù)值。③內(nèi)梅羅綜合指數(shù)法。如果單項(xiàng)水質(zhì)指數(shù)的數(shù)值變化很大,為了更加有效的突出各個(gè)高值的影響,就可以采用內(nèi)梅羅平均值法。同樣,在確定了各基本單元的內(nèi)梅羅指數(shù)后,以其指數(shù)為變量。進(jìn)行綜合的聚類分析,然后根據(jù)分析結(jié)果劃分敏感性等級。
3污染程度的區(qū)分
首先確定環(huán)境污染中的主要污染物、總污染負(fù)荷,然后與區(qū)域相結(jié)合確定重點(diǎn)污染區(qū)域,進(jìn)而確定其污染程度。
3.1水質(zhì)系數(shù)和排放濃度要想全面的反映出區(qū)域污染的狀況,要從排污總量和排污濃度兩方面上來進(jìn)行考慮,水質(zhì)系數(shù)反映評價(jià)標(biāo)準(zhǔn)和污染物濃度之間的關(guān)系,其中:污染物水質(zhì)指數(shù)=該污染物排放濃度/該地環(huán)境質(zhì)量標(biāo)準(zhǔn)
3.2聚類分析進(jìn)行聚類分析要運(yùn)用SPSS軟件,采用Q型聚類,通過對農(nóng)村環(huán)境污染源等標(biāo)污染的負(fù)荷率進(jìn)行綜合的聚類分析,然后來區(qū)分不同區(qū)域的主要污染類型,比如種植污染型、養(yǎng)殖污染型、綜合污染型、生活污染型等。
4結(jié)語
系統(tǒng)主要實(shí)現(xiàn)軟件的模塊話設(shè)計(jì),包括反射率數(shù)據(jù)分析模塊、速度分析模塊、天線運(yùn)行穩(wěn)定性分析模塊以及雷達(dá)組網(wǎng)數(shù)據(jù)分析模塊。
1.1反射率分析模塊
反射率的大小體現(xiàn)了氣象目標(biāo)的降水粒子的密度分布及體積大小,在實(shí)際氣象技術(shù)中長期用于表示氣象目標(biāo)的強(qiáng)度,在工作上采用dBZ單位表示。對于空管氣象雷達(dá)圖,數(shù)據(jù)顯示采用PPI(PlanPositionImage)顯示方式。該方式?jīng)Q定了一張氣象雷達(dá)圖由圓錐俯視平面上分析空間的回波構(gòu)成。在設(shè)計(jì)上簡單介紹其設(shè)計(jì)流程,首先必須讀取原始數(shù)據(jù),并判斷是否首次讀取,若為首次讀取則對其進(jìn)行預(yù)處理,否則進(jìn)行坐標(biāo)轉(zhuǎn)換;其次進(jìn)行圖像繪制并判斷是否需要改變仰角。此處需要關(guān)注的關(guān)鍵是如何進(jìn)行數(shù)據(jù)的預(yù)處理。在實(shí)現(xiàn)上,對接收的數(shù)據(jù)進(jìn)行反射率信息結(jié)構(gòu)體賦值。當(dāng)然該結(jié)構(gòu)體包括了記錄實(shí)際仰角角度、數(shù)據(jù)文件路徑存儲(chǔ)、雷達(dá)波段判斷以及相關(guān)數(shù)據(jù)的偏移。通過掃描上述結(jié)構(gòu)體可以實(shí)現(xiàn)對雷達(dá)數(shù)據(jù)的預(yù)處理。
1.2速度分析模塊
多普勒雷達(dá)采用了速度退化模糊技術(shù)以擴(kuò)大其對徑向風(fēng)速測量不模糊的區(qū)間。結(jié)構(gòu)設(shè)計(jì)主要考慮數(shù)據(jù)顯示的徑向方式,流程設(shè)計(jì)則與反射模塊類似。當(dāng)然在界面設(shè)計(jì)上,系統(tǒng)將提供對顏色配置的定義,使其人機(jī)交互更為快捷。
1.3天線穩(wěn)定性分析模塊
天線是雷達(dá)數(shù)據(jù)采集的關(guān)鍵部位,長期以來是影響雷達(dá)運(yùn)行的主要關(guān)鍵點(diǎn)之一。其依賴于底下的電機(jī)進(jìn)行旋轉(zhuǎn),目前大多數(shù)進(jìn)口電機(jī)可以保證24小時(shí)安全運(yùn)行。而運(yùn)行時(shí)仰角提升和轉(zhuǎn)速的平穩(wěn)性直接影響雷達(dá)數(shù)據(jù)的采集。為此,我們通過在徑向數(shù)據(jù)上采用方位角及仰角進(jìn)行掃描實(shí)現(xiàn)曲線圖監(jiān)控。通過選擇基數(shù)據(jù)再進(jìn)行預(yù)處理后繪制相關(guān)曲線實(shí)現(xiàn)對天線運(yùn)行狀態(tài)的評估。其中,曲線圖的繪制需要的參數(shù)為:縱坐標(biāo)為氣象雷達(dá)實(shí)際運(yùn)行的每層仰角均值;橫坐標(biāo)為范圍角:0-360°。
1.4雷達(dá)組網(wǎng)分析模塊
按照民航局的總體規(guī)劃,未來空管將實(shí)現(xiàn)多氣象雷達(dá)覆蓋,在這過程,多個(gè)氣象雷達(dá)的組網(wǎng)將成為氣象雷達(dá)數(shù)據(jù)的主要來源。這種模式將使得數(shù)據(jù)覆蓋面更大、數(shù)據(jù)安全性更高、數(shù)據(jù)準(zhǔn)確性更強(qiáng)。而與此同時(shí)帶來了雷達(dá)數(shù)據(jù)融合組網(wǎng)的技術(shù)難點(diǎn)。設(shè)計(jì)上,首先模塊將定義雷達(dá)站點(diǎn)配置信息,并與此同時(shí)提供組網(wǎng)雷達(dá)可選數(shù)據(jù);其次對選擇雷達(dá)數(shù)據(jù)進(jìn)行數(shù)據(jù)預(yù)處理;再之則對雷達(dá)數(shù)據(jù)進(jìn)行統(tǒng)計(jì)平均并做坐標(biāo)轉(zhuǎn)換;最后進(jìn)行拼圖處理。在這過程中,需要對雷達(dá)數(shù)據(jù)的強(qiáng)度進(jìn)行自適應(yīng)調(diào)整、顯示范圍自適應(yīng)調(diào)整。與上述同理,系統(tǒng)核心在于預(yù)處理。在C#中定義List數(shù)據(jù)列表,并在定義其結(jié)構(gòu)為[站點(diǎn)標(biāo)示][距離][方位角],對于數(shù)據(jù)讀取時(shí),需要進(jìn)行插值算法處理,此時(shí)的單時(shí)數(shù)據(jù)拼接分析可以實(shí)現(xiàn)不同仰角和方位角的篩選。為了控制系統(tǒng)數(shù)據(jù)的準(zhǔn)確性可以在前端定義雷達(dá)數(shù)據(jù)方位角表,根據(jù)表進(jìn)行映射處理。通常如若出現(xiàn)非連續(xù)數(shù)據(jù)可以在預(yù)處理上對其進(jìn)行差值補(bǔ)償。在C#上可以采用反差圓補(bǔ)償方法。
2.結(jié)束語
1.芭蕾是一種形式感很強(qiáng)的舞臺表演藝術(shù)
芭蕾是一種形式感很強(qiáng)的舞臺表演藝術(shù)。即使不特別熟悉這一藝術(shù)樣式的觀眾,也知道它是“足尖上的舞蹈”,知道它那挺拔、修長的“Arabesque”,知道它那“天鵝般”靜穆與典雅的舞風(fēng)。事實(shí)上,“形式感”很強(qiáng)的芭蕾,積淀的是包括基督精神、哥特式審美和紳士風(fēng)度等在內(nèi)的西方文化精神。根據(jù)文化傳播學(xué)的原理,某一文化形態(tài)在播遷異域后,反倒比其原生地的母體更固守形態(tài)的原發(fā)性和純粹性。盡管芭蕾的形式在中國大眾的接受境遇中已與原有的文化精神相剝離,但要在這種抽象的幾何形態(tài)中注人中國文化精神也并非易事。更何況“大紅燈籠”所面對的是《妻妾成群》這樣的文化舊俗和社會(huì)陋習(xí)。張藝謀高掛芭蕾“大紅燈籠”的初衷,可能是燈籠的象征、京劇的意味以及傳統(tǒng)中國的文化色彩,但他不能不首先對原著的敘述焦點(diǎn)及焦點(diǎn)人物作顛覆性的處理,否則他將被芭蕾的“形式感”所顛覆。非??粗亍靶问健痹谒囆g(shù)表現(xiàn)中的重要作用的張藝謀,不可能置芭蕾藝術(shù)的“形式感”不顧而為所欲為。
2.按照舞劇敘述的特性升華原著的主題
據(jù)稱芭蕾舞劇《大紅燈籠高高掛》改編自張藝謀的同名電影,但張藝謀的電影則是改編自蘇童不同名的小說《妻妾成群》。我并不認(rèn)為張藝謀電影的選材是迎合西方世界期待的中國“民族性”,從小說《妻妾成群》更名為電影《大紅燈籠高高掛》來看,毋寧說是張藝謀更看重選材中“鏡頭語言”的藝術(shù)張力及其文化內(nèi)涵。將《妻妾成群》的直描隱匿在“大紅燈籠”的暗喻之后,是電影敘述中“鏡頭語言”的特性所決定的;電影無需改變原著的敘述焦點(diǎn)和焦點(diǎn)人物,因?yàn)樵凇按蠹t燈籠”高掛的鏡頭下,仍然是老爺?shù)拿呋ㄋ蘖推捩臓庯L(fēng)吃醋。但顯然,芭蕾“形式感”所決定的“舞劇敘述”拒絕老爺成為“男首席”。這一方面是由于芭蕾“男首席”體態(tài)語言的美學(xué)規(guī)范拒絕“老爺”的委瑣和陰毒,另一方面也是由于老爺“成群的妻妾”使“女首席”難以抉擇。于是,芭蕾舞劇“大紅燈籠”將“男首席”聚集于那位與三太太“”的戲班武生,三太太也就順理成章地成了“女首席”;又于是,男、女首席的“”事件沿著自身的敘述邏輯展開,它不是“妻妾成群”中的“世態(tài)百象”,而是其原有的“純情”之戀的“一以貫之”。于是,芭蕾舞劇《大紅燈籠高高掛》敘述的主線,體現(xiàn)為三太太的與其戀人——戲班武生的四段雙人舞:序幕中三太太被迫出嫁時(shí)憶及舊時(shí)戀人的“純情”雙人舞;三幕中戲班武生唱堂會(huì)時(shí)相逢三太太的“傾情”雙人舞;三幕中三太太不顧家法、以身相許舊時(shí)戀人的“”雙人舞;尾聲中戲班武生與三太太被老爺杖刑奪去年輕生命的“殉情”雙人舞……在我看來,舞劇的敘述特性首先體現(xiàn)為按男、女首席舞者的命運(yùn)來設(shè)定情節(jié),盡管“大紅燈籠”還不可能完全擺脫原著情節(jié)的構(gòu)成框架,但原著的情節(jié)框架已拉開成背景,原著的主題也由于焦點(diǎn)人物的轉(zhuǎn)換而得以升華。值得注意的是,在這種敘述特性的觀照下,二太太從告密以邀寵到點(diǎn)燈而遭難的線索難免給人以枝蔓橫生之感。
關(guān)鍵詞:聚類分析 人口區(qū)劃 數(shù)據(jù)挖掘
中圖分類號:C92 文獻(xiàn)標(biāo)識碼:A 文章編號:1007-3973(2013)005-184-03
1 前言
隨著中國信息化進(jìn)程的加速,各行各業(yè)每天都產(chǎn)生大量的數(shù)據(jù),如何充分利用這些數(shù)據(jù),更好地為人類生產(chǎn)和生活更好地服務(wù)?數(shù)據(jù)挖掘是一種不錯(cuò)的方法,數(shù)據(jù)挖掘又稱數(shù)據(jù)庫中的知識發(fā)現(xiàn),是指從數(shù)據(jù)庫的大量數(shù)據(jù)中揭示出隱含的、先前未知的并有潛在價(jià)值的信息的非平凡過程。知識發(fā)現(xiàn)過程由以下三個(gè)階段組成:(1)數(shù)據(jù)準(zhǔn)備;(2)數(shù)據(jù)挖掘;(3)結(jié)果表達(dá)和解釋。
聚類分析(Cluster Analysis)是一種數(shù)據(jù)挖掘方法,是根據(jù)“物以類聚”的道理,對樣品或指標(biāo)進(jìn)行分類的一種多元統(tǒng)計(jì)分析方法,它們討論的對象是大量的樣品或數(shù)據(jù),要求能合理按各自的特性來進(jìn)行合理的分類,沒有任何模式可供參考或依循,即是在沒有先驗(yàn)知識的情況下進(jìn)行的。目前在文獻(xiàn)中存在大量的聚類算法,算法的選擇取決于數(shù)據(jù)的類型、聚類的目的和應(yīng)用。大體上聚類分析主要的算法可以分為:(1)劃分方法;(2)層次的方法;(3)基于密度的方法;(4)基于網(wǎng)格的方法;(5)基于模型的方法。如果聚類分析被用作描述或者探查的工具,可以對同樣的數(shù)據(jù)嘗試多種算法,以發(fā)現(xiàn)數(shù)據(jù)可能揭示的結(jié)果。聚類方法廣泛應(yīng)用于各行各業(yè)。
人口是基礎(chǔ)數(shù)據(jù),是制定各項(xiàng)政策的依據(jù)。人口區(qū)劃根據(jù)自然、經(jīng)濟(jì)、人口特征及相應(yīng)的指標(biāo)體系,對全國人口分布狀況分區(qū)劃片,并提出各區(qū)人口發(fā)展合理目標(biāo)及相應(yīng)的人口政策和措施,為全國和分區(qū)人口發(fā)展規(guī)劃提供科學(xué)依據(jù),并為國民經(jīng)濟(jì)計(jì)劃和經(jīng)濟(jì)區(qū)劃服務(wù)。20世紀(jì)80年代初,中國學(xué)者胡煥庸根據(jù)自然地理特征、人口密度、人口自然增長、人口遷移、耕地、糧食產(chǎn)量、勞動(dòng)力等指標(biāo),將中國劃分為人口區(qū),即:黃河下游區(qū),遼吉黑區(qū),長江中下游區(qū),東南沿海區(qū),晉陜甘寧區(qū),川黔滇區(qū),蒙新區(qū),青藏區(qū)。隨著中國經(jīng)濟(jì)的迅猛發(fā)展人口分布呈現(xiàn)出許多新的特征,為了適應(yīng)新的趨勢,有必要重新定位和再研究。
2 數(shù)據(jù)與方法
2.1 數(shù)據(jù)來源與指標(biāo)選擇
本研究的數(shù)據(jù)采用2011年全國31個(gè)省及直轄市的統(tǒng)計(jì)數(shù)據(jù),人口數(shù)據(jù)來源于《中國人口統(tǒng)計(jì)年鑒》,各省人均可支配收入來源于經(jīng)濟(jì)信息網(wǎng)。因研究的是各省的人口及經(jīng)濟(jì)指標(biāo)聚類,研究區(qū)域很大,信息粒度較大,因此選擇了有代表性的綜合性人口數(shù)據(jù)指標(biāo),人口(總量)、人口密度、人口自然增長率、第六次人口普查數(shù)據(jù)、人均可支配收入、人均GDP、遷移數(shù)據(jù)。其中人口自然增長率為(人口出生率-人口死亡率)/人口均值*1000%,遷移數(shù)據(jù)=第六次人口普查數(shù)據(jù)-人口(常住人口)。各省及直轄市的基礎(chǔ)數(shù)據(jù)如表1所示。
2.2 聚類分析原理
3.2 二維聚類
以人均GDP和人口自然增長率進(jìn)行聚類,數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化處理后,得到的結(jié)果有五類,如表5如示。
從以上聚類結(jié)果看,第一類是沿海地區(qū),經(jīng)濟(jì)較為發(fā)達(dá),人口增長正常;而第二類內(nèi)陸地區(qū),人均GDP較低,人口自然增長優(yōu)率較為正常;第三類為東北三省,人均GDP中等,人口增長率低;第四類為人均GDP高,為三個(gè)直轄市;第五類為人均GDP低,而且人口增長快的區(qū)域。
3.3 多維聚類
多維聚類時(shí),采用K均值法進(jìn)行聚類,得到的聚類結(jié)果如表6。
根據(jù)多維數(shù)據(jù)聚類,共分為六類,其中第一類屬于人口少,但較為富裕的北京和上海,而第六類為天津,自成一類,主要是流動(dòng)人口及可支配收入較第一類差一些;第四類為經(jīng)濟(jì)發(fā)達(dá)的廣東、江蘇和浙江;第二類為經(jīng)濟(jì)較好,人均收入中等,流動(dòng)人口較少的地區(qū);第五類為經(jīng)濟(jì)欠發(fā)達(dá),人口保持較高增長率的省份;第三類則是大部分的內(nèi)陸地區(qū)。
4 結(jié)論與討論
本文通過采用聚類分析的手段分析全國31個(gè)省市人口的發(fā)展規(guī)律,揭示了不同省市在人口發(fā)展之間的相似性和差異性,研究得出合理聚類結(jié)果,為政府和各職能部門在制定人口及各項(xiàng)地方性經(jīng)濟(jì)發(fā)展政策提供依據(jù)。
聚類分析結(jié)果表明,一維、二維和多維聚類分析方法有各自的典型特征有用途。一維聚類分析簡潔地表明各省人口自然分布規(guī)律,可為國家對不同各省份的人口政策提供科學(xué)依據(jù);二維聚類分析直接反應(yīng)了不同省份人口與經(jīng)濟(jì)等指標(biāo)的相互關(guān)系,如論文中對人均GDP和人口自然增長率的二維聚類分析,分類結(jié)果合理的體現(xiàn)了當(dāng)前我國各省經(jīng)濟(jì)發(fā)展與人口特征。多維聚類分析方法適用于對各省綜合分類,論文中采用了與人口有關(guān)的5個(gè)指標(biāo)進(jìn)行的多維聚類分析,分類結(jié)果有較強(qiáng)的綜合性,與當(dāng)前各省公眾認(rèn)識的綜合分類一致。
解決了傳統(tǒng)的經(jīng)驗(yàn)分類方法導(dǎo)致的客觀性缺乏等問題。為人口的分類管理實(shí)踐提供了理論依據(jù)和技術(shù)手段。
(本論文為院級大學(xué)生實(shí)踐創(chuàng)新訓(xùn)練計(jì)劃項(xiàng)目2011XYCXXL14資助項(xiàng)目)
參考文獻(xiàn):
[1] Jiawei Han,Micheline Kambe.數(shù)據(jù)挖掘概念與技術(shù)[M].北京:機(jī)械工業(yè)出版社,2012.
[2] 陳志泊.數(shù)據(jù)倉庫與數(shù)據(jù)挖[M].北京:清華大學(xué)出版社,2009.
[3] 陸學(xué)藝.可持續(xù)發(fā)展實(shí)驗(yàn)區(qū)發(fā)展歷程回顧與建議[J].中國人口資源與環(huán)境,2007,17(3):1-2.
[4] 張文彤,董偉.SPSS統(tǒng)計(jì)分析高級教程[M].北京:高等教育出版社,2004:236-237.
摘 要 對北京體育大學(xué)2003-2012年體操方向碩士學(xué)位論文的關(guān)鍵詞詞頻統(tǒng)計(jì)與分析,研究高頻詞之間的結(jié)構(gòu)關(guān)系,探究北京體育大學(xué)體操方向碩士學(xué)位論文的選題方向、研究內(nèi)容及其不同的特點(diǎn),分析熱點(diǎn)的形成原因與未來發(fā)展趨勢。
關(guān)鍵詞 北京體育大學(xué) 碩士學(xué)位論文 研究熱點(diǎn)
一、研究方法與對象
研究方法主要采用詞頻統(tǒng)計(jì)法與共詞聚類分析法。詞頻統(tǒng)計(jì)法能夠揭示或表達(dá)文獻(xiàn)核心內(nèi)容的關(guān)鍵詞或主題詞在某一研究領(lǐng)域中出現(xiàn)的頻次高低來確定該領(lǐng)域研究熱點(diǎn)和發(fā)展動(dòng)向的文獻(xiàn)計(jì)量法。共詞聚類分析法是一種內(nèi)容分析方法,通過對一組詞兩兩統(tǒng)計(jì)它們在同一片文獻(xiàn)中出現(xiàn)的頻率,以此為基礎(chǔ)對這些詞進(jìn)行聚類分析,從而反映出詞與詞之間的親疏關(guān)系,進(jìn)而分析這些詞所代表的學(xué)科和主題的研究結(jié)構(gòu)。
二、研究生學(xué)位論文的共詞聚類分析
(一)關(guān)鍵詞詞頻統(tǒng)計(jì)與分析
本文利用《CNKI中國優(yōu)秀碩士學(xué)位論文全文數(shù)據(jù)庫》,搜索出2003―2012年北京體育大學(xué)體操方向碩士學(xué)位論文共73篇,以73篇學(xué)位論文中的關(guān)鍵詞為調(diào)研對象,通過共詞分析法中的聚類分析探索各高頻關(guān)鍵詞之間的內(nèi)在關(guān)系,歸納出北京體育大學(xué)體操碩士學(xué)位論文研究的熱點(diǎn),以及各個(gè)不同研究方向的親疏性。本研究利用Excel對前期檢索出的學(xué)位論文進(jìn)行關(guān)鍵詞統(tǒng)計(jì),共得到碩士學(xué)位論文關(guān)鍵詞283個(gè),平均每篇碩士學(xué)位論文含關(guān)鍵詞3.9個(gè)。然后對統(tǒng)計(jì)結(jié)果進(jìn)行以下處理:去除對反應(yīng)主題沒有積極意義的詞,如“展望”、“問題”等,對表達(dá)同一個(gè)意思的關(guān)鍵詞進(jìn)行標(biāo)準(zhǔn)化處理,如“高職院?!薄ⅰ奥殬I(yè)技術(shù)院?!薄ⅰ奥毤几咝!钡葮?biāo)準(zhǔn)化為“高職院校”,“高等院校”、“高等學(xué)?!?、“高?!?、“大學(xué)”等標(biāo)準(zhǔn)化為“高?!?。
經(jīng)過多次比較,最終選擇詞頻大于的關(guān)鍵詞作為高頻關(guān)鍵詞,從而確定個(gè)體操方向碩士學(xué)位論文的高頻關(guān)鍵詞(表1)。這個(gè)關(guān)鍵詞總的出現(xiàn)頻次為65次,占關(guān)鍵詞總頻次的36.3%。從高頻關(guān)鍵詞分布可以看出,北京體育大學(xué)體操方向碩士研究生重點(diǎn)關(guān)注的研究對象集中在“體育教育專業(yè)”、“分析”、“普通高?!?、“競技體操”、“北京市”、“教學(xué)理念”、“現(xiàn)狀”、“發(fā)展對策”等。
表1 碩士學(xué)位論文高頻關(guān)鍵詞表
序號 關(guān)鍵詞 詞頻
1 體育教育專業(yè) 12
2 分析 10
3 普通高校 8
4 競技體操 8
5 北京市 7
6 教學(xué)理念 7
7 現(xiàn)狀 7
8 發(fā)展對策 6
(二)構(gòu)造詞篇矩陣、相似矩陣
對于高頻關(guān)鍵詞共現(xiàn)頻次的統(tǒng)計(jì),本研究利用SPSS17.0,以每篇學(xué)位論文為一條記錄,記錄的內(nèi)容為高頻關(guān)鍵詞是否在學(xué)位論文的關(guān)鍵詞出現(xiàn)(出現(xiàn)為1,否則為0),構(gòu)造出詞篇矩陣。以詞篇矩陣為基礎(chǔ),在SPSS軟件中進(jìn)行相關(guān)分析,數(shù)據(jù)類型選擇“binary”二元變量,相似系數(shù)選擇“Ochiai”系數(shù),構(gòu)造出高頻關(guān)鍵詞的相似矩陣(見表2)。相似矩陣中的數(shù)字為相似數(shù)據(jù),數(shù)字的大小則表明詞與詞之間的距離遠(yuǎn)近,數(shù)值越大則表明詞與詞之間的距離越近,相似度越好;反之,數(shù)值越小,表明詞與詞之間的距離越遠(yuǎn),相似度越差。相似矩陣對角線的數(shù)據(jù)為1,表明某高頻關(guān)鍵詞自身相關(guān)度。
表2 碩士學(xué)位論文高頻關(guān)鍵詞的相似矩陣(部分)
體育教育專業(yè) 分析 普通高校 競技體操 北京市 教學(xué)理念 現(xiàn)狀 發(fā)展對策
體育教育專業(yè) 1.000 0.060 0.286 0.004 0.192 0.321 0.334 0.215
分析 0.060 1.000 0.030 0.121 0.018 0.006 0.076 0.023
普通高校 0.028 0.030 1.000 0.150 0.030 0.068 0.119 0.029
競技體操 0.004 0.121 0.150 1.000 0.008 0.192 0.043 0.020
北京市 0.192 0.018 0.030 0.008 1.000 0.192 0.035 0.078
教學(xué)理念 0.321 0.006 0.068 0.192 0.192 1.000 0.087 0.186
現(xiàn)狀 0.334 0.076 0.119 0.043 0.035 0.087 1.000 0.100
發(fā)展對策 0.215 0.023 0.029 0.020 0.078 0.186 0.100 1.000
(三)北京體育大學(xué)體操方向碩士學(xué)位論文的研究熱點(diǎn)可以概括為以下幾類:
1.競技體操的發(fā)展對策。包括關(guān)鍵詞:競技體操、發(fā)展對策、后備人才。
2.北京市普通高校體育教育專業(yè)教學(xué)理念。包括關(guān)鍵詞:北京市、普通高校、體育教育專業(yè)、教學(xué)理念。
3.體育教育專業(yè)與教學(xué)能力。包括關(guān)鍵詞:體育教育專業(yè)、教學(xué)能力。
三、研究熱點(diǎn)的特點(diǎn)分析
(一)北京體育大學(xué)體操方向碩士學(xué)位論文的研究熱點(diǎn)比較寬泛,選取對象比較廣泛,包括普通高校、體育院校、競技體操、體操普修課、教學(xué)理念等。
(二)碩士學(xué)位論文注重對教學(xué)理念及競技體操發(fā)展?fàn)顩r的研究,旨在通過現(xiàn)狀研究,探尋發(fā)展的脈絡(luò)與經(jīng)驗(yàn)。
(三)碩士學(xué)位論文注重對基本理論研究,研究內(nèi)容寬泛。在理論分析上顯得薄弱、創(chuàng)新能力欠缺。
參考文獻(xiàn):
[1] 高寶立,劉小強(qiáng).高等教育研究熱點(diǎn)分析:兩個(gè)維度、四項(xiàng)指標(biāo)――以現(xiàn)代大學(xué)制度研究為例[J].教育研究.2008(09).
[2] 遲景明,吳琳.近十年我國高等教育學(xué)學(xué)科研究熱點(diǎn)和趨勢――基于研究生學(xué)位論文的共詞聚類分析[J].中國高教研究.2011(9):20-24.
[3] 馬費(fèi)成,張勤.國內(nèi)外知識管理研究熱點(diǎn)――基于詞頻的統(tǒng)計(jì)分析[J].情報(bào)學(xué)報(bào),2006.25(02).
〔關(guān)鍵詞〕移動(dòng)圖書館;熱點(diǎn);共詞分析;因子分析;聚類分析;多維尺度分析
DOI:10.3969/j.issn.1008-0821.2014.07.008
〔中圖分類號〕G2501〔文獻(xiàn)標(biāo)識碼〕A〔文章編號〕1008-0821(2014)07-0040-05
移動(dòng)圖書館(Mobile library)原指“汽車圖書館”,是一種以大型交通工具作為空間載體,內(nèi)置書架及各種圖書報(bào)刊,通過位置移動(dòng)的方式供不同地方讀者取閱的圖書館。隨著移動(dòng)互聯(lián)網(wǎng)技術(shù)、移動(dòng)通信技術(shù)以及智能終端的快速發(fā)展,移動(dòng)圖書館具有了新的內(nèi)涵,如今主要是指利用各種智能終端,不受時(shí)間和空間限制,以無線接入方式訪問圖書館資源的一種新型服務(wù)方式。移動(dòng)圖書館方便、高效、快捷的服務(wù)方式迎合了現(xiàn)代人們的信息需求特點(diǎn),因此,移動(dòng)圖書館的研究受到了國內(nèi)外學(xué)術(shù)界的普遍重視,現(xiàn)已成為國內(nèi)外圖書情報(bào)領(lǐng)域的一個(gè)研究熱點(diǎn)。我國于2000年正式啟動(dòng)移動(dòng)圖書館建設(shè),經(jīng)過十多年的發(fā)展,我國在移動(dòng)圖書館理論與實(shí)踐研究領(lǐng)域已取得了豐碩的成果。
筆者以CNKI數(shù)據(jù)庫中的相關(guān)期刊論文為研究基礎(chǔ),采用共詞分析方法,借助中國醫(yī)科大學(xué)醫(yī)學(xué)信息學(xué)系開發(fā)的書目共現(xiàn)分析Bicomb軟件確定高頻關(guān)鍵詞和高頻關(guān)鍵詞共詞矩陣,用SPSS190軟件進(jìn)行因子分析、聚類分析以及多維尺度分析,從而在此基礎(chǔ)上揭示我國移動(dòng)圖書館研究領(lǐng)域的熱點(diǎn)和現(xiàn)狀。
1關(guān)于共詞分析方法
共詞分析方法是一種基于內(nèi)容分析的方法,是法國文獻(xiàn)計(jì)量學(xué)家于20世紀(jì)70年代中后期基于引文耦合與共被引概念提出的。其基本原理主要是通過分析某一學(xué)科領(lǐng)域文獻(xiàn)集中的詞匯對或名詞短語共同出現(xiàn)的情況,來判斷該學(xué)科領(lǐng)域文獻(xiàn)各主題之間的關(guān)系。筆者在研究過程中,主要是對移動(dòng)圖書館文獻(xiàn)集中的關(guān)鍵詞進(jìn)行共現(xiàn)統(tǒng)計(jì),以此確定不同主題的相關(guān)關(guān)系,并且在運(yùn)用共詞分析方法分析我國移動(dòng)圖書館研究熱點(diǎn)時(shí),主要遵循了以下幾個(gè)步驟:①確定移動(dòng)圖書館研究領(lǐng)域高頻關(guān)鍵詞;②利用Bicomb軟件構(gòu)建高頻關(guān)鍵詞共詞矩陣;③利用SPSS190軟件進(jìn)行斯皮爾曼系數(shù)處理后得到相關(guān)矩陣進(jìn)行因子分析;④用1減去相關(guān)矩陣中的所有數(shù)據(jù)的方法得到相異矩陣后利用SPSS190軟件進(jìn)行聚類分析;⑤利用SPSS190軟件對已得到的相關(guān)矩陣進(jìn)行多維尺度分析;⑥對所獲得的信息結(jié)果進(jìn)行分析。
2014年7月第34卷第7期現(xiàn)?代?情?報(bào)Journal of Modern InformationJuly,2014Vol34No72014年7月第34卷第7期我國移動(dòng)圖書館研究熱點(diǎn)分析July,2014Vol34No72數(shù)據(jù)來源與處理
在共詞分析過程中,考慮到我國移動(dòng)圖書館研究論文收錄的全面性,2014年2月12日,筆者以CNKI全文數(shù)據(jù)庫為數(shù)據(jù)來源進(jìn)行檢索,檢索策略為“主題=移動(dòng)圖書館”或者“主題=手機(jī)圖書館”,共檢索到729篇文獻(xiàn),經(jīng)過剔除不相關(guān)文獻(xiàn)之后得到680篇文獻(xiàn),然后下載這些論文的題錄,利用Bicomb軟件的統(tǒng)計(jì)功能進(jìn)行關(guān)鍵詞統(tǒng)計(jì),統(tǒng)計(jì)結(jié)果顯示所有文獻(xiàn)共含有2 466個(gè)關(guān)鍵詞,從中選擇出57個(gè)詞頻大于等于5的關(guān)鍵詞作為共詞分析的基礎(chǔ)(見表1)。
3移動(dòng)圖書館的共詞分析
31因子分析
因子分析的主要思想是利用盡可能少的因子去描述眾多指標(biāo)或要素之間的聯(lián)系,即將相關(guān)性較高的幾個(gè)變量歸為一組,在每一組變量中找出隱藏的具有代表性的因子成為一個(gè)公共因子,以較少的公共因子反映原始資料的大部分信息,最后使得同組內(nèi)的變量之間具有較高的相關(guān)性,不同組的變量之間具有相對較低的相關(guān)性。
利用SPSS190分析中的斯皮爾曼系數(shù)將已生成的高頻關(guān)鍵詞共詞矩陣轉(zhuǎn)換成相關(guān)矩陣,并以此相關(guān)矩陣為基礎(chǔ),在SPSS190中選擇主成份方法、協(xié)方差矩陣和最大方差旋轉(zhuǎn)進(jìn)行因子分析,得到相關(guān)矩陣的解釋總方差(見表3)。
32聚類分析
聚類分析又稱群集分析,是根據(jù)“物以類聚”的思想對事物的特性進(jìn)行比較分類,將具有相近特性的事物歸為一類,將具有特性差別較大的事物歸入不同的類。
在聚類分析中,為消除共詞頻次差異的影響,需要將57*57的共詞相關(guān)矩陣轉(zhuǎn)化為相異矩陣,具體方法是用1減去相關(guān)矩陣中的所有數(shù)據(jù)的方法進(jìn)行轉(zhuǎn)化。然后利用SPSS190軟件聚類分析中常用的系統(tǒng)聚類法對共詞矩陣進(jìn)行聚類,聚類時(shí)聚類方法選用Wards算法,聚類度量標(biāo)準(zhǔn)選擇“計(jì)數(shù)”中的斐方(Phi square measure),轉(zhuǎn)換值標(biāo)準(zhǔn)化選擇Z得分。最后經(jīng)過分析得到聚類樹狀結(jié)構(gòu)圖,通過這個(gè)樹狀圖可以初步判斷各關(guān)鍵詞之間的親疏關(guān)系,結(jié)合前面的因子分析結(jié)果,我國移動(dòng)圖書館研究領(lǐng)域的聚類樹狀結(jié)構(gòu)圖可以確定為5個(gè)大類(見圖1),進(jìn)而可以為多維尺度分析的最終分組提供依據(jù)。
33多維尺度分析
多維尺度分析是研究對象之間相似性或差異性的一種多元統(tǒng)計(jì)分析方法,其基本原理是將研究對象從多維空間簡化到低維空間進(jìn)行定位、分析和歸類,同時(shí)又保留對象間原始關(guān)系的數(shù)據(jù)分析方法[1]。
筆者以前面的相關(guān)矩陣為基礎(chǔ)利用SPSS190軟件進(jìn)行多維尺度分析,結(jié)合因子分析和聚類分析的結(jié)果,繪制了具有5個(gè)類團(tuán)的多維尺度分析圖(見圖2)。這5個(gè)類團(tuán)分別代表的主題是:1移動(dòng)圖書館服務(wù)模式;2移動(dòng)技術(shù)在圖書館的應(yīng)用;3移動(dòng)圖書館系統(tǒng)設(shè)計(jì)分析及實(shí)現(xiàn);4移動(dòng)圖書館現(xiàn)狀及發(fā)展趨勢;5移動(dòng)圖書館應(yīng)用實(shí)例介紹。
5結(jié)語
本文以我國移動(dòng)圖書館研究領(lǐng)域的高頻關(guān)鍵詞為基礎(chǔ),通過共詞分析方法進(jìn)行了因子分析、聚類分析和多維尺度分析,結(jié)果發(fā)現(xiàn)我國的研究學(xué)者對移動(dòng)圖書館的研究主要集中在移動(dòng)圖書館服務(wù)模式、移動(dòng)技術(shù)在圖書館的應(yīng)用、移動(dòng)圖書館系統(tǒng)設(shè)計(jì)分析及實(shí)現(xiàn)、移動(dòng)圖書館現(xiàn)狀及發(fā)展趨勢、移動(dòng)圖書館應(yīng)用實(shí)例介紹五個(gè)方面。盡管我國學(xué)者在移動(dòng)圖書館研究領(lǐng)域取得了不錯(cuò)的研究成績,但是從因子分析和聚類分析結(jié)果來看,我國移動(dòng)圖書館的新興主題研究不夠,難以形成一類,如“個(gè)性化服務(wù)”、“移動(dòng)閱讀”等主題,由于研究涉獵不多,所發(fā)表的論文數(shù)量偏少,結(jié)果在共詞分析中只能依附于其他相關(guān)主題。
值得注意的是本研究在研究過程中存在一定局限性,一是由于某些論文的關(guān)鍵詞著錄不規(guī)范,使得關(guān)鍵詞數(shù)據(jù)還不夠全面完善;二是移動(dòng)圖書館的高頻關(guān)鍵詞的閥值選定是個(gè)值得商榷的事,到底選擇多大閥值的關(guān)鍵詞才能全面反映移動(dòng)圖書館的整體狀況仍是一個(gè)值得不斷探索的事情,筆者將在未來的研究中不斷地進(jìn)行實(shí)踐完善。
參考文獻(xiàn)
[1]陸宇杰,張鳳仙,范并思.基于共詞分析的高校圖書館核心價(jià)值研究[J].大學(xué)圖書館學(xué)報(bào),2011,(6):34-40.
[2]宋鸞姣,李利.面向智能手機(jī)的移動(dòng)圖書館服務(wù)需求調(diào)查分析[J].圖書館,2012,(5):71-72.
[3]宋恩梅.移動(dòng)的書海:國內(nèi)移動(dòng)圖書館現(xiàn)狀及發(fā)展趨勢[J].中國圖書館學(xué)報(bào),2010,36(5):36-48.
[4]龍泉,謝春枝,申艷.國外高校移動(dòng)圖書館應(yīng)用現(xiàn)狀調(diào)查及啟示[J].圖書館論壇,2013,(5):60-64.
[5]潘志鵬.基于手機(jī)平臺的圖書館延伸服務(wù)――以武漢圖書館手機(jī)服務(wù)為例[J].情報(bào)理論與實(shí)踐,2011,(1):76-79.
[6]袁輝,楊新涯,王寧.移動(dòng)圖書館的實(shí)踐與展望──以重慶大學(xué)圖書館為例[J].圖書館建設(shè),2011,(11):66-70.
[7]董偉.國內(nèi)近十年數(shù)字圖書館領(lǐng)域研究熱點(diǎn)分析――基于共詞分析[J].圖書情報(bào)知識,2009,(131):58-63.
[關(guān)鍵詞]專利引證 技術(shù)熱點(diǎn) 耦合 聚類分析
[分類號]G353.1
1 引言
新技術(shù)的產(chǎn)生可以導(dǎo)致一系列相關(guān)的新產(chǎn)品問世,對人們的生活、企業(yè)的發(fā)展乃至社會(huì)經(jīng)濟(jì)產(chǎn)生巨大的推動(dòng)作用。在某一新技術(shù)尚未完全成熟之際,必定會(huì)有很多企業(yè)圍繞這一技術(shù)不斷進(jìn)行改進(jìn)和完善,并申請相關(guān)專利技術(shù)進(jìn)行保護(hù)。因此,未來主流市場中的主流技術(shù)在專利文獻(xiàn)中有量的征兆,可以通過對專利數(shù)據(jù)的定量分析來進(jìn)行技術(shù)熱點(diǎn)的監(jiān)測。
當(dāng)前利用專利文獻(xiàn)進(jìn)行技術(shù)熱點(diǎn)監(jiān)測的方法主要有兩種:①通過對具有技術(shù)含義的專利著錄項(xiàng),如專利IPC分類號的數(shù)量變化來監(jiān)測技術(shù)熱點(diǎn);②利用文本挖掘技術(shù),從專利文獻(xiàn)中抽取技術(shù)關(guān)鍵詞進(jìn)行詞頻統(tǒng)計(jì)、聚類分析來監(jiān)測技術(shù)熱點(diǎn)。在學(xué)術(shù)領(lǐng)域,學(xué)者們基于專利分類號對某個(gè)時(shí)間點(diǎn)或時(shí)間段的技術(shù)熱點(diǎn)進(jìn)行了探索。袁冰等指出,通過分析專利涉及的所有IPC分類號,以及這些IPC分類號下分別包括的專利數(shù)量,就能夠獲知整個(gè)區(qū)域的技術(shù)構(gòu)成情況以及該區(qū)域內(nèi)市場經(jīng)營主體關(guān)注的技術(shù)熱點(diǎn)。王燕玲認(rèn)為,將不同主體的1PC分類按時(shí)間分布并加以比較,可發(fā)現(xiàn)不同主體的IPC變化過程,是一個(gè)從創(chuàng)新主體角度研究技術(shù)領(lǐng)域熱點(diǎn)變化的主要方法。左鳳茹對水電行業(yè)中世界著名企業(yè)的專利申請量按IPC分類號進(jìn)行統(tǒng)計(jì)后,指出目前水電沒備的研究熱點(diǎn)。欒春娟等認(rèn)為,經(jīng)過德溫特技術(shù)人員標(biāo)引的“德溫特指南代碼”(Derwent Manual Codes),對研究專利的技術(shù)領(lǐng)域分布更具指導(dǎo)意義,她們利用德溫特指南代碼,陸續(xù)對基因工程、3G技術(shù)、生物技術(shù)、電動(dòng)汽車領(lǐng)域進(jìn)行了技術(shù)熱點(diǎn)分析。在技術(shù)實(shí)踐領(lǐng)域,主流的專利分析軟件如Thomson Data Analyzer(TDA)、Aureka、HIT-恒庫等正是基于上述原理,實(shí)現(xiàn)了從批量專利文獻(xiàn)中抽取專利分類號或技術(shù)特征詞匯進(jìn)行統(tǒng)計(jì)、聚類分析的功能,并用可視化的方式展示分析結(jié)果,生成相應(yīng)的專利地圖,進(jìn)行技術(shù)熱點(diǎn)監(jiān)測。以Aureka為例,它提供了ThemeSeape地形圖功能,以分析的專利樣本為基礎(chǔ),對其中相關(guān)詞匯的詞頻應(yīng)用聚類分析生成主題(詞匯)地形圖,以此來描述專利技術(shù)熱點(diǎn)的分布情況。
但是,由于IPC的分類原則是將同一技術(shù)主題歸在同一分類位置,使之具有相同的分類號,即側(cè)重于對單一技術(shù)主題進(jìn)行分類,而且IPC將專利要求的技術(shù)主題作為一個(gè)整體來分類,而不是對其各個(gè)組成部分分別進(jìn)行分類,因此分類不徹底,也造成分類不夠細(xì),某個(gè)分類號下存在大量文獻(xiàn)。這樣一來,基于IPC分類號的技術(shù)熱點(diǎn)難免存在偏差,且比較宏觀,難以反映企業(yè)關(guān)注的微觀技術(shù)熱點(diǎn)變化,更難以揭示技術(shù)日新月異的變化和發(fā)展。而利用模式匹配、規(guī)則基礎(chǔ)和自然語言處理技術(shù)直接從專利文本中抽取詞和詞組進(jìn)行統(tǒng)計(jì)或聚類分析,雖然相對比較精確和具體,但也存在著一些相關(guān)陛較高的詞組或短語,因?yàn)槌霈F(xiàn)過于頻繁而容易被軟件分析系統(tǒng)自動(dòng)剔除,造成分析的誤差。因此,如何提高基于專利文獻(xiàn)技術(shù)熱點(diǎn)監(jiān)測的準(zhǔn)確性,如何利用專利引文所承載的技術(shù)關(guān)聯(lián)信息進(jìn)行獲取和關(guān)聯(lián)挖掘,如何對已有的宏觀技術(shù)熱點(diǎn)和微觀技術(shù)熱點(diǎn)監(jiān)測進(jìn)行補(bǔ)充,是本文研究的主要問題。
2 基于專利引證的技術(shù)熱點(diǎn)監(jiān)測方法
2.1 專利引文的技術(shù)情報(bào)價(jià)值
專利對先有技術(shù)(prior art)和科學(xué)論文的引用是科學(xué)和技術(shù)發(fā)展規(guī)律的表現(xiàn),它體現(xiàn)了科學(xué)和技術(shù)的累積性、連續(xù)性和繼承性,也體現(xiàn)了不同學(xué)科、不同研究層次之間的交叉、滲透。大多數(shù)發(fā)明不是“無中生有”的,一般發(fā)明人在進(jìn)行發(fā)明創(chuàng)造活動(dòng)時(shí),會(huì)參考具有相同發(fā)明目的的先有技術(shù)的發(fā)明創(chuàng)造內(nèi)容和發(fā)明人所熟知的先有技術(shù)。另外,專利審查員審查專利文件時(shí)常會(huì)將被審查的專利與主題相近的先有技術(shù)相比較,這兩種方式導(dǎo)致了專利引文的出現(xiàn)。Arehibugi和Pianta指出,專利引文數(shù)據(jù)廣泛地提供了具體技術(shù)領(lǐng)域某一技術(shù)發(fā)明的相關(guān)技術(shù)信息。
1965年,普賴斯創(chuàng)造性地研究了科學(xué)論文之間的施引與被引證關(guān)系,以及由此形成的所謂“引證網(wǎng)絡(luò)”。專利引證網(wǎng)絡(luò)是將文獻(xiàn)計(jì)量引證網(wǎng)絡(luò)的對象從科技論文到專利文獻(xiàn)的直接延伸,通過繪制專利引證關(guān)系圖來考察互相引證的專利的關(guān)聯(lián)程度和技術(shù)相互間的影響,尋找最早被引證的專利文獻(xiàn),洞悉專利的繼承性和發(fā)展歷程。專利與其引證論文或引證專利密切相關(guān),反映了相同或相近的技術(shù)創(chuàng)新,這種相關(guān)性是由技術(shù)本身的傳承和發(fā)展而形成的。據(jù)此,利用各種數(shù)學(xué)以及統(tǒng)計(jì)學(xué)的方法對專利與專利之間的施引和被引現(xiàn)象進(jìn)行比較、歸納、抽象判斷,以探索其數(shù)量特征及內(nèi)在價(jià)值,專利引文分析也具有重要的技術(shù)競爭情報(bào)價(jià)值。
2.2 基于專利引證進(jìn)行技術(shù)熱點(diǎn)監(jiān)測方面的實(shí)踐應(yīng)用
借助專利與專利間的引用與被引用關(guān)系,不僅可以揭示出專利的理論、技術(shù)起源,而且可以對技術(shù)領(lǐng)域中的技術(shù)前沿和技術(shù)熱點(diǎn)進(jìn)行追蹤。Mogee等利用專利同被引(patent co-cltation)對2808條Eli Lilly公司的專利數(shù)據(jù)進(jìn)行聚類分析,識別該公司的核心專利技術(shù)和技術(shù)熱點(diǎn)群組,發(fā)現(xiàn)主要的技術(shù)熱點(diǎn)(teehnolo-gy fronts)。孫濤濤等基于專利耦合關(guān)系,指出同時(shí)引用相同基礎(chǔ)技術(shù)專利簇的另一個(gè)專利簇(base tech-nology)可以構(gòu)成技術(shù)熱點(diǎn)。尹麗春等將文獻(xiàn)計(jì)量學(xué)中的共被引方法應(yīng)用到專利文獻(xiàn)的研究中,對在我國申請的數(shù)字信息傳輸領(lǐng)域中的專利技術(shù)前沿問題進(jìn)行探討。
目前市場上各種專業(yè)的商業(yè)化專利分析軟件(如法國IMCS的Matheo Analyzer、美國湯森路透旗下的Aureka、Innovation和Delphion、中國恒和頓的HIT-恒庫等)幾乎都有繪制引證網(wǎng)絡(luò)圖的功能,利于追溯目標(biāo)技術(shù)的起源和發(fā)展。但是這些軟件工具無法利用專利文獻(xiàn)中的同被引或耦合技術(shù),借助可視化關(guān)系揭示技術(shù)前沿或者技術(shù)熱點(diǎn)。
2.3 基于專利引證的技術(shù)熱點(diǎn)監(jiān)測方法設(shè)計(jì)
研究首先通過基于“關(guān)鍵詞+專利引文”的檢索策略,從專利數(shù)據(jù)庫中檢索、下載研究主題范圍內(nèi)的原始專利數(shù)據(jù),構(gòu)建本地專利專題數(shù)據(jù)庫;其次,按照分析需要對本地原始專利數(shù)據(jù)進(jìn)行拙取,將專利號、題名、發(fā)明人等專利著錄項(xiàng)從專利文獻(xiàn)中抽取出來,完成數(shù)據(jù)預(yù)處理;再次,分別利用專利耦合聚類和具體概念詞聚類,實(shí)現(xiàn)由淺至深、由粗到細(xì)的技術(shù)熱點(diǎn)監(jiān)測。具體實(shí)施流程如圖l所示:
值得注意的是,為了構(gòu)建準(zhǔn)確、有效的專題數(shù)據(jù)集-進(jìn)行分析,專利數(shù)據(jù)檢索至關(guān)重要。在專利數(shù)據(jù)采集的過程中,首先采用關(guān)鍵詞試檢,從試檢結(jié)果中尋找相
應(yīng)表達(dá)的同義或近義詞,擴(kuò)充、調(diào)整檢索策略,力求保證關(guān)鍵詞的全面性與準(zhǔn)確性,構(gòu)建初始專利數(shù)據(jù)集。然后對初始專利數(shù)據(jù)集中的專利進(jìn)行被引頻次排序,遴選25-50個(gè)高被引專利作為種子專利,并請領(lǐng)域?qū)<覍ΨN子專利進(jìn)行判讀。如果專家認(rèn)為研究領(lǐng)域的種子專利不準(zhǔn)確,則需要重新回到第一步,調(diào)整檢索策略進(jìn)行數(shù)據(jù)檢索。
此外,在利用專利耦合進(jìn)行技術(shù)監(jiān)測的過程中,要注意設(shè)定合適的專利耦合閾值,閾值過大或過小都會(huì)影響耦合矩陣的構(gòu)建,從而影響耦合技術(shù)熱點(diǎn)的聚類。同時(shí),那些低于耦合閾值的專利內(nèi)容相對分散,較難形成熱點(diǎn),應(yīng)該予以舍棄。
2.3.1 基于專利引證的技術(shù)領(lǐng)域數(shù)據(jù)集構(gòu)建 利用專利引文和專利引文索引能識別那些用其他方式不能識別的專利之間的關(guān)系,而且這些關(guān)系往往可以使相關(guān)信息的檢索變得迅速。正如Garfield E所言,除了專利引文和專利引文索引,現(xiàn)在尚無一種更加有效的工具可以確定某一專利所透露的技術(shù)是如何被改動(dòng)、完善和利用的。馬海群指出,引用檢索作為傳統(tǒng)專利情報(bào)檢索方式(如分類或主題檢索)的重要補(bǔ)充,可以有效地提高專利檢索的查準(zhǔn)率和查全率。借助專利與專利間的引用與被引用關(guān)系,本文提出“關(guān)鍵詞+專利引文”的技術(shù)領(lǐng)域?qū)@墨I(xiàn)數(shù)據(jù)集構(gòu)建方法,獲得同一批技術(shù)專利技術(shù)起源的所有相關(guān)專利數(shù)據(jù),提升檢索效率、增強(qiáng)資料的搜集性及準(zhǔn)確性,具體步驟如下:①與領(lǐng)域?qū)<矣懻摚_定相關(guān)檢索技術(shù)關(guān)鍵詞,確定檢索式進(jìn)行關(guān)鍵詞檢索;②根據(jù)初檢結(jié)果,構(gòu)建與專題技術(shù)相關(guān)的初始專利數(shù)據(jù)集;③遴選TOP25-TOP50高被引專利作為該技術(shù)領(lǐng)域的種子專利;④檢索引證種子專利的專利(citing patent)及其被引專利(cited patent),構(gòu)建專題技術(shù)數(shù)據(jù)集。
通過上述步驟,構(gòu)建待分析的技術(shù)專題數(shù)據(jù)集,其專利引證關(guān)系如圖2所示:
2.3.2 技術(shù)熱點(diǎn)監(jiān)測方法文獻(xiàn)中的間接關(guān)聯(lián)包括文獻(xiàn)耦合和同被引兩種,都能用來確定研究熱點(diǎn)(re-search fronts)。正如Persson和Morris。所言,耦合論文可以反映“研究熱點(diǎn)”的知識結(jié)構(gòu),同被引論文則提供了一種知識基礎(chǔ)(intellectual base)的知識結(jié)構(gòu)。Glanzel指出論文從發(fā)表到被引用期問有一個(gè)明顯的時(shí)滯,用同被引來映射學(xué)科結(jié)構(gòu)存在時(shí)差,而耦合分析則可以實(shí)時(shí)地反映學(xué)科最新的動(dòng)態(tài)變化。Van denBesselaar P等也指出,耦合測度的是源文獻(xiàn)之間的關(guān)系,同被引測度的是被引文獻(xiàn)之間的關(guān)系。前者是基于有意識的行為,即著者有意地將兩篇文獻(xiàn)聯(lián)系起來,而后者僅是兩篇文獻(xiàn)出現(xiàn)之后的偶然關(guān)聯(lián)。因此,文獻(xiàn)耦合更適于最新研究主題的揭示。
為了在基于IPC分類號的宏觀技術(shù)熱點(diǎn)和基于詞的微觀技術(shù)熱點(diǎn)中找到一個(gè)較好的平衡點(diǎn),本文首先利用專利之間的耦合關(guān)系獲得耦合專利簇,形成中觀層面上的技術(shù)熱點(diǎn)?技術(shù)熱點(diǎn)交由領(lǐng)域?qū)<易R別,為其命名。其次,引入時(shí)間軸的概念,對耦合聚類實(shí)現(xiàn)的技術(shù)熱點(diǎn)發(fā)展趨勢進(jìn)行分析,幫助技術(shù)決策者了解每個(gè)技術(shù)熱點(diǎn)隨時(shí)間的發(fā)展變化情況。再次,利用自然語言處理技術(shù),從技術(shù)熱點(diǎn)的專利文本中抽取詞和詞組進(jìn)行統(tǒng)汁和聚類分析,獲得以概念詞為表征的技術(shù)熱點(diǎn),輔助技術(shù)決策。
3 實(shí)證研究
3.1 數(shù)據(jù)集的構(gòu)建
本文采川基于專利引證的方法構(gòu)建技術(shù)領(lǐng)域?qū)n}數(shù)據(jù)集。研究以DVD領(lǐng)域激光頭技術(shù)為例,經(jīng)與領(lǐng)域?qū)<矣懻?,將optical head、pickup和pick up確定為檢索關(guān)鍵詞,從美國專利商標(biāo)局(USPTO)文摘庫中檢索1995-2004年1O年間的專利數(shù)據(jù),檢索出1934個(gè)專利構(gòu)建DVD激光頭技術(shù)領(lǐng)域初始專利數(shù)據(jù)集。從巾遴選TOP25高被引專利作為該技術(shù)領(lǐng)域的種子專利。從USPT0數(shù)據(jù)庫中檢索出種子專利的729個(gè)施引專利(citing patent),去重后得到515個(gè)。上述515個(gè)專利又引用了3397個(gè)(去重后)被引專利(cited patent)。分別將上述數(shù)據(jù)下載到本地,構(gòu)建專題數(shù)據(jù)庫,作為本次研究的分析對象。
3.2 基于專利耦合的技術(shù)熱點(diǎn)分析
研究首先將515個(gè)專利和3397個(gè)被引專利的專利號(patent number)、題名(title)、授權(quán)日期(issuedate)、專利權(quán)人(assignee)、技術(shù)分類號(IPC)從數(shù)據(jù)集中抽取出來,為后續(xù)分析做準(zhǔn)備。然后將研究的耦合閾值確定為4,對原始數(shù)據(jù)集中的515個(gè)專利進(jìn)行篩選,舍棄專利耦合強(qiáng)度少于4的那部分專利,得到272個(gè)專利作進(jìn)一步的分析。
其次,根據(jù)專利之間的引證關(guān)系,生成專利初始引證矩陣。這是個(gè)典型的二值矩陣,即矩陣中所有的元素取值均為0或者1,如果兩個(gè)專利之間存在著引證關(guān)系,即取值為1;如果兩個(gè)專利之間不存在引證關(guān)系,即取值為0。本例中的研究對象有272個(gè)專利,需要生成272×272的矩陣,由于文章篇幅限制,略去原始的272×272矩陣。專利初始引證矩陣是一個(gè)不對稱矩陣,根據(jù)初始引證矩陣轉(zhuǎn)換成對稱的專利耦合矩陣。
再次,采用層次聚類法對專利單元樣本進(jìn)行聚類分析。聚類的過程是:先將n維專利耦合矩陣轉(zhuǎn)換成n維的相似矩陣,然后根據(jù)一定的聚類算法把分析對象分成類群。在選擇相似性(similarity)測度方法時(shí),本文采用了Dice相關(guān)系數(shù)來對耦合距陣進(jìn)行標(biāo)準(zhǔn)化處理,采用離差平方和法(ward’s method)計(jì)算類間距離。上述步驟用Matlab提供的statistics toolbox工具,選擇層次聚類方法實(shí)現(xiàn),將耦合強(qiáng)度大于4的專利聚成了10個(gè)小類的專利簇,得到10個(gè)技術(shù)熱點(diǎn),并通過領(lǐng)域?qū)<規(guī)椭?,給每個(gè)技術(shù)子主題命名。
最后,繪制各技術(shù)熱點(diǎn)的發(fā)展演變圖,考察技術(shù)熱點(diǎn)在10年間的發(fā)展變化。從DVD激光頭技術(shù)各個(gè)子技術(shù)主題在10年間(1995-2004年)的發(fā)展趨勢來看,大部分子技術(shù)主題在1997-2002年處于上升階段,隨后縮量發(fā)展,從一個(gè)側(cè)面說明激光頭技術(shù)整體而言已經(jīng)相對成熟,自2003年始發(fā)明創(chuàng)新逐漸減少。其中,生命力最為旺盛的是技術(shù)熱點(diǎn)4――光記錄設(shè)備,從1997年至2004年不斷有新技術(shù)發(fā)明問世。DVD激光頭技術(shù)10個(gè)熱點(diǎn)的發(fā)展演變?nèi)鐖D3所示:
3.3 基于詞聚類的技術(shù)熱點(diǎn)分析
為了考察光記錄設(shè)備這一技術(shù)熱點(diǎn)的具體情況,隨后將光記錄設(shè)備的87條專利數(shù)據(jù)導(dǎo)入Patentics專利檢索分析平臺,進(jìn)行概念聚類分析,得到10組概念索引詞,表征光記錄設(shè)備的詳細(xì)技術(shù)熱點(diǎn),見表1。
其中,關(guān)于物鏡的專利占了該技術(shù)熱點(diǎn)的1/4,其次為光度頭和激光束。在這些子技術(shù)熱點(diǎn)中,日立、松下電工、富士施樂、日本電氣等日本企業(yè)在光度頭中表現(xiàn)突出,日立、富士施樂、希捷等企業(yè)在激光束中有較大的技術(shù)優(yōu)勢。
4 研究結(jié)論
基于專利引證的技術(shù)熱點(diǎn)監(jiān)測方法在技術(shù)領(lǐng)域數(shù)據(jù)集的構(gòu)建和熱點(diǎn)監(jiān)測過程中,有針對性地對專利引文所承載的技術(shù)關(guān)聯(lián)信息進(jìn)行獲取和關(guān)聯(lián)挖掘,使得數(shù)據(jù)分析的目標(biāo)更加明確,通過專利耦合尋找微觀技術(shù)熱點(diǎn)群獲得的技術(shù)熱點(diǎn)更為凝練、精確。此外,在凝練的微觀技術(shù)熱點(diǎn)群中利用技術(shù)特征詞匯進(jìn)行聚類監(jiān)測,詞或短語的專指度更高,能有效避免出現(xiàn)詞或短語的高峰區(qū)域內(nèi)個(gè)別專利不屬于此技術(shù)領(lǐng)域的分析誤差現(xiàn)象。因此,無論在理論上還是實(shí)際操作中,基于技術(shù)特征詞匯的技術(shù)熱點(diǎn)監(jiān)測更具有效性和可靠性,是對以往單純基于IPC分類號或基于詞處理技術(shù)獲得技術(shù)熱點(diǎn)的有效補(bǔ)充和參考。
論文關(guān)鍵詞:聚類分系,網(wǎng)絡(luò)營銷,策略,客戶關(guān)系
0前言
現(xiàn)代科學(xué)技術(shù)的迅猛發(fā)展,特別是在互聯(lián)網(wǎng)的應(yīng)用和開發(fā)上更加的迅速,企業(yè)必須通過網(wǎng)絡(luò)對自己的產(chǎn)品加強(qiáng)宣傳以增強(qiáng)自己的競爭力??蛻羰且粋€(gè)非常重要的、有價(jià)值的重要資源,現(xiàn)在如何更好地從數(shù)據(jù)庫中挖掘出客戶中有價(jià)值的信息,更好的培植和經(jīng)營與有價(jià)值客戶的關(guān)系,拋棄那些無利可圖沒有發(fā)展前景而且營銷費(fèi)用高的客戶,并且可以針對不同價(jià)值的客戶給與不同的政策同時(shí)制定出個(gè)性化的營銷策略,這些才能夠保證企業(yè)的生存發(fā)展。對于這一切數(shù)據(jù)挖掘無疑是行之有效的好方法之一。本文以一個(gè)網(wǎng)絡(luò)營銷公司為例,提出了一套可操作性的對客戶價(jià)值評價(jià)方法,然后使用數(shù)據(jù)挖掘技術(shù)中比較常見和常用的聚類分析算法對客戶信息進(jìn)行聚類從而達(dá)到非常重要的信息并為企業(yè)在網(wǎng)絡(luò)營銷中提供決策依據(jù)。
1聚類分析
聚類(clustering)是對于數(shù)據(jù)挖掘技術(shù)是非常重要的一部分,現(xiàn)在也是數(shù)據(jù)挖掘技術(shù)中關(guān)鍵的一種。聚類的意義就是針對物理或邏輯上的數(shù)據(jù)對象的進(jìn)行自動(dòng)分類,最后將數(shù)據(jù)對象分為多個(gè)類或簇的過程。對于聚類結(jié)果要使得數(shù)據(jù)對象在同一個(gè)分類中具有最大的相似度,而在不同的類中具有最小相似度。聚類的現(xiàn)實(shí)意義就是在于可以將數(shù)據(jù)按照一定得關(guān)系進(jìn)行自動(dòng)的分類,事先不知道所有的數(shù)據(jù)對象共有多少類,通過算法的處理最后得到一個(gè)分類結(jié)果進(jìn)行應(yīng)用。譬如在市場研究領(lǐng)域中,特別是針對網(wǎng)絡(luò)營銷的企業(yè)或網(wǎng)站,從大量的網(wǎng)絡(luò)數(shù)據(jù)進(jìn)行分析聚類,可以講客戶分成不同的類別,針對這些類別不同的購買力和興趣愛好來進(jìn)行個(gè)性化的營銷手段,提高企業(yè)的經(jīng)濟(jì)效益。目前研究人員大多針對于聚類分析算法的改進(jìn)和完善進(jìn)行研究,進(jìn)而提高聚類分析的工作效率。著名的算法有:CLARANS,BRICH,DBSCAN,CURE,STING,CLIGUE和WaveCluster等。
2聚類分析應(yīng)用于企業(yè)客戶資源管理
現(xiàn)針對某電子商務(wù)公司進(jìn)行分析,該電子商務(wù)公司的客戶分布在全國各地以及國外一些地區(qū),現(xiàn)僅列出具有代表性的10個(gè)大客戶:吉林,黑龍江,山東,江蘇,浙江,安徽,湖南,緬甸,印度,南非等。在數(shù)據(jù)挖掘的目的就是從客戶中找到一些共同點(diǎn),在對這些客戶數(shù)據(jù)進(jìn)行處理前要使用聚類分析的方法進(jìn)行研究看看這10個(gè)客戶能否有一些共同之處以便企業(yè)針對不同類型的客戶給與不同的對策,首先對該公司采用專家打分的方法,而且還有通過網(wǎng)上問卷調(diào)查和訪談的方式,收集各地銷售專員的意見等方式,然后對數(shù)據(jù)加以綜合,最后聚類分析法確定各項(xiàng)指標(biāo)的權(quán)重。
那么在具體實(shí)施聚類分析法的時(shí)候可分為5個(gè)步驟進(jìn)行:
第1步:首先對各項(xiàng)指數(shù)構(gòu)建層次結(jié)構(gòu),其中被評定的10個(gè)大客戶作為方案層,客戶價(jià)值放在目標(biāo)層中進(jìn)行處理,各項(xiàng)指標(biāo)是準(zhǔn)則層,按照這樣的分層結(jié)構(gòu)來構(gòu)造客戶關(guān)系評價(jià)系統(tǒng)中個(gè)指數(shù)的結(jié)構(gòu)圖,見圖2-1所示;
表2-1指標(biāo)權(quán)重值表
指標(biāo)
V
V
V
V
V
V
V
V
V
權(quán)重
0.0378
0.0401
0.0135
0.0161
0.0251
0.0060
0.0038
0.0091
0.0192
指標(biāo)
V
V
V
V
V
V
V
V
V
權(quán)重
0.0381
0.1498
0.1721
0.0021
0.0201
0.0085
0.0053
0.0231
0.0701
指標(biāo)
E
E
E
E
E
E
E
E
權(quán)重
0.0212
0.0312
0.0754
0.1841
0.0145
0.0510
0.0078
0.0684
從數(shù)據(jù)可以看出有兩種情形:一是緬甸和南非,從數(shù)據(jù)中可看出這類客戶的當(dāng)前價(jià)值很小,但是具有很大的隱含價(jià)值,勢必會(huì)有一天他們的成長給企業(yè)會(huì)帶來豐厚的物質(zhì)利益,這樣具有發(fā)展?jié)撃艿目蛻魬?yīng)該采取措施激發(fā)潛能;二是安徽和印度這類客戶,雖然從數(shù)據(jù)中看出這類客戶當(dāng)前價(jià)值很小,但是就這兩個(gè)省份的地理位置和經(jīng)濟(jì)狀況來分析他們隱含著較大的價(jià)值。對于這一類的客戶,企業(yè)就應(yīng)該采取靈活的措施,激發(fā)他們的購買能力促使該類型的客戶不斷地向前發(fā)展;
第2類是“維持型”客戶,他們會(huì)源源不斷的為企業(yè)提供利潤,如黑龍江和江蘇,他們這類客戶根據(jù)以往的交易記錄分析到得結(jié)果就是目前價(jià)值大,不過沒什么發(fā)展的潛能,或者說在某種情況下它的時(shí)常還會(huì)萎縮,當(dāng)前這類客戶會(huì)給企業(yè)帶肋比較豐厚的利潤但是就長期發(fā)展而言卻不是利潤的主要來源,他們在某種情況下會(huì)流失掉,會(huì)被其他的企業(yè)競爭對手的介入而流失,為此對于企業(yè)一方面要維持與這類客戶的良好關(guān)系,保持穩(wěn)定的客戶關(guān)系,另一方面還要采取一些營銷手段來刺激該類客戶的消費(fèi),提供一些個(gè)性化的服務(wù)和策略;
第3類“淘汰型”客戶,這類用戶就如同雞肋了,對于企業(yè)的現(xiàn)在和將來都意義不大,目前的銷售份額較小,企業(yè)對他們營銷的成本還很高,年利潤率很低,根據(jù)分析這類客戶包括浙江、湖南和吉林,他們沒有長期的發(fā)展的趨勢,所以企業(yè)采取的策略就是應(yīng)充分挖掘他們給企業(yè)帶來的當(dāng)前價(jià)值后逐漸地放棄他們;
第4類是“貴賓型”客戶,這類用戶是企業(yè)的主要經(jīng)濟(jì)利潤的來源,在某種程度上可以說是企業(yè)生存的保證,他對企業(yè)是關(guān)系到生死存亡的重要客戶,從數(shù)據(jù)中看山東就是該企業(yè)的這類貴賓型的客戶,他的當(dāng)前價(jià)值和潛在價(jià)值都很大,企業(yè)必須認(rèn)真對待,細(xì)心呵護(hù)與這類客戶的關(guān)系,以及該客戶企業(yè)的關(guān)鍵性人物的關(guān)系,加強(qiáng)與這類客戶的溝通和關(guān)系的培養(yǎng),同時(shí)還要提高警惕,防止競爭對手搶走這些貴賓型客戶。針對貴賓型客戶企業(yè)就應(yīng)該對其進(jìn)行一對一的營銷策略,進(jìn)行良好的客戶需求溝通,盡最大可能滿足他們的需求,適當(dāng)給與一些特殊政策來加強(qiáng)和他們的關(guān)系。從不同角度來加強(qiáng)客戶對企業(yè)的忠誠度、滿意度等。企業(yè)根據(jù)這些重要的信息就可以針對不同的客戶采取合適的銷售策略。