數(shù)據挖掘技術與工程實踐是深入學習數(shù)據挖掘技術并進行工程實踐的必讀之作,由資深數(shù)據挖掘技術專家莊映輝和李堃編著。本書內容的跨度較大,涵蓋的內容比較廣泛,既有對數(shù)據挖掘概念的探討,也有對數(shù)據挖掘技術和原理的介紹,還有對數(shù)據挖掘應用實踐的體會和總結。其中包括數(shù)據挖掘定制化項目案例,也涵蓋了數(shù)據挖掘應用系統(tǒng)的開發(fā)及詳細技術介紹,還有通過數(shù)據挖掘通用工具開展的應用案例展示。從技術上,涉及數(shù)據挖掘、數(shù)理統(tǒng)計、數(shù)據庫技術,以及更廣泛的各種IT技術,歡迎免費下載閱讀。
內容介紹
數(shù)據挖掘是當前最活躍的領域之一?!稊?shù)據挖掘技術與工程實踐》作者根據自己20年數(shù)據挖掘方面的經驗,總結了數(shù)據挖掘的理論知識和實踐經驗,提供了大量一線資料。本書首先介紹數(shù)據挖掘的概念和誤區(qū),然后介紹數(shù)據探索的方法,包括數(shù)據查探、數(shù)據描繪、數(shù)據變換、數(shù)據優(yōu)化等,重點介紹了相關算法,包括:相關因子算法、聚類算法、分類算法、回歸與測試算法等。不僅列舉了詳細示例,還介紹了算法在工程實踐中的具體應用,特別是總結了自己獨特的一些新算法,例如秩相關因子選擇算法、矢量相關因子選擇算法、密度分布聚類算法、概率特征模型算法等。還剖析了幾個熱門領域的實際應用,涉及醫(yī)藥學、信息安全、新聞分析、商品推薦、證券預測等領域的應用。最后歸納總結了數(shù)據挖掘應用系統(tǒng)的開發(fā)方案,并介紹一個數(shù)據挖掘工具的應用。
《數(shù)據挖掘技術與工程實踐》可供數(shù)據挖掘、數(shù)據倉庫、數(shù)據庫等領域的技術人員參考,也可供想建立智能計算系統(tǒng)的企業(yè)信息系統(tǒng)管理人員參考。
數(shù)據挖掘技術與工程實踐章節(jié)目錄
第1章 數(shù)據挖掘應用緒論1
1.1 認識數(shù)據挖掘1
1.1.1 數(shù)據挖掘概念2
1.1.2 數(shù)據挖掘與生活4
1.1.3 數(shù)據挖掘與知識6
1.2 數(shù)據挖掘應用基礎6
1.2.1 事物與維度7
1.2.2 分布與關系9
1.2.3 描繪與預測11
1.2.4 現(xiàn)象和知識13
1.2.5 規(guī)律與因果13
1.3 數(shù)據挖掘應用系統(tǒng)工程14
1.3.1 數(shù)據層14
1.3.2 算法層18
1.3.3 應用層23
1.4 數(shù)據挖掘應用體會26
1.4.1 項目關鍵點26
1.4.2 技術與應用創(chuàng)新27
1.4.3 經驗積累與應用28
1.5 無限三維嵌套空間假說28
1.5.1 一維空間29
1.5.2 二維空間29
1.5.3 三維空間29
1.5.4 突破三維空間30
1.5.5 五維空間31
1.5.6 六維空間31
1.6 本章小結32
第2章 數(shù)據探索與準備33
2.1 數(shù)據關系探索34
2.1.1 業(yè)務發(fā)現(xiàn)34
2.1.2 關系發(fā)現(xiàn)36
2.1.3 數(shù)據質量探索37
2.1.4 數(shù)據整合40
2.2 數(shù)據特征探索42
2.2.1 數(shù)據的統(tǒng)計學特征42
2.2.2 統(tǒng)計學特征應用48
2.3 數(shù)據選擇52
2.3.1 適當?shù)臄?shù)據規(guī)模52
2.3.2 數(shù)據的代表性53
2.3.3 數(shù)據的選取54
2.4 數(shù)據處理56
2.4.1 數(shù)據標準化57
2.4.2 數(shù)據離散化58
2.5 統(tǒng)計學算法的數(shù)量條件60
2.5.1 樣本量估計概念60
2.5.2 單樣本總體均值比較的樣本量估計(T-Test)61
2.5.3 兩樣本總體均值比較的樣本量估計(T-Test)62
2.5.4 多樣本總體均值比較的樣本量估計(F-Test)63
2.5.5 區(qū)組設計多樣本總體均值比較的樣本量估計(F-Test)66
2.5.6 直線回歸與相關的樣本量估計66
2.5.7 對照分析的樣本量估計67
2.6 數(shù)據探索應用68
2.6.1 檢驗項的疾病分布69
2.6.2 疾病中檢驗項的分布70
2.6.3 成對檢驗項的相關分析71
2.6.4 兩種藥物的應用分析71
2.7 本章小結73
第3章 數(shù)據挖掘應用算法74
3.1 聚類分析74
3.1.1 劃分聚類算法(K均值)75
3.1.2 層次聚類算法(組平均)79
3.1.3 密度聚類算法84
3.2 特性選擇85
3.2.1 特性選擇概念85
3.2.2 線性相關算法90
3.2.3 相關因子SRCF算法91
3.3 特征抽取100
3.3.1 主成分分析算法101
3.3.2 因子分析算法102
3.3.3 非負矩陣因子分解NMF算法103
3.4 關聯(lián)規(guī)則104
3.4.1 關聯(lián)規(guī)則概念105
3.4.2 Apriori算法105
3.4.3 FP樹頻集算法106
3.4.4 提升Lift107
3.5 分類和預測107
3.5.1 支持向量機107
3.5.2 Logistic回歸算法112
3.5.3 樸素貝葉斯分類算法115
3.5.4 決策樹121
3.5.5 人工神經網絡125
3.5.6 分類與聚類的關系129
3.6 時間序列129
3.6.1 灰色系統(tǒng)預測模型129
3.6.2 ARIMA模型預測135
3.7 本章小結136
第4章 數(shù)據挖掘應用案例137
4.1 特性選擇的應用137
4.1.1 數(shù)據整合137
4.1.2 數(shù)據描繪138
4.1.3 數(shù)據標準化139
4.1.4 特性選擇探索139
4.2 分類模型的應用——算法比較144
4.2.1 數(shù)據整合144
4.2.2 數(shù)據描繪145
4.2.3 數(shù)據標準化148
4.2.4 特性選擇探索148
4.2.5 分類模型150
4.3 分類模型的應用——網絡異常偵測151
4.3.1 計算機網絡異常行為152
4.3.2 網絡異常數(shù)據模型152
4.3.3 分類模型算法應用156
4.4 算法的綜合應用——腫瘤標志物的研究159
4.4.1 樣本選取160
4.4.2 癌胚抗原臨床特征主題分析164
4.4.3 癌胚抗原臨床特征規(guī)則分析167
4.4.4 癌胚抗原臨床特征規(guī)則的比較分析172
4.4.5 癌胚抗原相關因子分析173
4.4.6 不同等級癌胚抗原組差異分析176
4.5 數(shù)據挖掘在其他領域中的應用180
4.6 本章小結182
第5章 數(shù)據挖掘行業(yè)應用原理183
5.1 傳統(tǒng)醫(yī)學科研方法的現(xiàn)狀184
5.1.1 傳統(tǒng)醫(yī)學科研的命題與假說184
5.1.2 傳統(tǒng)醫(yī)學科研的數(shù)據應用185
5.1.3 傳統(tǒng)的醫(yī)學科研的統(tǒng)計學應用186
5.1.4 傳統(tǒng)醫(yī)學科研的流程186
5.2 智能醫(yī)學科研系統(tǒng)的需求187
5.2.1 臨床醫(yī)學科研的問題187
5.2.2 臨床醫(yī)學科研的解決思路188
5.3 智能醫(yī)學科研系統(tǒng)的設計思想190
5.3.1 科研立題190
5.3.2 科研設計與統(tǒng)計分析191
5.3.3 樣本數(shù)據收集與分析192
5.4 智能醫(yī)學科研系統(tǒng)的核心技術方法193
5.5 智能醫(yī)學科研系統(tǒng)的科研數(shù)據倉庫建設194
5.5.1 醫(yī)學科研數(shù)據倉庫建設的技術方法194
5.5.2 醫(yī)學科研數(shù)據倉庫的建設過程196
5.5.3 科研數(shù)據倉庫的數(shù)據安全198
5.6 智能醫(yī)學科研系統(tǒng)的核心功能設計198
5.7 智能醫(yī)學科研系統(tǒng)的整體功能設計199
5.7.1 智能醫(yī)學科研系統(tǒng)主要功能200
5.7.2 智能醫(yī)學科研系統(tǒng)的模塊設計和應用實現(xiàn)202
5.7.3 智能醫(yī)學科研系統(tǒng)的評估方法211
5.8 智能醫(yī)學科研系統(tǒng)的應用價值215
5.9 本章小結218
第6章 數(shù)據挖掘應用系統(tǒng)的開發(fā)219
6.1 數(shù)據挖掘應用系統(tǒng)的意義219
6.2 IMRS系統(tǒng)設計221
6.2.1 對數(shù)據源的分析221
6.2.2 數(shù)據挖掘應用系統(tǒng)IMRS的總體設計224
6.3 IMRS異常偵測模型的開發(fā)232
6.3.1 異常偵測模型的功能展示232
6.3.2 數(shù)據挖掘技術開發(fā)要點236
6.4 IMRS特征抽取模型的開發(fā)242
6.4.1 特征抽取模型的功能展示242
6.4.2 數(shù)據挖掘技術開發(fā)要點243
6.5 IMRS智能統(tǒng)計模型的開發(fā)255
6.5.1 回歸模型的開發(fā)實現(xiàn)255
6.5.2 線性相關模型的開發(fā)實現(xiàn)267
6.6 IMRS的算法開發(fā)271
6.6.1 相關因子算法SRCF的實現(xiàn)271
6.6.2 樸素貝葉斯分類算法的實現(xiàn)275
6.7 本章小結280
第7章 數(shù)據挖掘應用系統(tǒng)的應用281
7.1 分布探索282
7.1.1 兩維度聚類模型應用282
7.1.2 高維度聚類模型應用287
7.2 關系探索289
7.2.1 關聯(lián)規(guī)則的應用289
7.2.2 特性選擇的應用292
7.3 特征探索297
7.3.1 不穩(wěn)定心絞痛的特征總結297
7.3.2 動脈硬化心臟病的臨床特征302
7.4 異常探索305
7.4.1 生理指標的異常偵測305
7.4.2 異常偵測模型的比較307
7.5 推測探索308
7.6 應用系統(tǒng)的高級應用310
7.6.1 異常偵測的高級用法310
7.6.2 關聯(lián)規(guī)則的高級應用315
7.7 本章小結320
第8章 數(shù)據挖掘工具的應用321
8.1 應用Oracle Data Mining321
8.1.1 ODM數(shù)據挖掘流程322
8.1.2 ODM算法模型323
8.1.3 ODM算法應用327
8.2 應用IBM SPSS Modeler351
8.2.1 IBM SPSS Modeler介紹351
8.2.2 SPSS Modeler獨立應用352
8.2.3 SPSS Modeler與應用系統(tǒng)的聯(lián)合應用359 8.3 本章小結367
使用說明
1、下載并解壓,得出pdf文件
2、如果打不開本文件,請務必下載pdf閱讀器
3、安裝后,在打開解壓得出的pdf文件
4、雙擊進行閱讀
- 下載地址
發(fā)表評論
0條評論軟件排行榜
熱門推薦
得間免費小說電腦版 v5.4.0.296.93M / 簡體中文
開源閱讀電腦版 v3.25.05101211.55M / 簡體中文
有柿電腦版 v11.9.2126.58M / 簡體中文
瀟湘書院電腦版 v2.3.15.88849.57M / 簡體中文
南方Plus電腦版 v12.4.024.3M / 簡體中文
網易新聞電腦版 v113.987.37M / 簡體中文
網易云閱讀電腦版 v6.7.226.41M / 簡體中文
數(shù)據挖掘導論 官方版61.61M / 簡體中文
本草綱目 5.34M / 簡體中文
C++黑客編程揭秘與防范第2版 冀云pdf掃描版54.58M / 簡體中文