數(shù)據(jù)庫的數(shù)據(jù)挖掘概述(一)
2019-09-08 23:34:21
供稿:網(wǎng)友
隨著數(shù)據(jù)庫技術(shù)的不斷發(fā)展及數(shù)據(jù)庫管理系統(tǒng)的廣泛應(yīng)用,數(shù)據(jù)庫中存儲的數(shù)據(jù)量急劇增大,在大量的數(shù)據(jù)背后隱藏著許多重要的信息,如果能把這些信息從數(shù)據(jù)庫中抽取出來,將為公司創(chuàng)造很多潛在的利潤,而這種從海量數(shù)據(jù)庫中挖掘信息的技術(shù),就稱之為數(shù)據(jù)挖掘。
數(shù)據(jù)挖掘工具能夠?qū)淼内厔莺托袨檫M行預測,從而很好地支持人們的決策,比如,經(jīng)過對公司整個數(shù)據(jù)庫系統(tǒng)的分析,數(shù)據(jù)挖掘工具可以回答諸如“哪個客戶對我們公司的郵件推銷活動最有可能作出反應(yīng),為什么”等類似的問題。有些數(shù)據(jù)挖掘工具還能夠解決一些很消耗人工時間的傳統(tǒng)問題,因為它們能夠快速地瀏覽整個數(shù)據(jù)庫,找出一些專家們不易察覺的極有用的信息。
下文將對數(shù)據(jù)挖掘的基本技術(shù)作一個簡單的介紹。
數(shù)據(jù)挖掘的基礎(chǔ)
數(shù)據(jù)挖掘技術(shù)是人們長期對數(shù)據(jù)庫技術(shù)進行研究和開發(fā)的結(jié)果。起初各種商業(yè)數(shù)據(jù)是存儲在計算機的數(shù)據(jù)庫中的,然后發(fā)展到可對數(shù)據(jù)庫進行查詢和訪問,進而發(fā)展到對數(shù)據(jù)庫的即時遍歷。數(shù)據(jù)挖掘使數(shù)據(jù)庫技術(shù)進入了一個更高級的階
段,它不僅能對過去的數(shù)據(jù)進行查詢和遍歷,并且能夠找出過去數(shù)據(jù)之間的潛在聯(lián)系,從而促進信息的傳遞。現(xiàn)在數(shù)據(jù)挖掘技術(shù)在商業(yè)應(yīng)用中已經(jīng)可以馬上投入使用,因為對這種技術(shù)進行支持的三種基礎(chǔ)技術(shù)已經(jīng)發(fā)展成熟,他們是:
海量數(shù)據(jù)搜集
強大的多處理器計算機
數(shù)據(jù)挖掘算法
商業(yè)數(shù)據(jù)庫現(xiàn)在正在以一個空前的速度增長,并且數(shù)據(jù)倉庫正在廣泛地應(yīng)用于各種行業(yè);對計算機硬件性能越來越高的要求,也可以用現(xiàn)在已經(jīng)成熟的并行多處理機的技術(shù)來滿足;另外數(shù)據(jù)挖掘算法經(jīng)過了這10多年的發(fā)展也已經(jīng)成為一種成熟,穩(wěn)定,且易于理解和操作的技術(shù)。
從商業(yè)數(shù)據(jù)到商業(yè)信息的進化過程中,每一步前進都是建立在上一步的基礎(chǔ)上的。見下表。表中我們可以看到,第四步進化是革命性的,因為從用戶的角度來看,這一階段的數(shù)據(jù)庫技術(shù)已經(jīng)可以快速地回答商業(yè)上的很多問題了。
進化階段 商業(yè)問題 支持技術(shù) 產(chǎn)品廠家 產(chǎn)品特點 數(shù)據(jù)搜集
(60年代) “過去五年中我的總收入是多少?” 計算機、磁帶和磁盤 IBM, CDC 提供歷史性的、靜態(tài)的數(shù)據(jù)信息 數(shù)據(jù)訪問
(80年代) “在新英格蘭的分部去年三月的銷售額是多少?” 關(guān)系數(shù)據(jù)庫(RDBMS),結(jié)構(gòu)化查詢語言(SQL),ODBC Oracle、Sybase、Informix、IBM、Microsoft 在記錄級提供歷史性的、動態(tài)數(shù)據(jù)信息 數(shù)據(jù)倉庫;決策支持
(90年代) “在新英格蘭的分部去年三月的銷售額是多少?波士頓據(jù)此可得出什么結(jié)論?” 聯(lián)機分析處理(OLAP)、多維數(shù)據(jù)庫、數(shù)據(jù)倉庫 Pilot、Comshare、Arbor、Cognos、Microstrategy 在各種層次上提供回溯的、動態(tài)的數(shù)據(jù)信息 數(shù)據(jù)挖掘
(正在流行) “下個月波士頓的銷售會怎么樣?為什么?” 高級算法、多處理器計算機、海量數(shù)據(jù)庫 Pilot、
Lockheed、IBM、SGI、其他初創(chuàng)公司 提供預測性的信息
表一、數(shù)據(jù)挖掘的進化歷程。
數(shù)據(jù)挖掘的核心模塊技術(shù)歷經(jīng)了數(shù)十年的發(fā)展,其中包括數(shù)理統(tǒng)計、人工智能、機器學習。今天,這些成熟的技術(shù),加上高性能的關(guān)系數(shù)據(jù)庫引擎以及廣泛的數(shù)據(jù)集成,讓數(shù)據(jù)挖掘技術(shù)在當前的數(shù)據(jù)倉庫環(huán)境中進入了實用的階段。
數(shù)據(jù)挖掘的范圍
“數(shù)據(jù)挖掘”這個名字來源于它有點類似于在山脈中挖掘有價值的礦藏。在商業(yè)應(yīng)用里,它就表現(xiàn)為在大型數(shù)據(jù)庫里面搜索有價值的商業(yè)信息。這兩種過程都需要對巨量的材料進行詳細地過濾,并且需要智能且精確地定位潛在價值的所
在。對于給定了大小的數(shù)據(jù)庫,數(shù)據(jù)挖掘技術(shù)可以用它如下的超能力產(chǎn)生巨大的商業(yè)機會:
自動趨勢預測。數(shù)據(jù)挖掘能自動在大型數(shù)據(jù)庫里面找尋潛在的預測信息。傳統(tǒng)上需要很多專家來進行分析的問題,現(xiàn)在可以快速而直接地從數(shù)據(jù)中間找到答案。一個典型的利用數(shù)據(jù)挖掘進行預測的例子就是目標營銷。數(shù)據(jù)挖掘工具可以根據(jù)過去郵件推銷中的大量數(shù)據(jù)找出其中最有可能對將來的郵件推銷作出反應(yīng)的客戶。
自動探測以前未發(fā)現(xiàn)的模式。數(shù)據(jù)挖掘工具掃描整個數(shù)據(jù)庫并辨認出那些隱藏著的模式,比如通過分析零售數(shù)據(jù)來辨別出表面上看起來沒聯(lián)系的產(chǎn)品,實際上有很多情況下是一起被售出的情況。
數(shù)據(jù)挖掘技術(shù)可以讓現(xiàn)有的軟件和硬件更加自動化,并且可以在升級的或者新開發(fā)的平臺上執(zhí)行。當數(shù)據(jù)挖掘工具運行于高性能的并行處理系統(tǒng)上的時候,它能在數(shù)分鐘內(nèi)分析一個超大型的數(shù)據(jù)庫。這種更快的處理速度意味著用戶有更多的機會來分析數(shù)據(jù),讓分析的結(jié)果更加準確可靠,并且易于理解。
數(shù)據(jù)庫可以由此拓展深度和廣度
深度上,允許有更多的列存在。以往,在進行較復雜的數(shù)據(jù)分析時,專家們限于時間因素,不得不對參加運算的變量數(shù)量加以限制,但是那些被丟棄而沒有參加運算的變量有可能包含著另一些不為人知的有用信息。現(xiàn)在,高性能的數(shù)據(jù)挖掘工具讓用戶對數(shù)據(jù)庫能進行通盤的深度編歷,并且任何可能參選的變量都被考慮進去,再不需要選擇變量的子集來進行運算了。
廣度上,允許有更多的行存在。更大的樣本讓產(chǎn)生錯誤和變化的概率降低,這樣用戶就能更加精確地推導出一些雖小但頗為重要的結(jié)論。
最近,Gartner Group的一次高級技術(shù)調(diào)查將數(shù)據(jù)挖掘和人工智能列為“未來三到五年內(nèi)將對工業(yè)產(chǎn)生深遠影響的五大關(guān)鍵技術(shù)”之首,并且還將并行處理體系和數(shù)據(jù)挖掘列為未來五年內(nèi)投資焦點的十大新興技術(shù)前兩位。根據(jù)最近Gartner的HPC研究表明,“隨著數(shù)據(jù)捕獲、傳輸和存儲技術(shù)的快速發(fā)展,大型系統(tǒng)用戶將更多地需要采用新技術(shù)來挖掘市場以外的價值,采用更為廣闊的并行處理系統(tǒng)來創(chuàng)建新的商業(yè)增長點。”
在數(shù)據(jù)挖掘中最常用的技術(shù)有:
人工神經(jīng)網(wǎng)絡(luò):仿照生理神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)的非線形預測模型,通過學習進行模式識別。
決策樹:代表著決策集的樹形結(jié)構(gòu)。
遺傳算法:基于進化理論,并采用遺傳結(jié)合、遺傳變異、以及自然選擇等設(shè)計方法的優(yōu)化技術(shù)。
近鄰算法:將數(shù)據(jù)集合中每一個記錄進行分類的方法。
規(guī)則推導:從統(tǒng)計意義上對數(shù)據(jù)中的“如果-那么”規(guī)則進行尋找和推導。
采用上述技術(shù)的某些專門的分析工具已經(jīng)發(fā)展了大約十年的歷史,不過這些工具所面對的數(shù)據(jù)量通常較小。而現(xiàn)在這些技術(shù)已經(jīng)被直接集成到許多大型的工業(yè)標準的數(shù)據(jù)倉庫和聯(lián)機分析系統(tǒng)中去了。
猜你喜歡的關(guān)注
- u盤無法識別怎么辦,小編告訴你U盤無法識別
- usb無線網(wǎng)卡怎么用,小編告訴你安裝教程
- usb調(diào)試在哪,小編告訴你usb調(diào)試在哪
- 優(yōu)盤不顯示,小編告訴你優(yōu)盤不顯示怎么辦
- 低級格式化,小編告訴你硬盤怎么低級格式化
- 分區(qū)表丟失,小編告訴你分區(qū)表丟失如何修復
- 進入bios,小編告訴你戴爾筆記本進入bios設(shè)
- 怎么刷bios,小編告訴你華碩怎么刷bios
- 讀卡器怎么用,小編告訴你如何使用讀卡器
- bios升級,小編告訴你華碩主板bios怎么升級