您好,歡迎來到易龍商務(wù)網(wǎng)!
發(fā)布時間:2019-03-21 10:50  
【廣告】
數(shù)據(jù)挖掘(或知識發(fā)現(xiàn))就是從大量的數(shù)據(jù)中抽 取以前未知并具有潛在可用的模式。然而數(shù)據(jù)挖掘領(lǐng)域還缺之獨立性,數(shù)據(jù)挖掘是人工智能(AI)技術(shù)與數(shù)據(jù)庫技術(shù)的結(jié)合。它的核心概念是AI領(lǐng)域中的機器學(xué)習(xí)。數(shù)據(jù)挖掘系統(tǒng)所采用的主要算法是 AI中知識發(fā)現(xiàn)技術(shù)的應(yīng)用。 目前數(shù)據(jù)挖掘研究和開發(fā)表明數(shù)據(jù)挖掘需 要覆蓋各種各樣不同的應(yīng)用任務(wù),從數(shù)據(jù)的預(yù)處理到關(guān)聯(lián)規(guī)則、聚類分析、數(shù)據(jù)分類、偏差檢查、序列模式等等特定的模式。因此,這一技術(shù)應(yīng)用是一個極富挑戰(zhàn)性的任務(wù)。
近年來出現(xiàn)的數(shù)據(jù)挖掘技術(shù)之所以被目前認(rèn)為具有令人興奮的研究前景,是因為它能夠獲得廣泛的應(yīng)用。如用于支持企業(yè)關(guān)鍵性決策,市場策略的制定等等。面對洶涌而來的大量數(shù)據(jù),企業(yè)對數(shù)據(jù)挖掘應(yīng)用形成極大的需求,將使這一技術(shù)迅速得到發(fā)展和完善。在大型商業(yè)、金融業(yè)、保險業(yè)、民航等 大型企業(yè)都開始得到應(yīng)用。
數(shù)據(jù)挖掘技術(shù)從一開始就是面向應(yīng)用領(lǐng)域,它不僅是面向特定數(shù)據(jù)庫的簡單檢索查詢調(diào)用,而且,要對數(shù)據(jù)進行微觀、中觀乃至宏觀的統(tǒng)計、分析、綜合和推理,以指定實際問題的求解,企圖發(fā)現(xiàn)事件間的相互關(guān)聯(lián),甚至利用已有的數(shù)據(jù)對未來的活動進行預(yù)測.數(shù)據(jù)挖掘技術(shù)具有以下特點:
1.?處理的數(shù)據(jù)規(guī)模十分龐大,達到GB、TB數(shù)量級,甚至更大。
2.?查詢一般是決策制定者(用戶)提出的即時隨機查詢,往往不能形成精確的查詢要求,需要靠系統(tǒng)本身尋找其可能感興趣的東西。
3.?在一些應(yīng)用(如商業(yè)投資等)中,由于數(shù)據(jù)變化迅速,因此要求數(shù)據(jù)挖掘能快速做出相應(yīng)反應(yīng)以隨時提供決策支持。
4.?數(shù)據(jù)挖掘中,規(guī)則的發(fā)現(xiàn)基于統(tǒng)計規(guī)律.因此,所發(fā)現(xiàn)的規(guī)則不必適用于所有數(shù)據(jù),而是當(dāng)達到某一臨界值時,即認(rèn)為有效.因此,利用數(shù)據(jù)挖掘技術(shù)可能會發(fā)現(xiàn)大量的規(guī)則。
5.?數(shù)據(jù)挖掘所發(fā)現(xiàn)的規(guī)則是動態(tài)的,它只反映了當(dāng)前狀態(tài)的數(shù)據(jù)庫具有的規(guī)則,隨著不斷地向數(shù)據(jù)庫中加入新數(shù)據(jù),需要隨時對其進行更新。
北京理工大學(xué)大數(shù)據(jù)搜索與挖掘?qū)嶒炇覐埲A平主任研發(fā)的NLPIR大數(shù)據(jù)語義智能分析技術(shù)是滿足大數(shù)據(jù)挖掘?qū)φZ法、詞法和語義的綜合應(yīng)用。NLPIR大數(shù)據(jù)語義智能分析平臺是根據(jù)中文數(shù)據(jù)挖掘的綜合需求,融合了網(wǎng)絡(luò)精準(zhǔn)采集、自然語言理解、文本挖掘和語義搜索的研究成果,并針對互聯(lián)網(wǎng)內(nèi)容處理的全技術(shù)鏈條的共享開發(fā)平臺。
NLPIR大數(shù)據(jù)語義智能分析平臺主要有精準(zhǔn)采集、文檔轉(zhuǎn)化、新詞發(fā)現(xiàn)、批量分詞、語言統(tǒng)計、文本聚類、文本分類、摘要實體、智能過濾、情感分析、文檔去重、全文檢索、編碼轉(zhuǎn)換等十余項功能模塊,平臺提供了客戶端工具,云服務(wù)與二次開發(fā)接口等多種產(chǎn)品使用形式。各個中間件API可以無縫地融合到客戶的各類復(fù)雜應(yīng)用系統(tǒng)之中,可兼容Windows,Linux, Android,Maemo5, FreeBSD等不同操作系統(tǒng)平臺,可以供Java,Python,C,C#等各類開發(fā)語言使用。
數(shù)據(jù)挖掘技術(shù)本身就是當(dāng)前數(shù)據(jù)技術(shù)發(fā)展的新領(lǐng)域,文本挖掘則發(fā)展歷史更短。傳統(tǒng)的信息檢索技術(shù)對于海量數(shù)據(jù)的處理并不盡如人意,文本挖掘便日益重要起來,可見文本挖掘技術(shù)是從信息抽取以及相關(guān)技術(shù)領(lǐng)域中慢慢演化而成的。在信息管理領(lǐng)域,綜合應(yīng)用數(shù)據(jù)挖掘技術(shù)和人工智能技術(shù),獲取用戶知識、文獻知識等各類知識,將是實現(xiàn)知識檢索和知識管理發(fā)展的必經(jīng)之路。