隨著Internet上文檔信息的迅猛發(fā)展,文本挖掘成為處理和組織大量文檔數(shù)據(jù)的關(guān)鍵技術(shù)。存儲信息使用較多的是文本,所以文本挖掘被認為比數(shù)據(jù)挖掘具有較高的商業(yè)潛力. 當數(shù)據(jù)挖掘的對象完全由文本這種數(shù)據(jù)類型組成時,這個過程就稱為文本數(shù)據(jù)挖掘. 事實上,較近研究表明公司信息有80 %包含在文本文檔中。 數(shù)據(jù)挖掘(Data Mining),就是從存放在數(shù)據(jù)庫,數(shù)據(jù)倉庫或其他信息庫中的大量的數(shù)據(jù)中獲取有效的、新穎的、潛在有用的、較終可理解的模式的非平凡過程。數(shù)據(jù)挖掘,在人工智能領(lǐng)域,習(xí)慣上又稱為數(shù)據(jù)庫中知識發(fā)現(xiàn),也有人把數(shù)據(jù)挖掘視為數(shù)據(jù)庫中知識發(fā)現(xiàn)過程的一個基本步驟。知識發(fā)現(xiàn)過程以下三個階段組成:(1) 數(shù)據(jù)準備,(2)數(shù)據(jù)挖掘,(3) 結(jié)果表達和解釋。數(shù)據(jù)挖掘可以與用戶或知識庫交互。 文本挖掘不但要處理大量的結(jié)構(gòu)化和非結(jié)構(gòu)化的文檔數(shù)據(jù),而且還要處理其中復(fù)雜的語義關(guān)系,因此,現(xiàn)有的數(shù)據(jù)挖掘技術(shù)無法直接應(yīng)用于其上。對于非結(jié)構(gòu)化問題,一條途徑是發(fā)展全新的數(shù)據(jù)挖掘算法直接對非結(jié)構(gòu)化數(shù)據(jù)進行挖掘,對于數(shù)據(jù)非常復(fù)雜,導(dǎo)致這種算法的復(fù)雜性很高;另一條途徑就是將非結(jié)構(gòu)化問題結(jié)構(gòu)化,利用現(xiàn)有的數(shù)據(jù)挖掘技術(shù)進行挖掘,目前的文本挖掘一般采用該途徑進行。對于語義關(guān)系,則需要集成計算語言學(xué)和自然語言處理等成果進行分析。 在對文檔進行特征提取前, 需要**行文本信息的預(yù)處理, 對英文而言需進行Stemming 處理, 中文的情況則不同, 因為中文詞與詞之間沒有固有的間隔符( 空格) , 需要進行分詞處理。 NLPIR分詞系統(tǒng)是經(jīng)過多年研究工作積累,主要功能包括中文分詞;英文分詞;詞性標注;命名實體識別;新詞識別;關(guān)鍵詞提取;支持用戶專業(yè)詞典與微博分析。NLPIR系統(tǒng)支持多種編碼(GBK編碼、UTF8編碼、BIG5編碼)、多種操作系統(tǒng)、多種開發(fā)語言與平臺。 NLPIR/ICTCLAS2018分詞系統(tǒng)主要功能介紹 1)中英文混合分詞功能 自動對中文英文信息進行分詞與詞性標注功能,涵蓋了中文分詞、英文分詞、詞性標注、未登錄詞識別與用戶詞典等功能。 2)關(guān)鍵詞提取功能 采用交叉信息熵的算法自動計算關(guān)鍵詞,包括新詞與已知詞, 3)新詞識別與自適應(yīng)分詞功能 從較長的文本內(nèi)容中,基于信息交叉熵自動發(fā)現(xiàn)新特征語言,并自適應(yīng)測試語料的語言概率分布模型,實現(xiàn)自適應(yīng)分詞。 4)用戶專業(yè)詞典功能 可以單條導(dǎo)入用戶詞典,也可以批量導(dǎo)入用戶詞典。如可以定“舉報信 敏感點”,其中舉報信是用戶詞,敏感點是用戶自定義的詞性標記。 NLPIR/ICTCLAS2018分詞系統(tǒng)是對漢語語言進行拆分處理,是中文信息處理*的**部件。采用條件隨機場(Conditional Random Field,簡稱CRF)模型,分詞準確率接近99%,具備準確率高、速度快、可適應(yīng)性強等優(yōu)勢;特色功能包括:切分粒度可調(diào)整,融合20余部行業(yè)專有詞典,支持用戶自定義詞典等,具備準確率高、速度快、可適應(yīng)性強等優(yōu)勢。
詞條
詞條說明
靈玖軟件榮獲“中國大數(shù)據(jù)較佳行業(yè)實踐案例”
近期,**數(shù)據(jù)官聯(lián)盟舉行了“**屆大數(shù)據(jù)優(yōu)秀案例評選”的活動,得到了**部門、傳統(tǒng)企業(yè)及大數(shù)據(jù)企業(yè)的一致認可。本次評選活動經(jīng)過兩個多月的收集和匯總,針對來自174家大數(shù)據(jù)企業(yè)提交的200多份大數(shù)據(jù)實施案例進行了評選。經(jīng)聯(lián)盟*組按技術(shù)、創(chuàng)新和項目貢獻三個維度,評出23個垂直行業(yè)的優(yōu)秀案例,以及13個技術(shù)領(lǐng)域的技術(shù)創(chuàng)新獎。靈玖軟件以“國家某單位敏感信息精準搜索與實時智能掃描引擎”案例被評為“中國大
大數(shù)據(jù)九眼智能技術(shù)網(wǎng)絡(luò)信息治理新方向
當下,**信息技術(shù)創(chuàng)新日新月異,以數(shù)字化、網(wǎng)絡(luò)化、智能化為特征的信息化浪潮蓬勃興起。沒有信息化就沒有現(xiàn)代化。截至2017年6月,我國網(wǎng)民規(guī)模已達到7.51億,伴隨著移動互聯(lián)網(wǎng)的普及程度不斷提高,上網(wǎng)人數(shù)和上網(wǎng)便捷程度不斷增加,我國互聯(lián)網(wǎng)上每日產(chǎn)生的違法有害信息數(shù)量隨之變得十分巨大,發(fā)現(xiàn)和處理這些違法有害信息的難度也隨之增加。如何控制網(wǎng)絡(luò)有害信息泛濫蔓延,實施精確打擊,規(guī)范凈化網(wǎng)絡(luò)空間,較大限度降
大數(shù)據(jù)時代 九眼智能編織網(wǎng)絡(luò)管理安全網(wǎng)
近年來,隨著移動互聯(lián)網(wǎng)和自媒體的興起與發(fā)展,互聯(lián)網(wǎng)空間日益豐富、熱鬧,人人享有“麥克風”的時代逐漸成為現(xiàn)實,網(wǎng)絡(luò)空間一度成為眾聲喧嘩之地。然而,在拓展人們生活空間的同時,互聯(lián)網(wǎng)中的不實信息、不良行為等“負能量”和“噪音”也開始滋生傳播,不僅侵害個人隱私和財產(chǎn)安全,也威脅著從虛擬空間到現(xiàn)實空間的秩序。 信息網(wǎng)絡(luò)以激濁揚清為**要義。網(wǎng)絡(luò)化生活已成為人們的基本生活形態(tài),對于廣大群眾來說,信息網(wǎng)絡(luò)絕不
JZSearch大數(shù)據(jù)搜索引擎智能語義搜索平臺
大數(shù)據(jù)是一個包括一切的術(shù)語,指的是數(shù)據(jù)集很大很復(fù)雜,他們需要特別設(shè)計的硬件和軟件工具。數(shù)據(jù)集通常是 T 或者較大級別。這些數(shù)據(jù)集從各種各樣的來源創(chuàng)建,包括傳感器,收集氣象信息,公開可用的信息,如雜志、報紙、文章。還包括購買交易記錄、網(wǎng)絡(luò)日志、醫(yī)療記錄、軍事偵察、視頻和圖像檔案和大規(guī)模的電子商務(wù)等等。 JZSearch大數(shù)據(jù)搜索引擎是靈玖軟件聯(lián)合中科院與北理工的信息檢索*,針對大數(shù)據(jù)搜索業(yè)務(wù)需求
公司名: 靈玖中科軟件(北京)有限公司
聯(lián)系人: 張寶
電 話: 010-62648216
手 機: 13681251543
微 信: 13681251543
地 址: 北京海淀北京市海淀區(qū)蘇州街49-3號盈智大廈5層
郵 編:
網(wǎng) 址: ljrj123.cn.b2b168.com
公司名: 靈玖中科軟件(北京)有限公司
聯(lián)系人: 張寶
手 機: 13681251543
電 話: 010-62648216
地 址: 北京海淀北京市海淀區(qū)蘇州街49-3號盈智大廈5層
郵 編:
網(wǎng) 址: ljrj123.cn.b2b168.com