隨著互聯(lián)網(wǎng)技術(shù)的快速發(fā)展和普及,人們可以在網(wǎng)絡(luò)上獲得各種信息,怎樣防止青少年接觸到不健康內(nèi)容是一個(gè)嚴(yán)肅的社會(huì)問(wèn)題。要防止不健康、無(wú)用內(nèi)容的蔓延,除了從法律角度采取措施外,從技術(shù)角度考慮的網(wǎng)絡(luò)過(guò)濾技術(shù)是一種有效的手段。 目前網(wǎng)絡(luò)的信息過(guò)濾技術(shù)主要有三種,它們是基于URL過(guò)濾方式、基于文本的過(guò)濾方式和基于圖像內(nèi)容的過(guò)濾方式。這幾種過(guò)濾技術(shù)各有優(yōu)劣,有的實(shí)現(xiàn)比較簡(jiǎn)單,有的具有較廣泛的適應(yīng)性,有的效率高實(shí)時(shí)性較強(qiáng)。單一采用某一技術(shù)的準(zhǔn)確性不高,而考慮到圖片和圖片附近的文字一般具有相同的類(lèi)別,它們有相互補(bǔ)充說(shuō)明的特性,所以綜合考慮圖片和文本的分類(lèi)特點(diǎn)是本文研究的過(guò)濾方式。 Nlpir Parser搜索挖掘平臺(tái)敏感掃描系統(tǒng)是靈玖軟件經(jīng)過(guò)長(zhǎng)時(shí)間研發(fā),融合了自然語(yǔ)言理解、網(wǎng)絡(luò)搜索和文本挖掘的技術(shù),可以導(dǎo)入大批量用戶業(yè)務(wù)敏感的關(guān)鍵詞列表,實(shí)現(xiàn)對(duì)內(nèi)存與文件的實(shí)時(shí)智能掃描,生成*的敏感關(guān)鍵詞、敏感類(lèi)別與權(quán)重等信息。 針對(duì)Web上大量的網(wǎng)頁(yè)文本內(nèi)容,Nlpir Parser搜索挖掘平臺(tái)敏感掃描系統(tǒng)利用決策樹(shù)分流特性提出了敏感詞決策樹(shù)信息過(guò)濾算法。該算法基于敏感詞庫(kù),通過(guò)構(gòu)建敏感詞決策樹(shù),以數(shù)據(jù)流形式處理網(wǎng)頁(yè)文本內(nèi)容,綜合考慮區(qū)域、詞頻、敏感詞級(jí)別三大要素,較終給出候選敏感詞權(quán)重,計(jì)算文本整體敏感度,實(shí)現(xiàn)敏感文本檢測(cè)。 Nlpir Parser搜索挖掘平臺(tái)敏感掃描系統(tǒng)具備四大特色: 1、基于PDAT**的多關(guān)鍵詞實(shí)時(shí)掃描算法 我們采用了 NLPIR/ictclas的PDAT**算法,可以針對(duì)百萬(wàn)量級(jí)關(guān)鍵詞列表實(shí)現(xiàn)單機(jī)20MB/s的實(shí)時(shí)掃描速度; 2、關(guān)鍵詞的多模式智能匹配 用戶設(shè)定關(guān)鍵詞后,系統(tǒng)可以自動(dòng)識(shí)別掃描不同編碼、繁簡(jiǎn)體、全角半角、中間加各類(lèi)干擾噪音等變體,及繁體形式。 3、內(nèi)置了豐富的敏感知識(shí)庫(kù) 目前已經(jīng)自動(dòng)內(nèi)置了各種形式、**類(lèi)型、3萬(wàn)多關(guān)鍵詞的敏感關(guān)鍵詞詞典。這些詞典幾乎囊括了所有行業(yè)里面的敏感關(guān)鍵詞,從而為凈化互聯(lián)網(wǎng)空間提供知識(shí)儲(chǔ)備。 4、支持用戶增量添加百萬(wàn)量級(jí)業(yè)務(wù)敏感詞庫(kù) 支持客戶自定義導(dǎo)入用戶詞典,自定義敏感類(lèi)別與權(quán)重。可以支持能夠提供不**業(yè)的敏感掃描結(jié)果。
詞條
詞條說(shuō)明
大數(shù)據(jù)挖掘是伴隨者互聯(lián)網(wǎng)的普及應(yīng)用和傳統(tǒng)信息檢索技術(shù)的不足提出并發(fā)展起來(lái)的。大數(shù)據(jù)挖掘是從大數(shù)據(jù)中發(fā)現(xiàn)有用的模式(其中的數(shù)據(jù)可以存放在數(shù)據(jù)庫(kù)、數(shù)據(jù)倉(cāng)庫(kù)或其他信息庫(kù)中),它旨在解決數(shù)據(jù)挖掘、信息檢索、知識(shí)抽取以及較廣泛的商業(yè)問(wèn)題。面向大數(shù)據(jù)的挖掘比面向數(shù)據(jù)庫(kù)和數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)挖掘要復(fù)雜,因?yàn)榇髷?shù)據(jù)往往是無(wú)結(jié)構(gòu)的,通常是用長(zhǎng)的句子或短語(yǔ)來(lái)表達(dá)文檔類(lèi)信息;有些則可能是半結(jié)構(gòu)化的,當(dāng)然也包括大量的異構(gòu)信息、
靈玖軟件:NLPIR大數(shù)據(jù)提供智能挖掘技術(shù)方案
互聯(lián)網(wǎng)、物聯(lián)網(wǎng)、無(wú)線傳感網(wǎng)絡(luò)、社交網(wǎng)絡(luò)等新興技術(shù)趨勢(shì)促使人類(lèi)社會(huì)的數(shù)據(jù)種類(lèi)和規(guī)模正以**的速度增長(zhǎng),大數(shù)據(jù)時(shí)代正式到來(lái)。數(shù)據(jù)正從簡(jiǎn)單的記錄對(duì)象開(kāi)始轉(zhuǎn)變?yōu)橐环N基礎(chǔ)性甚至戰(zhàn)略性的資源,從海量的低**密度的結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)中獲取有**的信息,已經(jīng)成為各行業(yè)*關(guān)注的焦點(diǎn)。 在大數(shù)據(jù)之中有一個(gè)重要概念,那就是數(shù)據(jù)相關(guān)性。大數(shù)據(jù)不是教機(jī)器像人一樣思考,而是將復(fù)雜的數(shù)學(xué)算法用在海量數(shù)據(jù)上,讓數(shù)據(jù)自己說(shuō)
NLPIR語(yǔ)義挖掘讓行業(yè)大數(shù)據(jù)發(fā)揮自身**
隨著科學(xué)技術(shù)的*發(fā)展,人類(lèi)開(kāi)始進(jìn)入大數(shù)據(jù)時(shí)代,云計(jì)算、大數(shù)據(jù)、移動(dòng)互聯(lián)網(wǎng)已成為時(shí)代三大主題,正在推動(dòng)這新經(jīng)濟(jì)時(shí)代的發(fā)展。在科學(xué)領(lǐng)域、競(jìng)技領(lǐng)域及社會(huì)生活的方方面面,呈現(xiàn)出海量數(shù)據(jù)特征,在還來(lái)那個(gè)數(shù)據(jù)中蘊(yùn)含著人類(lèi)各種行為、心里信息,如認(rèn)真挖掘加以科學(xué)分析利用,將對(duì)創(chuàng)造思維、創(chuàng)新模式、產(chǎn)品個(gè)性化及管理決策等等都具有較高的社會(huì)**。大數(shù)據(jù)已被譽(yù)為21世紀(jì)發(fā)展創(chuàng)造的新動(dòng)力。如何有效應(yīng)用大數(shù)據(jù)、云計(jì)算等新
NLPIR大數(shù)據(jù)平臺(tái)新功能力助中文語(yǔ)義深度挖掘
當(dāng)今,數(shù)據(jù)挖掘研究被認(rèn)為是繼互聯(lián)網(wǎng)之后信息技術(shù)領(lǐng)域的又一個(gè)新浪潮,許多高科技預(yù)測(cè)*認(rèn)為:過(guò)去五年,高科技的發(fā)展已基本完成了**階段的使命一一網(wǎng)絡(luò)化;未來(lái)的五年,高科技將進(jìn)入其*二階段的發(fā)展——以數(shù)據(jù)挖掘?yàn)榛A(chǔ)的知識(shí)管理。數(shù)據(jù)挖掘作為知識(shí)開(kāi)發(fā)和創(chuàng)新的數(shù)學(xué)工具可以廣泛地應(yīng)用于金融、市場(chǎng)開(kāi)發(fā)、醫(yī)療診斷決策、交通管理、企業(yè)業(yè)績(jī)?cè)u(píng)枯等眾多的社會(huì)信息化領(lǐng)域,以此提高上述行業(yè)數(shù)據(jù)分析的可靠性和精確度。 數(shù)據(jù)
公司名: 靈玖中科軟件(北京)有限公司
聯(lián)系人: 張寶
電 話: 010-62648216
手 機(jī): 13681251543
微 信: 13681251543
地 址: 北京海淀北京市海淀區(qū)蘇州街49-3號(hào)盈智大廈5層
郵 編:
網(wǎng) 址: ljrj123.cn.b2b168.com
NLPIR語(yǔ)義挖掘助各行業(yè)建數(shù)據(jù)內(nèi)容處理技術(shù)屏障
NLPIR大數(shù)據(jù)語(yǔ)義平臺(tái)為畢業(yè)論文增色
NLPIR漢語(yǔ)分詞為自然語(yǔ)言信息處理提供新方法
NLPIR大數(shù)據(jù)挖掘?yàn)橹形男畔⑻幚硖峁┙鉀Q方案
NLPIR大數(shù)據(jù)平臺(tái)實(shí)現(xiàn)中文自動(dòng)語(yǔ)義挖掘
糾文網(wǎng)為畢業(yè)論文格式難題運(yùn)用人工智能技術(shù)解決
NLPIR語(yǔ)義平臺(tái)KGB知識(shí)圖譜搜索實(shí)現(xiàn)可視化挖掘
NLPIR大數(shù)據(jù)挖掘通過(guò)知識(shí)圖譜展現(xiàn)智能語(yǔ)義關(guān)系
公司名: 靈玖中科軟件(北京)有限公司
聯(lián)系人: 張寶
手 機(jī): 13681251543
電 話: 010-62648216
地 址: 北京海淀北京市海淀區(qū)蘇州街49-3號(hào)盈智大廈5層
郵 編:
網(wǎng) 址: ljrj123.cn.b2b168.com