隨著互聯(lián)網(wǎng)的飛速發(fā)展,網(wǎng)絡(luò)已經(jīng)成為人們?nèi)粘+@取信息和知識的重要媒介?;ヂ?lián)網(wǎng)包含了龐大的信息量,具有開放性、動態(tài)性、匿名信、互動性等特點,它不僅給人們帶來了豐富的信息,也成為人們自由交互信息的平臺。與此同時,互聯(lián)網(wǎng)固有的分散性等特點也給網(wǎng)絡(luò)資源統(tǒng)一管理造成了困難。許多敏感的、不健康的、甚至是惡意的信息摻雜其中。對社會穩(wěn)定和人們身心健康造成了較大的危害,特別是影響青少年的健康成長。為此,我國乃至世界各地都對打擊網(wǎng)絡(luò)敏感信息十分重視,制定了一些法律法規(guī),也開展了一些專項整治活動。如何能夠借助計算機(jī)分析技術(shù)手段,自動的識別和過濾網(wǎng)絡(luò)上的敏感信息,已經(jīng)成為凈化網(wǎng)絡(luò)、促進(jìn)網(wǎng)絡(luò)健康發(fā)展的一項重要研究課題。 網(wǎng)絡(luò)中網(wǎng)頁的形式及內(nèi)容多種多樣,并且隨著多媒體技術(shù)的不斷發(fā)展,網(wǎng)頁的媒體類型也越累越多樣,現(xiàn)在的基于單一媒體的敏感網(wǎng)頁識別技術(shù)難以滿足網(wǎng)絡(luò)實際發(fā)展的需要。由于網(wǎng)頁內(nèi)容主要包括文本、圖像和視頻三種媒體格式,而敏感關(guān)鍵詞掃描對文本文檔篩選、過濾、分析、挖掘起到非常重要的作用。 靈玖LJKeyScanner組件是靈玖軟件多位*經(jīng)過不斷研發(fā)和實驗,針對敏感關(guān)鍵詞搜索業(yè)務(wù)需求而打造的一套組件系統(tǒng),具有專業(yè)精準(zhǔn)、高擴(kuò)展性和高通用性的特點??芍С治淖?、數(shù)字、特殊符號、繁體字等各種文本關(guān)鍵詞的敏感掃描,支持各類數(shù)據(jù)庫實時搜索服務(wù),并支持多語言。 靈玖LJKeyScanner組件是基于文本內(nèi)容分析的識別技術(shù),它通過運用自然語言處理、人工智能理論和大數(shù)據(jù)挖掘等各種方法和技術(shù),根據(jù)內(nèi)容的上下文語境等文本要素,分析和理解文本內(nèi)容的語義,從而發(fā)現(xiàn)目標(biāo)信息的識別技術(shù)。 網(wǎng)頁文本信息增加了網(wǎng)頁的結(jié)構(gòu)信息,因此比純文本信息復(fù)雜很多,但是文本信息識別過濾的很多技術(shù)都能用于網(wǎng)頁信息識別過濾方面。文本過濾的任務(wù)定義一直在不斷的演化,難度越來越大但也越來越接近于真實環(huán)境。 LJKeyScanner組件分析方法有點在于: 1、識別成本低,能夠較深入動態(tài)地根據(jù)用戶的需要對網(wǎng)頁進(jìn)行識別和過濾; 2、具有一定的處理多語種信息的能力,覆蓋面可遍及網(wǎng)絡(luò)上所有的文本信息。
詞條
詞條說明
隨著互聯(lián)網(wǎng)技術(shù)的快速發(fā)展和普及,人們可以在網(wǎng)絡(luò)上獲得各種信息,怎樣防止青少年接觸到不健康內(nèi)容是一個嚴(yán)肅的社會問題。要防止不健康、無用內(nèi)容的蔓延,除了從法律角度采取措施外,從技術(shù)角度考慮的網(wǎng)絡(luò)過濾技術(shù)是一種有效的手段。 目前網(wǎng)絡(luò)的信息過濾技術(shù)主要有三種,它們是基于URL過濾方式、基于文本的過濾方式和基于圖像內(nèi)容的過濾方式。這幾種過濾技術(shù)各有優(yōu)劣,有的實現(xiàn)比較簡單,有的具有較廣泛的適應(yīng)性,有的效率高
NLPIR/ICTCLA2018分詞用戶體驗日發(fā)布新語義技術(shù)
“NLPIR-ICTCLA2018分詞較新版本發(fā)布與用戶交流大會暨實驗室開發(fā)日”將在2018年7月21日北京理工大學(xué)召開,此次交流會由大數(shù)據(jù)搜索與挖掘?qū)嶒炇抑鬓k,發(fā)布會將發(fā)布NLPIR-ICTCLAS2018全新分詞版本,展示新版本的NLPIR大數(shù)據(jù)語義智能分析平臺,分享大數(shù)據(jù)語義理解關(guān)鍵技術(shù),同時將邀請NLPIR-ICTCLAS的*用戶分享開發(fā)經(jīng)驗和應(yīng)用案例。NLPIR-ICTCLAS用戶大會
文本挖掘:靈玖大數(shù)據(jù)漢語智能分詞技術(shù)
漢語分詞(Chinese Word Segmentation) 指的是將一個漢字序列切分成一個一個單獨的詞。分詞就是將連續(xù)的字序列按照一定的規(guī)范重新組合成詞序列的過程。中文分詞是其他中文信息處理的基礎(chǔ),搜索引擎只是中文分詞的一個應(yīng)用。其他的比如機(jī)器翻譯(MT)、語音合成、自動分類、自動摘要、自動校對等等,都需要用到分詞。 漢語自動分詞是目前中文信息處理領(lǐng)域公認(rèn)的一大難題,也是自然語言理解研究領(lǐng)域
NLPIR大數(shù)據(jù)智能系統(tǒng)實現(xiàn)知識圖譜實體語義展現(xiàn)
在大數(shù)據(jù)時代背景下,隨著海量數(shù)據(jù)的出現(xiàn)以及多數(shù)據(jù)源融合交叉應(yīng)用,傳統(tǒng)的數(shù)據(jù)管理模式以及查詢方式受到一定的制約。近年來,知識圖譜(Knowledge Graph)作為一種新的知識表示方法和數(shù)據(jù)管理模式,在自然語言處理、問題回答、信息檢索等領(lǐng)域有著重要的應(yīng)用。知識圖譜是結(jié)構(gòu)化的語義知識庫,用于以符號形式描述物理世界中的概念及其相互關(guān)系;其基本組成單位是“實體-關(guān)系-實體”三元組,以及實體及其相關(guān)屬性
公司名: 靈玖中科軟件(北京)有限公司
聯(lián)系人: 張寶
電 話: 010-62648216
手 機(jī): 13681251543
微 信: 13681251543
地 址: 北京海淀北京市海淀區(qū)蘇州街49-3號盈智大廈5層
郵 編:
網(wǎng) 址: ljrj123.cn.b2b168.com
公司名: 靈玖中科軟件(北京)有限公司
聯(lián)系人: 張寶
手 機(jī): 13681251543
電 話: 010-62648216
地 址: 北京海淀北京市海淀區(qū)蘇州街49-3號盈智大廈5層
郵 編:
網(wǎng) 址: ljrj123.cn.b2b168.com