隨著計(jì)算機(jī)技術(shù)和網(wǎng)絡(luò)技術(shù)的*發(fā)展,互聯(lián)網(wǎng)上共享的文本呈海量趨勢(shì)增長(zhǎng),包括各種環(huán)境下的大文本和社交媒體文本等。如何有效存儲(chǔ)、管理、檢索和使用這些文本數(shù)據(jù),是擺在人們面前巨大的挑戰(zhàn)和亟待解決的研究問題。文本語(yǔ)義分析與挖掘是解決上述問題的基礎(chǔ)。 互聯(lián)網(wǎng)大環(huán)境下的共享文本具備特殊的屬性:1)半結(jié)構(gòu)化;2)多尺度;3)海量;4)復(fù)雜關(guān)聯(lián);5)多樣化。LJParser文本語(yǔ)義分析系統(tǒng)結(jié)合人工智能、統(tǒng)計(jì)分析、自然語(yǔ)言處理、文本挖掘等技術(shù),圍繞全文精準(zhǔn)檢索、主題詞挖掘、主題模型聚類幾個(gè)研究?jī)?nèi)容對(duì)不同的文本語(yǔ)料庫(kù)進(jìn)行分析,以實(shí)現(xiàn)對(duì)不同尺度、不同領(lǐng)域文本的深入語(yǔ)義分析和理解。LJParser文本語(yǔ)義分析系統(tǒng)具體內(nèi)容: (1)、為了有效融入人為的語(yǔ)義認(rèn)知,并克服以往研究對(duì)象僅局限于特定語(yǔ)種文檔的缺陷,LJParser文本語(yǔ)義分析系統(tǒng)提出一種基于詞匯語(yǔ)義相關(guān)度計(jì)算的文檔語(yǔ)義特征提取,又名全文精準(zhǔn)檢索。針對(duì)中英文語(yǔ)料庫(kù),提出HWSC(HowNet&WordNetSemanticCompression)算法實(shí)現(xiàn)每篇文檔的代表性語(yǔ)義詞匯的提取。該算法分別利用HowNet和WordNet知識(shí)庫(kù)系統(tǒng)對(duì)中英文本進(jìn)行詞匯語(yǔ)義相關(guān)度計(jì)算,并在其基礎(chǔ)上抽取重要主題的相關(guān)主題詞匯,以此過濾掉語(yǔ)義不相關(guān)詞匯,達(dá)到語(yǔ)義壓縮的目的。 (2)、文本數(shù)據(jù)的海量特性將導(dǎo)致主題瀏覽的困難。綜合考慮單個(gè)主題詞匯表達(dá)不完善、主題重要性標(biāo)準(zhǔn)不一等因素,LJParser文本語(yǔ)義分析系統(tǒng)提出一種融合詞組發(fā)現(xiàn)和主題排序的關(guān)鍵主題詞發(fā)現(xiàn)機(jī)制。在主題詞組發(fā)現(xiàn)模型LDA_col(LatentDirichletAllocation_Collocation)的基礎(chǔ)上進(jìn)行詞組發(fā)現(xiàn),利用GibbsSampling算法進(jìn)行參數(shù)的有效估計(jì),并針對(duì)LDA_col模型的不穩(wěn)定性進(jìn)行改進(jìn),引入額外變量控制詞組和前綴詞匯的主題一致性。由于目前的主題模型輸出都需要人工瀏覽去發(fā)現(xiàn)自己感興趣的主題,而且不同用戶對(duì)主題的重要性定義存在差異,因此為了滿足用戶不同角度的需求,提出兩種重要主題排序機(jī)制,分別為基于主題覆蓋度(TopicCoverage,TC)和主題相似度(TopicSimilarity,TS)的方法。 (3)、針對(duì)文本內(nèi)容的多尺度特性,LJParser文本語(yǔ)義分析系統(tǒng)提出能同時(shí)適用于普通文本和大文本的基于主題分析的聚類算法。該方法從主題分析的角度出發(fā),使得聚為同類的文檔含有相似的一個(gè)或多個(gè)主題。針對(duì)普通文檔,提出一種基于LDA(LatentDirichletAllocation)模型的聚類方法。 LJParser文本語(yǔ)義分析系統(tǒng)是一套專門針對(duì)原始文本集進(jìn)行處理和加工的軟件,提供了中間件處理效果的可視化展示,也可以作為小規(guī)模數(shù)據(jù)的處理加工工具。用戶可以使用該軟件對(duì)自己的數(shù)據(jù)進(jìn)行處理。 LJParser文本語(yǔ)義分析系統(tǒng)主要工作是解決如何面向不同領(lǐng)域、不同尺度的文本進(jìn)行語(yǔ)義理解,使得語(yǔ)義分析的結(jié)果較有利于計(jì)算機(jī)對(duì)文本的自動(dòng)理解及其他文本任務(wù),如文本瀏覽、文本語(yǔ)義檢索、互聯(lián)網(wǎng)話題檢測(cè)與推薦以等。
詞條
詞條說明
文本語(yǔ)義敏感關(guān)鍵詞過濾*:LJKeyScanner
在信息化高度發(fā)達(dá)的今天,互聯(lián)網(wǎng)已經(jīng)成為人們獲取信息,即時(shí)溝通的重要媒介之一,給人們工作生活帶來了很大的便利。但是由于其**性、開放性、即時(shí)性的特點(diǎn),互聯(lián)網(wǎng)也成為眾多信息傳播的重要途徑,與傳統(tǒng)媒體相比較為棘手。如何對(duì)互聯(lián)網(wǎng)進(jìn)行有效的管理,過濾其中的不良信息,凈化網(wǎng)絡(luò)環(huán)境成為苛待解決的問題。 目前網(wǎng)絡(luò)中70%的信息是以文本形式存在,網(wǎng)頁(yè)文本過濾成為目前網(wǎng)絡(luò)監(jiān)控的較重要手段。文本過濾方法有很多,關(guān)鍵字
靈玖軟件:NLPIR-Parser語(yǔ)義挖掘技術(shù)挖掘商業(yè)“石油”
面對(duì)信息社會(huì)中數(shù)據(jù)和數(shù)據(jù)庫(kù)的爆炸式增長(zhǎng),人們分析數(shù)據(jù)和從中提取有用信息的能力,遠(yuǎn)遠(yuǎn)不能滿足實(shí)際需要。但目前所能做到的只是對(duì)數(shù)據(jù)庫(kù)中已有的數(shù)據(jù)進(jìn)行存儲(chǔ)、查詢、統(tǒng)計(jì)等功能,但它卻無法發(fā)現(xiàn)這些數(shù)據(jù)中存在的關(guān)系和規(guī)則,較不能根據(jù)現(xiàn)有的數(shù)據(jù)預(yù)測(cè)未來的發(fā)展趨勢(shì)。這種現(xiàn)象產(chǎn)生的主要原因就是缺乏挖掘數(shù)據(jù)背后隱藏的知識(shí)的有力手段,從而導(dǎo)致“數(shù)據(jù)爆炸但知識(shí)貧乏”的現(xiàn)象。數(shù)據(jù)挖掘就是為迎合這種要求而產(chǎn)生并*發(fā)展起來
靈玖軟件Nlpir Parser語(yǔ)義智能內(nèi)容過濾
Internet是**信息共享的基礎(chǔ)設(shè)施,是一種開放和面向 所有用戶的技術(shù)。它一方面要保證信息方便、快捷的共享;另一方面要防止垃圾信息的傳播。網(wǎng)絡(luò)內(nèi)容分析是一種管理信 息傳播的重要手段。它是網(wǎng)絡(luò)信息安全**理論與關(guān)鍵技術(shù) 研究網(wǎng)絡(luò)內(nèi)容分析所涉及的新理論、新體系結(jié)構(gòu)、新方法和新技術(shù)。 內(nèi)容過濾技術(shù)一般包括名單過濾技術(shù)、關(guān)鍵詞過濾技術(shù)、圖像過濾技術(shù)、模板過濾技術(shù)和智能過濾技術(shù)等。目前,內(nèi)容過濾技術(shù)還
靈玖LJKeyScanner關(guān)鍵詞敏感掃描不是簡(jiǎn)單的處理
隨著互聯(lián)網(wǎng)的飛速發(fā)展,網(wǎng)絡(luò)已經(jīng)成為人們?nèi)粘+@取信息和知識(shí)的重要媒介?;ヂ?lián)網(wǎng)包含了龐大的信息量,具有開放性、動(dòng)態(tài)性、匿名信、互動(dòng)性等特點(diǎn),它不僅給人們帶來了豐富的信息,也成為人們自由交互信息的平臺(tái)。與此同時(shí),互聯(lián)網(wǎng)固有的分散性等特點(diǎn)也給網(wǎng)絡(luò)資源統(tǒng)一管理造成了困難。許多敏感的、不健康的、甚至是惡意的信息摻雜其中。對(duì)社會(huì)穩(wěn)定和人們身心健康造成了較大的危害,特別是影響青少年的健康成長(zhǎng)。為此,我國(guó)乃至世界
公司名: 靈玖中科軟件(北京)有限公司
聯(lián)系人: 張寶
電 話: 010-62648216
手 機(jī): 13681251543
微 信: 13681251543
地 址: 北京海淀北京市海淀區(qū)蘇州街49-3號(hào)盈智大廈5層
郵 編:
網(wǎng) 址: ljrj123.cn.b2b168.com
NLPIR語(yǔ)義挖掘助各行業(yè)建數(shù)據(jù)內(nèi)容處理技術(shù)屏障
NLPIR大數(shù)據(jù)語(yǔ)義平臺(tái)為畢業(yè)論文增色
NLPIR漢語(yǔ)分詞為自然語(yǔ)言信息處理提供新方法
NLPIR大數(shù)據(jù)挖掘?yàn)橹形男畔⑻幚硖峁┙鉀Q方案
NLPIR大數(shù)據(jù)平臺(tái)實(shí)現(xiàn)中文自動(dòng)語(yǔ)義挖掘
糾文網(wǎng)為畢業(yè)論文格式難題運(yùn)用人工智能技術(shù)解決
NLPIR語(yǔ)義平臺(tái)KGB知識(shí)圖譜搜索實(shí)現(xiàn)可視化挖掘
NLPIR大數(shù)據(jù)挖掘通過知識(shí)圖譜展現(xiàn)智能語(yǔ)義關(guān)系
公司名: 靈玖中科軟件(北京)有限公司
聯(lián)系人: 張寶
手 機(jī): 13681251543
電 話: 010-62648216
地 址: 北京海淀北京市海淀區(qū)蘇州街49-3號(hào)盈智大廈5層
郵 編:
網(wǎng) 址: ljrj123.cn.b2b168.com