隨著互聯網的不斷發展,網絡安全隱患也逐漸的暴露出來,為了整頓互聯網環境,國家的監管力度也是不斷提升,內容審核的標準也在不斷提升,暴力、血腥、政治、黃賭毒及危機青少年不良社會導內容向已成為重點關注區域。
今天,萌萌客外包客服服務商的小編給大家帶來的內容就是——內容審核中的文本審核的技術與邏輯是什么。
文本可能是一個簽名、一個詞組,一段文本甚至是一篇文章,還有些文字附帶在圖片上,如一張海報,一張頭像圖等。從內容上分,內容應該分為三種,文字,圖形與語言。在文字上來說,國內圖書有中圖法,國外有亞馬遜分類法,高斯分類等。
對于圖片中存在的文字,識別最多使用的還是OCR(文本識別技術)。對于長短文本及變形變異字體中,會使用到垃圾文本處理技術(在AI技術來講:CRF分詞,NLP,n-gram算法,隨機森林算法)隨機森林指的是利用多棵樹對樣本進行訓練并預測的一種分類器,通過對文本的處理進行歸類,自動預測文本內容的形式。
當你要做預測的時候,新的觀察值隨著決策樹自上而下走下來并被賦予一個預測值或標簽。一旦森林中的每棵樹都給有了預測值或標簽,所有的預測結果將被歸總到一起,所有樹的投票返回做為最終的預測結果。簡單來說,99.9%不相關的樹做出的預測結果涵蓋所有的情況,這些預測結果將會彼此抵消。少數優秀的樹的預測結果將會脫穎而出,從而得到一個好的預測結果。
在對于上下段落中,突然出現的垃圾文本或不相關的文字或詞組,會采用上下語義識別技術(LSTM深度神經網絡,word-embedding)。此算法技術,會判斷此句話中是否跟上下文結合,是否是一段無效的垃圾文本,最常見場景是我們在評論區隨意敲打著一串自己都看不懂的文本。此技術很適合用于評論區的灌水,刷屏,甚至辱罵性的文字內容。
對于圖片的識別,目前單靠機器識別,還無法滿足審核的需求,目前機器識別技術只能輔助人工審核,暫無法全面機器審核。AI機器審核只相當于人類三歲的智商,還處于弱智能時代,所以為了增強內容審核安全及無延遲的用戶體驗,還是需要人工團隊來審核的。
內容審核除了有文本審核之外,還包括圖像審核、視頻審核、語音審核、直播審核和人臉審核。文本審核的技術與邏輯相信通過上面萌萌客外包客服服務商的小編的介紹您已經清楚了,下次小編帶您看看內容審核中其他幾類的技術與邏輯都是什么樣的。
【萌萌客:m.richlegacy2u.com】提供專業的電商在線客服外包服務、電話客服及內容審核等服務,幫您簡單客服難題。










