華為雲與鑑黃師不得不說的那些事

2021-09-10 10:10:08 字數 3157 閱讀 9631

相傳,在當今時代中有乙個神秘的職業——鑑黃師。他們閱片無數,能聽聲辨位並精準審核並識別出各類違規內容加以處置。但鑑黃師工作量巨大而且人力有限難免有所紕漏,那麼如何還網際網路乙個清靜之地,真正實現精準、統

一、全面的鑑別違規內容呢?華為雲的內容審核服務就可以幫助鑑黃師擺脫當下面臨的這一煩惱。

那麼如何選擇適合企業而且效能卓越的雲服務呢?為了讓開發者全面客觀的了解華為雲內容審核服務效能,華為雲聯合 infoq 共同發起了一場開發者眾測活動,18 名來自不同企業的開發者給出專業的建議,下面是詳細的測試使用報告。

在去年,國家網際網路資訊辦公室《網際網路群組資訊服務管理規定》明確了網際網路群組建立者、管理者應當履行群組管理責任,即「誰建群誰負責」「誰管理誰負責」,對於文字內容的雲端檢測更是成為重中之重。華為雲在內容檢測方面的服務主要有以下幾種:涉黃、涉政、廣告、辱罵、違禁品和灌水文字內容等,還提供自定義的文字敏感內容檢測方案。

涉黃、涉政、廣告、辱罵、違禁品文字測試

原理:呼叫華為雲提供的 api,可自由設定過濾內容型別,分別為:politics(涉政)、****(涉黃)、ad(廣告)、abuse(辱罵)、contraband(違禁品)、flood(灌水),不輸入預設為全部篩選。根據使用者輸入內容,過濾出文字內容中的「中標詞句」,分別把語句放在涉及到的屬性下面。返回結果如下:

, 

"suggestion": "block"}}

自定義的文字敏感內容檢測測試

原理:使用者在後台文字內容檢測服務上面自定義配置,並勾選不指定檢測場景時啟用,可對全部過濾生效。也就是自己建乙個關鍵字庫,生效規則與其他預設一致。

測試感受:

1、在涉黃、涉政、辱罵、廣告等單個測試時準確無誤,在多種組合的場景下,華為雲也可以根據返回結果分別檢視各個屬性下的不同的犯規詞語。

2、對於網路用語的灌水文字測試正常,檢測出灌水文字反應迅速。值得一提的是,由於網路流行與變更速度很快,而華為雲的網路灌水詞庫在進行實時更新,可以實現自我優化。

3、而在測試中,華為雲最具特色的一項功能就是可以自定義詞庫,這項功能在內容檢測標準容易變化的場景下能夠更好的控制文字內容;包括政治敏感詞、網路用語等詞庫還做到了實時更新,使得整體服務更加安全。

小結:華為雲文字內容檢測基本滿足了常用文字檢測,支援自定義詞庫來加以補充,再加上實時更新,使得整體開發體驗更為安全和智慧型。

色情**檢測測試

原理:根據或者鏈結,華為雲 api 返回三個維度對應的比例,分別是正常比例、色情比例、**比例,返回值裡的引數 suggestion 結果為 block,則判定為色情;**的返回值裡的引數 suggestion 結果為 pass,在三個維度的比例中**比例最大,則認為該是**。對於正常與色情比例接近的會返回 review,需要人工確認。

除了普通畫面的外,華為雲還支援畫中畫涉黃內容的檢測,驗證反黃檢測服務可以識別小視窗涉黃。

測試感受:

針對黃色檢測準確,**準確,畫中畫涉黃檢測也可以正常反饋,整體流程順利,在特殊情況下也會提供給人工進行確認,沒有發生誤判情況。

小結:反黃檢測針對各個企業都是乙個重度需求,人工智慧對內容檢測很有必要,華為雲在這方面做的不錯,值得使用者信賴。

槍枝刀具類測試

原理:根據或者鏈結,華為雲 api 返回多個維度對應的比例,分別為:fire、bloody、gun、knife、flag、tiananmen、crowd、dress、symbol、normal,如果符合要求就會給出結果為block,根據各個維度的比例大小來判斷中標那個維度。這裡以槍枝作為例子,測試結果如下:

槍枝:

,,,,,,,,,]},"suggestion":"block"}}

人群聚集測試

驗證暴恐識別服務還可以準確的識別人群聚集類,若是測試結果中的 suggestion 值若為 block, 且 crowd 的置信度值佔比最大,則表示該含有人群聚集元素。

測試感受:

1、在測試中槍枝測試正確。

2、人群聚會檢測正確,使用體驗流暢

3、現在聚會地點以天安門為例進行了檢測,結果無誤。也可以做成自定義地點,支援國內大部分標誌性建築。

小結:槍枝刀具的檢測可以稱之為線上安檢機,華為雲整體表現非常卓越。但這部分服務對企業來講,需求量並不夠大,非剛需內容。

原理:根據或者鏈結,華為雲 api 返回的結果中給出識別出的名字,根據結果是否為 block,判斷是否為違規。華為雲服務,支援國家領導人、烈士與****識別,測試結果如下:

"result":,"label":"唐納德·川普"}],"terrorism":[,,,,,,,,,]},"suggestion":"block"}}

測試感受:1、各國國家領導人識別正確,能夠正確給出姓名;多個領導人也可以識別,識別度很高;測試中中國地市以上級別領導人以及國外名人也能識別正確。

2、烈士識別方面對知名人物識別無誤,而針對一些沒有的烈士,很大一部分是後人繪畫留存,可能導致識別率降低,可以通過更新學習庫進行改進。

3、****測試,一些臭名昭著的****檢測準確率很高;一些較為少見****識別難度較高,但可以通過更新學習庫增加識別準確率。

小結:華為雲服務在這塊中表現最好的是對國家領導人與國際高管的識別,在烈士與****識別上處於同行業前列水準,而通過更新學習庫也可以進一步增強。

測試感受:

總 結整體來看,華為雲的廣告語確實可以準確體現出其目前所處的行業地位:有技術,有未來,值得信賴!與開發者和行業夥伴攜手前行, 前方的路依然很長。

TOMCAT不得不說的二三事

org.apache.commons.dbcp.basicdatasourcefactory maxactive50 maxidle20 maxwait 500 username sapasswordsa driverclassname com.microsoft.jdbc.sqlserver.sq...

關於簡歷不得不說的那些事兒

最近手頭的事情不是很趕,突然有種想出去實習的衝動。最近看了一些大神的分享簡歷的製作,所以一直在準備著做乙份簡歷。1.簡歷格式 電子簡歷最好是pdf 2.簡歷名稱 簡歷名稱最好與主題格式保持一致,盡量避免 的簡歷 3.簡歷內容 簡歷內容最好是自己實力的百分之120左右 4.關於專案的描述 簡歷中關於專...

關於Observer模式不得不說的二三事

今天有同事問我關於observer模式的乙個問題,說觀察者 observer 為什麼要依賴於主題 subject 如下圖所示 從上圖可以看出,具體的觀察者對具體的主題有乙個依賴,而且從jdk本身提供的observer介面,我們也可以看到,確實對主題 在jdk的實現中,為observable介面 有乙...