“2025(第二十三屆)水業(yè)戰(zhàn)略論壇”上,E20環(huán)境平臺智能規(guī)劃中心AI解決方案總監(jiān)戰(zhàn)凱以《兩山智聯(lián)?視頻智能V2.0(大模型版):“快而準(zhǔn)”的視頻智能安全管控》為題,系統(tǒng)性拆解了云邊端協(xié)同架構(gòu)下的技術(shù)閉環(huán),并首次公開“兩山智聯(lián)?視頻智能V2.0(大模型版)”在水務(wù)行業(yè)的規(guī)?;涞芈窂?。
在運營為王的時代,水務(wù)行業(yè)面臨效率提升與風(fēng)險管控的雙重挑戰(zhàn),智能化轉(zhuǎn)型成為破局關(guān)鍵。
隨著視頻監(jiān)控的普及,全國大量公共區(qū)域及水務(wù)設(shè)施已完成覆蓋,據(jù)不完全統(tǒng)計雙百跨越標(biāo)桿水廠便部署了33類視頻智能技能,視頻分析技術(shù)已成為行業(yè)標(biāo)配、并得到了行業(yè)內(nèi)認(rèn)可。如何借助視頻智能賦能行業(yè)發(fā)展,成為業(yè)界同仁面臨的一道必選題。
在“2025(第二十三屆)水業(yè)戰(zhàn)略論壇”上,E20環(huán)境平臺智能規(guī)劃中心AI解決方案總監(jiān)戰(zhàn)凱以《兩山智聯(lián)?視頻智能V2.0(大模型版):“快而準(zhǔn)”的視頻智能安全管控》為題,系統(tǒng)性拆解了云邊端協(xié)同架構(gòu)下的技術(shù)閉環(huán),并首次公開“兩山智聯(lián)?視頻智能V2.0(大模型版)”在水務(wù)行業(yè)的規(guī)?;涞芈窂健?/span> 戰(zhàn)凱 1.0階段小模型奠基,覆蓋三大核心場景 2023年,E20環(huán)境平臺與百度智能云聯(lián)合推出了兩山智聯(lián)視頻智能1.0版本。針對供水、污水、垃圾焚燒領(lǐng)域,雙方共同開發(fā)了25項行業(yè)技能,并且有17個項目成功落地。 戰(zhàn)凱表示,視頻智能的技術(shù)演進(jìn)植根于小模型積累,受限于小模型的局限性,在實際應(yīng)用中會偶發(fā)誤報存在。 例如夜晚場景中燈光被錯誤標(biāo)注為火焰,地面反光被識別為積水,施工工人被誤判為人員倒地等。為提升系統(tǒng)準(zhǔn)確率、解決誤報問題,需采集大量負(fù)樣本數(shù)據(jù)。然而,與正樣本相比,負(fù)樣本數(shù)量少,采集工作艱巨。盡管系統(tǒng)準(zhǔn)確率已達(dá)行業(yè)領(lǐng)先的 90% - 95%,但客戶期望達(dá)到 100% 的準(zhǔn)確率,每一張誤報圖片都會影響客戶使用體驗。 戰(zhàn)凱首先感謝了過去一年多親密合作的用戶,讓1.0版本得到快速落地和完善。在1.0實踐應(yīng)用階段,E20與用戶始終保持密切溝通,水務(wù)集團也對雙方的合作給與了高度信任和支持,在過程中積極反饋助力技術(shù)迭代。 “盡管技術(shù)迭代與用戶反饋持續(xù)推動優(yōu)化,小模型的技術(shù)瓶頸仍是誤報難根治的核心癥結(jié)?!睉?zhàn)凱強調(diào)。 因其底層邏輯依賴單幀抽樣分析——從每秒24幀視頻中截取單幀進(jìn)行特征點匹配,這一機制在復(fù)雜現(xiàn)實場景中易受環(huán)境干擾:低光照導(dǎo)致圖像模糊、非常規(guī)視角引發(fā)特征偏移、動態(tài)遮擋與背景噪聲形成干擾信號。 因此突破環(huán)境敏感性與特征泛化能力的天花板,需系統(tǒng)性重構(gòu)算法架構(gòu)。 技術(shù)攻堅:多模態(tài)大模型破解行業(yè)痛點 在小模型推進(jìn)緩慢的情況下,技術(shù)瓶頸亟待突破。隨著技術(shù)發(fā)展,大模型的出現(xiàn)帶來了轉(zhuǎn)機。 2017 年 Transformer 架構(gòu)出現(xiàn),大模型開始進(jìn)入人們的視野;2022 年 ChatGPT 出現(xiàn),使大模型應(yīng)用成為可能;2023 年中期 GPT4V 出現(xiàn),首次實現(xiàn)了圖像和文本兩個模態(tài)的交互;到 2024 年初 GPT4O出現(xiàn),真正實現(xiàn)了視頻、音頻、圖像甚至其他感知的多模態(tài)交互,經(jīng)過一年發(fā)展,國內(nèi)很多廠商也實現(xiàn)了多模態(tài)大模型的落地。 多模態(tài)大模型在視覺識別上優(yōu)勢顯著。大語言模型能理解并歸納文本內(nèi)容,同樣,多模態(tài)大模型也能解讀圖像信息。在復(fù)雜場景中,小模型可能需十幾個要素來識別圖片內(nèi)容,而大模型通過分析圖像內(nèi)容就能準(zhǔn)確判斷。 例如火燒云照片,小模型可能因特征值匹配煙火而誤報火災(zāi),多模態(tài)大模型卻能準(zhǔn)確解釋這是自然景象。在實際測試中,小模型將燈誤識別為煙火,多模態(tài)大模型則正確識別出是監(jiān)控拍攝的夜景,還能解析畫面中特定區(qū)域的反光和光線折射效果。 可見,多模態(tài)大模型在理解和解析復(fù)雜視覺信息方面能力卓越,能夠有效解決小模型在視頻智能應(yīng)用中面臨的誤報難題。 場景落地:全鏈路賦能水務(wù)智能化 隨著技術(shù)發(fā)展,E20兩山智聯(lián)團隊推出了兩山智聯(lián)?視頻智能V2.0(大模型版)。 該版本在端側(cè)配備智能分析一體機,通過小模型實現(xiàn)快速且低成本的秒級抽幀分析。前端完成識別后,借助智聯(lián)盒將預(yù)警信息傳送至云側(cè),由兩山智聯(lián)視頻智能運維平臺進(jìn)行事件處理及應(yīng)用場景服務(wù)。同時,大模型平臺負(fù)責(zé)提升分析準(zhǔn)確性并應(yīng)對復(fù)雜場景。 技術(shù)升級后,兩山智聯(lián)?視頻智能系統(tǒng)v2.0(大模型版)應(yīng)運而生。此版本以 “準(zhǔn)、活、簡” 三大核心能力為突破點,深度融合云邊端協(xié)同架構(gòu),全面優(yōu)化智能識別與場景適配效率。
編輯:李丹
版權(quán)聲明:
凡注明來源為“中國水網(wǎng)/中國固廢網(wǎng)/中國大氣網(wǎng)“的所有內(nèi)容,包括但不限于文字、圖表、音頻視頻等,版權(quán)均屬E20環(huán)境平臺所有,如有轉(zhuǎn)載,請注明來源和作者。E20環(huán)境平臺保留責(zé)任追究的權(quán)利。
媒體合作請聯(lián)系:李女士 010-88480317
正值全國兩會期間,今年政府報告報告會...
摘要EOD模式是踐行“綠水青山就是金...
010-88480329