從精準(zhǔn)識別到跨場景融合，大模型助力下的視頻智能驅(qū)動水務(wù)革新

時間：2025-04-03 09:41

來源：中國水網(wǎng)

作者：趙怡茗整理

“2025（第二十三屆）水業(yè)戰(zhàn)略論壇”上，E20環(huán)境平臺智能規(guī)劃中心AI解決方案總監(jiān)戰(zhàn)凱以《兩山智聯(lián)?視頻智能V2.0(大模型版)：“快而準(zhǔn)”的視頻智能安全管控》為題，系統(tǒng)性拆解了云邊端協(xié)同架構(gòu)下的技術(shù)閉環(huán)，并首次公開“兩山智聯(lián)?視頻智能V2.0（大模型版)”在水務(wù)行業(yè)的規(guī)模化落地路徑。

在運營為王的時代，水務(wù)行業(yè)面臨效率提升與風(fēng)險管控的雙重挑戰(zhàn)，智能化轉(zhuǎn)型成為破局關(guān)鍵。

隨著視頻監(jiān)控的普及，全國大量公共區(qū)域及水務(wù)設(shè)施已完成覆蓋，據(jù)不完全統(tǒng)計雙百跨越標(biāo)桿水廠便部署了33類視頻智能技能，視頻分析技術(shù)已成為行業(yè)標(biāo)配、并得到了行業(yè)內(nèi)認(rèn)可。如何借助視頻智能賦能行業(yè)發(fā)展，成為業(yè)界同仁面臨的一道必選題。

在“2025（第二十三屆）水業(yè)戰(zhàn)略論壇”上，E20環(huán)境平臺智能規(guī)劃中心AI解決方案總監(jiān)戰(zhàn)凱以《兩山智聯(lián)?視頻智能V2.0(大模型版)：“快而準(zhǔn)”的視頻智能安全管控》為題，系統(tǒng)性拆解了云邊端協(xié)同架構(gòu)下的技術(shù)閉環(huán)，并首次公開“兩山智聯(lián)?視頻智能V2.0（大模型版)”在水務(wù)行業(yè)的規(guī)?；涞芈窂?。

戰(zhàn)凱

1.0階段小模型奠基，覆蓋三大核心場景

2023年，E20環(huán)境平臺與百度智能云聯(lián)合推出了兩山智聯(lián)視頻智能1.0版本。針對供水、污水、垃圾焚燒領(lǐng)域，雙方共同開發(fā)了25項行業(yè)技能，并且有17個項目成功落地。

戰(zhàn)凱表示，視頻智能的技術(shù)演進(jìn)植根于小模型積累，受限于小模型的局限性，在實際應(yīng)用中會偶發(fā)誤報存在。

例如夜晚場景中燈光被錯誤標(biāo)注為火焰，地面反光被識別為積水，施工工人被誤判為人員倒地等。為提升系統(tǒng)準(zhǔn)確率、解決誤報問題，需采集大量負(fù)樣本數(shù)據(jù)。然而，與正樣本相比，負(fù)樣本數(shù)量少，采集工作艱巨。盡管系統(tǒng)準(zhǔn)確率已達(dá)行業(yè)領(lǐng)先的 90% - 95%，但客戶期望達(dá)到 100% 的準(zhǔn)確率，每一張誤報圖片都會影響客戶使用體驗。

戰(zhàn)凱首先感謝了過去一年多親密合作的用戶，讓1.0版本得到快速落地和完善。在1.0實踐應(yīng)用階段，E20與用戶始終保持密切溝通，水務(wù)集團(tuán)也對雙方的合作給與了高度信任和支持，在過程中積極反饋助力技術(shù)迭代。

“盡管技術(shù)迭代與用戶反饋持續(xù)推動優(yōu)化，小模型的技術(shù)瓶頸仍是誤報難根治的核心癥結(jié)?！睉?zhàn)凱強(qiáng)調(diào)。

因其底層邏輯依賴單幀抽樣分析——從每秒24幀視頻中截取單幀進(jìn)行特征點匹配，這一機(jī)制在復(fù)雜現(xiàn)實場景中易受環(huán)境干擾：低光照導(dǎo)致圖像模糊、非常規(guī)視角引發(fā)特征偏移、動態(tài)遮擋與背景噪聲形成干擾信號。

因此突破環(huán)境敏感性與特征泛化能力的天花板，需系統(tǒng)性重構(gòu)算法架構(gòu)。

技術(shù)攻堅：多模態(tài)大模型破解行業(yè)痛點

在小模型推進(jìn)緩慢的情況下，技術(shù)瓶頸亟待突破。隨著技術(shù)發(fā)展，大模型的出現(xiàn)帶來了轉(zhuǎn)機(jī)。

2017 年 Transformer 架構(gòu)出現(xiàn)，大模型開始進(jìn)入人們的視野；2022 年 ChatGPT 出現(xiàn)，使大模型應(yīng)用成為可能；2023 年中期 GPT4V 出現(xiàn)，首次實現(xiàn)了圖像和文本兩個模態(tài)的交互；到 2024 年初 GPT4O出現(xiàn)，真正實現(xiàn)了視頻、音頻、圖像甚至其他感知的多模態(tài)交互，經(jīng)過一年發(fā)展，國內(nèi)很多廠商也實現(xiàn)了多模態(tài)大模型的落地。

多模態(tài)大模型在視覺識別上優(yōu)勢顯著。大語言模型能理解并歸納文本內(nèi)容，同樣，多模態(tài)大模型也能解讀圖像信息。在復(fù)雜場景中，小模型可能需十幾個要素來識別圖片內(nèi)容，而大模型通過分析圖像內(nèi)容就能準(zhǔn)確判斷。

例如火燒云照片，小模型可能因特征值匹配煙火而誤報火災(zāi)，多模態(tài)大模型卻能準(zhǔn)確解釋這是自然景象。在實際測試中，小模型將燈誤識別為煙火，多模態(tài)大模型則正確識別出是監(jiān)控拍攝的夜景，還能解析畫面中特定區(qū)域的反光和光線折射效果。

可見，多模態(tài)大模型在理解和解析復(fù)雜視覺信息方面能力卓越，能夠有效解決小模型在視頻智能應(yīng)用中面臨的誤報難題。

場景落地：全鏈路賦能水務(wù)智能化

隨著技術(shù)發(fā)展，E20兩山智聯(lián)團(tuán)隊推出了兩山智聯(lián)?視頻智能V2.0（大模型版）。

該版本在端側(cè)配備智能分析一體機(jī)，通過小模型實現(xiàn)快速且低成本的秒級抽幀分析。前端完成識別后，借助智聯(lián)盒將預(yù)警信息傳送至云側(cè)，由兩山智聯(lián)視頻智能運維平臺進(jìn)行事件處理及應(yīng)用場景服務(wù)。同時，大模型平臺負(fù)責(zé)提升分析準(zhǔn)確性并應(yīng)對復(fù)雜場景。

技術(shù)升級后，兩山智聯(lián)?視頻智能系統(tǒng)v2.0（大模型版）應(yīng)運而生。此版本以 “準(zhǔn)、活、簡” 三大核心能力為突破點，深度融合云邊端協(xié)同架構(gòu)，全面優(yōu)化智能識別與場景適配效率。

編輯：李丹

贊