隱藏數據問題正在扼殺企業人工智能項目| mtgamer.com

隱藏數據問題正在扼殺企業人工智能項目


頭條新聞交替出現在人工智能的大規模投資和部署失敗的報導之間。這種模式在所有行業中都是相同的:看似有前途的人工智能項目在測試環境中表現良好,但在現實世界中部署時卻陷入困境或失敗。這不是算力不足、人才不足、算法不成熟的問題。我曾與超過 250 家實施視覺 AI 的企業合作過——從財富 10 強製造商到新的獨角獸公司——模式很明確:成功的公司根據真正破壞它們的因素來訓練模型,而失敗的公司則優化在受控環境中有效的方法。很明顯:客戶感到困惑,技術還沒有準備好,勞動力成本沒有像承諾的那樣消除。但真正的教訓更微妙、更有價值。亞馬遜的視覺人工智能可以準確識別在理想條件下購買可樂的顧客:光線充足的過道、孤獨的購物者、指定區域的產品。該系統在真實零售業典型的極端情況下失敗了:擁擠的過道、團購、商品返回到錯誤的貨架以及庫存不斷變化。主要問題不是技術複雜性,而是數據策略。亞馬遜在數百萬小時的視頻上訓練其模型,但並不是在這數百萬小時的基礎上進行訓練。他們優化了標準場景,同時消除了推動現實零售的混亂。亞馬遜不斷改進技術,這一戰略強調了部署視覺人工智能的核心挑戰。問題不在於缺乏計算能力或算法的複雜性。這些模型需要更全面的訓練數據,涵蓋全方位的客戶行為,而不僅僅是最常見的場景。這是一個價值數十億美元的盲點:大多數企業都用不良數據來解決問題。關注正確的數據,而不僅僅是更多數據。企業通常認為,簡單地擴展數據(收集數百萬張圖像或數小時的視頻)就能縮小性能差距。但視覺人工智能的失敗並不是因為缺乏數據;而是因為缺乏數據。由於數據錯誤而失敗。持續取得成功的公司已經學會像管理模型一樣嚴格地管理數據集。他們故意尋找並標記疑難病例:零件上幾乎看不見的划痕、醫學圖像中呈現的罕見疾病、生產線上的照明(千分之一),或者黃昏時從停放的汽車後面跳出來的行人。這些是破壞部署模型的情況,以及將適當的系統與生產就緒的系統分開的情況。這就是為什麼數據質量迅速成為視覺人工智能領域真正的競爭優勢。聰明的公司不會追逐巨大的銷量,而是會追求巨大的銷量。他們投資於測量、管理和持續改進數據集的工具。親身經歷 作為視覺人工智能初創公司 Voxel51 的首席執行官,我親身經歷了這些挑戰。我和我的聯合創始人在看到糟糕的數據如何破壞人工智能項目後創辦了這家公司。 2017 年,在與巴爾的摩市合作在 CitiWatch 攝像頭網絡上部署視覺系統以協助急救人員時,我們在創建數據集、訓練模型和診斷故障方面遇到了挑戰,而沒有合適的工具。這項工作啟發我們創建了自己的平台,該平台後來成為 FiftyOne——目前使用最廣泛的開源視覺 AI 工具包,安裝量超過 300 萬次。如今,包括 Berkshire Gray、Google、Bosch 和 Porsche 在內的 250 多家企業使用它來將數據質量置於人工智能戰略的中心。以下是部分成果: Allstate 通過自動化流程(零件分割、損壞檢測和維修成本比較)提高了車輛損壞檢查的數據質量,減少了體力勞動時間,同時提供了一致的結果。雷神技術研究中心組織和過濾大型研究數據集,以識別複雜圖像屬性中有意義的模式,將噪聲數據轉化為有用信息。這家財富 500 強農業技術公司收集了聯合訓練數據來改進穀物分割,捕捉未去殼和發芽穀物等邊緣情況,以建立更強大的模型。這家財富 500 強公司收集了視覺數據,以便在發貨前檢測有缺陷的屏幕,從而防止代價高昂的召回和客戶退貨。 SafelyYou 展示了這種方法的有效性。該公司的系統通過模型幫助老年護理機構提供護理,幫助減少 80% 的急診就診次數。關鍵不僅在於其龐大的規模(6000 萬分鐘的視頻),還在於創造老年人實際跌倒方式的變化的能力:不同的燈光、速度、體型和障礙物。通過自動檢查註釋錯誤和模型盲點,他們將手動分析減少了 77%,將準確率提高了 10%,並每月節省了多達 80 個開發小時。前進的道路 對於評估視覺人工智能投資的高管來說,教訓很明確:成功不是來自更大的模型或更多的計算,而是來自使用數據作為基礎。優先考慮數據質量的組織始終優於那些主要關注技術基礎設施或人才招聘的組織。對數據收集、處理和管理系統的投資是真正發揮作用的槓桿。通過將場景分析構建到數據策略中——對不同的數據質量、種類或標籤場景如何影響績效進行建模——公司可以預測風險、優化資源分配並做出更明智的人工智能投資。最終,最成功的視覺人工智能計劃是將嚴格的數據科學技術與前瞻性場景規劃相結合,確保模型在各種現實環境中可靠地執行。 Fast Company 最具創新公司獎的延長截止日期將於太平洋時間 10 月 14 日晚上 11:59 舉行。今天申請。


已发布: 2025-10-23 11:11:00

来源: www.fastcompany.com