我讓人工智能控制我的整個電腦。事情是這樣的。
現在人工智能可以控制你的網絡瀏覽器,下一個前沿可能是接管你的整個計算機。至少這就是總部位於西雅圖的初創公司 Vercept 試圖通過 Vy 實現的目標,Vy 是一款目前免費的 Windows 和 Mac 應用程序,可以操縱你的鼠標和鍵盤來自動執行繁瑣或重複的任務。你只需告訴它你想做什麼,然後它就會控制你。 Vy 於 5 月份首次作為 Mac 測試版推出,但現在已經重新構建,並且也可用於 Windows。我對 Vy 的實驗產生了好壞參半的結果。如果您曾經因為 ChatGPT 未能遵循指示而大喊大叫,那麼當 AI 駕駛您的整個計算機時,這種挫敗感就會變得更大——您可能想要自動化的任務可能只需手動完成就可以更快。儘管如此,我仍然可以看到人工智能計算機代理可能有用的一些領域,這就是為什麼其他公司(包括微軟)正在追求同樣的目標。我花了很多時間等待。 Vercept 的首席執行官兼聯合創始人 Kiana Ehsani 表示,Vy 比 Perplexity Comet 和 ChatGPT Atlas 等人工智能網絡瀏覽器中的代理功能更像人類。據報導,這些瀏覽器通過檢查網頁的底層結構來工作,但 Vy 會頻繁地進行屏幕截圖來分析您的網頁上發生的情況。螢幕.然後它執行鼠標或鍵盤命令來模仿您自己控制計算機的方式。 Ehsani 表示,人們正在使用它來自動化 Excel 工作,從網絡中提取數據以共享到 Slack 等應用程序中,或者弄清楚如何使用新軟件。 “我們希望有一個模型能夠理解您的屏幕,並採取與您的操作方式非常相似的操作。”Ehsani 說。不過,這最終需要一段時間,因為每個單獨的操作都需要 Vy 截屏並將其上傳到服務器進行分析。從打開應用程序到單擊菜單按鈕的所有操作都需要另一個屏幕截圖和更多時間等待響應 – 因此,人類需要 10 秒的例程可能需要 Vy 五分鐘。 Vy 有幾種方法可以緩解這種情況。一種選擇是在“後台”模式下運行任務,這樣您就可以在 Vy 在不可見的瀏覽器窗口中工作時繼續使用計算機。不過,Vy 的功能在此模式下受到限制,因為它可以與文件和網頁交互,但無法控制其他應用程序。 (讓 Vy 代表我完成各種 Microsoft Rewards 任務,讓我感到有些頑皮的樂趣——執行每日 Bing 搜索、填寫各種測驗——但對一路上消耗的計算能力感到內疚。)另一種選擇是在你不在的時候安排任務。例如,我設置了早上 7 點的日常工作,最小化桌面上所有打開的窗口,打開 Obsidian,將其移動到屏幕中央,然後加載我的待辦事項列表。實時觀看 Vy 執行此操作令人難以忍受,但在我坐在計算機前之前安排它運行(從而迫使我面對我的待辦事項列表)非常有幫助。 Ehsani 希望設備上的人工智能將來能夠加快速度。 Vy 的目標是直接在計算機上處理所有內容,而不是不斷地上傳屏幕截圖和下載說明,儘管尚不清楚何時會發生這種情況,也不清楚您需要多強大的 PC。它需要大量的幫助。讓 Vy 在計算機上執行任務有點像對孩子發號施令,因為它很容易忽略或誤解您的指令。例如,Obsidian 的一個怪癖是,如果您在應用程序已經運行時加載應用程序,它會在應用程序運行時加載應用程序。將加載一個全新的 Obsidian 實例,其中包含一個用於選擇要打開的筆記本保管庫的菜單。為了防止這種情況在我的待辦事項列表場景中發生,我要求 Vy 僅單擊 Windows 任務欄上的 Obsidian 圖標,這將加載任何現有的 Obsidian 實例,而不是啟動新實例。但每次我測試例程時,Vy 都會忽略我的指示,並嘗試單擊桌面上的 Obsidian 圖標,從而打開一個新窗口。我會打斷助手並告訴它專注於單擊任務欄圖標,但它找不到它並不斷嘗試以其他方式打開應用程序。有一次,它甚至單擊 Windows“開始”菜單來從那裡啟動 Obsidian。最終,我必須使用明確的說明來編輯我的工作流程,永遠不要單擊桌面圖標,永遠不要打開 Windows“開始”菜單,並避免使用其他方法在任務欄之外打開 Obsidian。我還必須提供明確的指導來尋找任務欄中其他圖標旁邊出現的紫色水晶圖標。總而言之,我花了大約 20 分鐘對這個小例程進行故障排除,主要涉及最小化一些窗口和單擊按鈕。 Vy 確實有一個用於創建工作流程的替代“觀看和重複”工具,它會在您執行所需步驟時記錄您的屏幕。但根據我的經驗,這更不可靠。當我嘗試以這種方式設置黑曜石自動化時,Vy 並沒有最小化我打開的任何窗口,而是只是將自己的應用程序移動到屏幕中間。這引發了一些隱私和安全問題。看著 Vy 對我的桌面進行持續的屏幕截圖也提醒我,Vercept 的服務器上可能會存有多少個人信息。每次 Vy 截取屏幕截圖時,它都會捕獲屏幕上的所有內容,即使它與任務無關。在我開始向 Vercept 詢問其數據保留政策之前,該公司並未在其網站上發布這些政策。 Vercept 現在表示,除非您手動刪除底層聊天記錄,否則它會將屏幕截圖保留六個月。無論哪種方式,出於安全目的,它都會將數據保留長達 30 天。 Ehsani 表示,當 Vy 沒有積極執行任務時,它不會捕獲屏幕截圖,並且不會對屏幕截圖內容進行任何後處理。儘管如此,Vercept 的一些人仍然可以完全訪問用戶的數據,包括他們的屏幕截圖。 “這裡需要權衡。”Ehsani 承認。與任何代理 AI 系統一樣,Vy 存在使用戶容易受到提示注入攻擊的風險,攻擊者在網頁、電子郵件或日曆邀請中隱藏惡意指令。 Vercept 表示,它有一些方法來緩解這種情況,例如,通過指示 Vy 監視惡意行為的跡象,但目前還沒有人工智能係統能夠對這個問題提供萬無一失的答案。無論如何,這似乎是不可避免的,儘管存在潛在的問題和限制,但控制您設備的人工智能代理即將到來。微軟已經為其 Copilot Windows 助手提供了一種模式,可以掃描屏幕上的內容並提供指導,並且正在測試可以代表您執行任務的“Copilot Actions”功能。其他開發人員也在追求這一想法。 Github 上充滿了實驗性的 AI 控制項目,商業替代品包括 NeuralAgent 和 Screenpipe。 Vercept 在這些努力中引人注目,它在一月份籌集了 1600 萬美元的種子輪資金,支持者包括谷歌前首席執行官埃里克·施密特 (Eric Schmidt) 和 DeepMind 首席科學家傑夫·迪安 (Jeff Dean)。 Ehsani 表示,目標是擴展到一台計算機之外。 Android 應用程序也在開發中,她希望您最終能夠在手機上向 Vy 發出指令,並讓它在您的計算機上執行操作,反之亦然。 Ehsani 說:“我們的主要願景之一是完全擺脫鼠標、鍵盤和触摸屏。”至少目前,人類在桌面上單擊的自然速度給了他們優勢。 《Fast Company 改變世界創意獎》的最終截止日期是太平洋時間 12 月 12 日星期五晚上 11:59。今天申請。
已发布: 2025-12-01 11:00:00









