微軟 Copilot 再推更新:補足視力、聽力、記憶力,還能深度思考

作者 | 發布日期 2024 年 10 月 05 日 10:00 | 分類 AI 人工智慧 , Microsoft line share Linkedin share follow us in feedly line share
微軟 Copilot 再推更新:補足視力、聽力、記憶力,還能深度思考


就在 10 月拉開序幕之際,微軟旗艦 AI 服務 Copilot 再推更新,替 Copilot 加上視力、提升聽力等新功能,企圖提供具有人性的陪伴,讓人們在日常生活中,就能大幅應用 Copilot。另外,在微軟高調定義的 Copilot + PC 戰場上,也將開始推行先前預覽的回憶功能,讓更多使用者願意換機。

兩週前,微軟執行長納德拉(Satya Nadella)主持的Copilot發表會才剛落幕,當時他的談話重點,圍繞著如何利用Copilot增進團隊協作的效率。

兩週後微軟轉換陣地,Microsoft AI執行長蘇利曼(Mustafa Suleyman)在官方文章中,把話題帶到新願景──想創造出所有人的AI夥伴(AI companion for everyone)。

對比兩者,納德拉先前談的主題是輔助團隊溝通,並提升白領的工作生產力;這次的分享,訴求是增進個人使用體驗、增加生活樂趣,可以看出,就像其他科技巨擘一樣,微軟也想無時無刻占據人們的日常。

▲ 微軟Copilot再更新,希望帶給人們陪伴感。

Copilot開口對話、看懂內容

不過,為了鞏固使用習慣,讓使用者到哪都走不出自家生態系,科技大廠們透過不同方式發力。

蘋果以其富含獨特設計美學的硬體為基礎,建構出一座圍牆高聳的花園,裡面遍布著蘋果專屬的軟體服務,例如應用程式市集(App Store)、行動支付(Apple Pay)與通訊軟體(iMessage)。

Google雖然在筆電和手機上沒有蘋果的領先地位,但在垂直應用上也深入娛樂、探索資訊、導航領域,累積起龐大用戶群。近來在應用中加入人工智慧,並推出Gemini Live扮演智慧助理角色,整合一切。

微軟的Copilot也是走相似路數,但搜尋引擎和瀏覽器的市占率都不比Google,能夠互別苗頭的,除了工作時常見的Microsoft 365生產力軟體以外,公事私事皆能使用的PC,以及配備其上的Windows作業系統,就是著力點所在。

▲ 微軟本次更新Copilot,強調Copilot + PC具有足夠算力提供地端人工智慧服務。

在本次更新中,微軟替Copilot增強視覺(vision)、聽力(voice)、深思(think deeper)和回憶(recall)能力,並且在人機互動中間,加入人工智慧中介層,使用者只要對著圖像或者文字點擊,便能執行以AI驅動的動作(click to do)。

「Copilot將在你的身邊,與你的利益保持緊密一致,它了解你的生活背景,又能保護你的隱私、資料與安全,並記下對你有幫助的細節。」蘇利曼如此寫道。

要伴隨人們一起生活,微軟從互動方式開始突破。近期的AI進展,起源於自然語言處理能力的提升,但語音和視覺等多模態能力,是現在科技廠商競逐的關鍵。微軟這次在Copilot中加入語音(Copilot Voice)功能,讓用戶可以直接說話與Copilot對答,就像從前和Siri對話一樣。

從聲音延伸,Copilot Daily提供新聞和天氣摘要,並以Copilot語音朗讀;Copilot Discover則像是探索入口,能夠和Copilot展開特定主題對話,充實自己的閒暇時刻,兩者都會依照個人使用紀錄微調呈現內容。

聲音以外,微軟也替Copilot加進視覺(Copilot Vision)能力。若使用者同意,內建於Edge瀏覽器的Copilot,將能夠閱讀使用者正在使用的網頁,理解其中的文字與圖像後,便可以和使用者對答,例如根據網頁型錄給與裝修建議、研究訂閱資費給與合適想法。

雖然文字和聲音都能溝通,但微軟解釋,執行任務和互動有著太多無法言說的背景,直接讓Copilot看見人眼所見,能夠提供更多做決策時的脈絡。不過,因為人工智慧危害隱私和智財權的抗議呼聲變得熾熱,微軟也強調,使用者可以自行決定是否、何時、如何使用;且Copilot不會侵犯創作者權利,遇上付費內容網站時就會自動保持沉默。

深度思考、回溯使用行為,還有一鍵AI

增加感官能力以外,加強思考能力就是重點。微軟推出的深思(Think Deeper),背後由具有推理能力的模型支援,雖然回答時會花上更多時間,但能夠拆解任務,詳細規劃出步驟,以應對更複雜的問題。

微軟舉例,Copilot的深思功能,讓它能夠回答應該「搬遷到哪個城市」、「挑選哪個型號汽車」等,困難但實際的挑戰。

微軟並沒有公布深思背後的模型型號,但不管是應對複雜問題,還是將問題分拆成子任務,都跟上個月中OpenAI公布的o1系列模型所強調,以思維鏈(chain-of-thought)處理複雜問題的特長不謀而合,深思背後可能就是OpenAI的o1模型在處理需求。

此外,微軟也正式推出過去曾被質疑隱私的回憶功能。這項功能在今年COMPUTEX前、微軟搶先定義Copilot + PC時,就曾經揭露。回憶功能會紀錄使用PC的紀錄,因此當使用者想要回頭查找先前打開過的應用程式、確認讀過的網頁資訊時,能夠回溯過往。

不過,當時微軟剛公布訊息,就引來敏感資訊例如銀行帳戶、身分證號碼外洩的疑慮,微軟本次特別強調,會在處理敏感資訊時加上過濾(filters),確保資料安全性。

最後還有讓使用者點擊執行任務(click to do)的AI功能,微軟舉例,使用者在瀏覽照片時,Copilot將會加上一層AI介面,只要點擊,就能夠搜尋圖像,或者消除不想要的物件,或者刪除背景;若是在看自己寫的文章,可以修改重寫、提供解釋,或者寄信、在網路中搜尋,對個人使用上頗有助益。

不管是回憶功能還是一鍵AI,都是讓AI PC與Copilot + PC能夠大展算力長才的功能,微軟還另外準備由AI加強過的檔案搜尋、提升照片解析度、以生成式AI改動相片等。6月COMPUTEX時的AI PC定義分歧,且尚未看到讓人眼睛一亮、有必要在地端發揮人工智慧能力的任務,現在微軟和PC品牌商都在努力,提供消費者換機的理由。

▲ 換機需要理由,在AI功能尚不完善之際很難帶動換機潮。

不過,台灣使用者離Copilot的更新還有段距離。以Copilot Vision來說,會先提供給部分付費的美國用戶;Copilot Voice先在澳洲、加拿大等國推出英文版本;深思功能的情況也相同。

9月中時,納德拉就提過「人工智慧使用者介面」(UI for AI),當時他說的是透過Copilot Agents,在軟體和服務加上AI,讓使用者能夠取得資訊。

這次的click to do新功能,則是直接賦能一般使用者,瀏覽照片時能夠消除物件、刪除背景,閱讀文章時能夠寫出摘要總結、重新架構文字,也能向外延伸寫信、搜尋。

應用Copilot和AI,讓資訊容易在團隊成員間流通,生活中讓使用者更容易完成代辦事項。再加上視力、聽力、回憶和深度思考,人工智慧離我們的生活愈來愈近。

(本文由 遠見雜誌 授權轉載;首圖來源:微軟

想請我們喝幾杯咖啡?

icon-tag

每杯咖啡 65 元

icon-coffee x 1
icon-coffee x 3
icon-coffee x 5
icon-coffee x

您的咖啡贊助將是讓我們持續走下去的動力

總金額共新臺幣 0
《關於請喝咖啡的 Q & A》