
有多少次,你喊了「Hey Siri」之後,最終還是得拿起手機來處理事情。不只沒有辦法完成事情,Siri 聽起來很冰冷。
從手機助理、智慧音箱到未來的穿戴裝置,不論是Siri、Alexa還是Gemini,語音助理始終停留在工具層次:聽懂指令、執行動作,卻無法真正「交流」。
一群來自Meta核心的技術老兵試圖打造真正「懂人心」的語音AI。不只是聽懂,而是聽出情感、聽出語氣變化,因此成立了Sesame,還吸引明星創投如Andreessen Horowitz(a16z)的押注,目前正在洽談2億美元(約新台幣65億元)新一輪募資。
領導Sesame的是Brendan Irib,也是被Facebook(現Meta)收購的Oculus VR的共同創辦人,而Sesame的產品除了語音AI外,還預計用眼鏡當作載體,這點耐人尋味,因為Meta才跟雷朋合作了AI眼鏡,Brendan Irib的戰略無疑有挑戰前東家的味道。
▲ Sesame創辦人Brendan Irib也是Oculus VR的創辦人,成立新公司的發展策略有挑戰前東家的味道。(Source:Sesame,下同)
從Meta核心出走,挑戰跨越語音AI的「恐怖谷」
Sesame的陣容非常雄厚,不僅多為連續創業家,也有過漂亮的出場經驗。共同創辦人暨執行長Brendan Iribe曾以20億美元將Oculus VR賣給Facebook(現Meta),成為虛擬實境(VR)領域的關鍵人物;技術長Ankit Kumar則是擴增實境(AR)新創Ubiquity6的共同創辦人,該公司於2021年被社群平台Discord收購。
兩人背景各異,一位深耕VR並直接參與Meta的技術布局,另一位專注AR領域並活躍於新創生態圈。當Meta在內的科技巨頭紛紛押注AI裝置之際,這兩位科技老兵也攜手成立Sesame搶攻這個大餅。
他們認為,現有的語音助理無論如何升級,仍然像是「在命令一部冷冰冰的機器」,而真正的未來,應該是與AI像朋友一樣自然對話,正如Brendan Iribe曾在社群中直言:「今天我們仍處於谷底,但我們樂觀地相信能爬出來。」這句話,既是對現有語音AI生硬、機械式互動的不滿,也是對公司新目標的期許。
帶著這樣的信念,Iribe與Kumar,並拉攏了另一位重量級夥伴,Meta Reality Labs前研究工程總監Ryan Brown擔任共同創辦人,在2023年共同創立了Sesame。
▲ Brendan Iribe與Ankit Kumar拉攏了另一位重量級夥伴——前Meta Reality Labs研究工程總監Ryan Brown擔任共同創辦人,在2023年共同創立了Sesame AI。
不只是說話,Sesame還可以即興扮演「侏儒工程師」
與Meta不同,Sesame專注於開發對話式語音模型(Conversational Speech Model,CSM),CSM是基於Meta Llama架構打造的語音模型,其核心目標是打破AI與真人之間的「互動隔閡」。
Sesame開發了兩個代表性語音助理:溫暖、有活力的女性語音助手Maya,以及溫厚、帶點幽默感的男性語音助手Miles。這兩款AI語音助理的突破性在於:它們能接受對話被打斷、隨情境調整語調,正如Sesame官網所述:「未來的電腦,應該像生命一樣真實。」
根據實測,當對話中途突然打斷Maya,她不僅能立即暫停說話、專注聆聽使用者的插話內容,更能根據上下文無縫接續話題。相較於Siri機器化的應對方式,Maya展現出更接近人類的對話特質:懂得控制對話節奏的張弛快慢、配合情境調整語調高低,甚至能從聲音線索推敲使用者潛在需求。例如當偵測到使用者語氣低落時,Maya會主動反問「你還好嗎?」並提供溫暖的鼓勵話語。
目前,Maya和Miles已在Sesame官網開放免費英文示範,未來將擴展支援至超過20種語言。而與此同步開發中的AI語音眼鏡,則預計結合語音模型,打造隨時隨地陪伴的體驗,但目前仍在原型設計階段。
▲ Maya和Miles已在Sesame官網開放免費英文示範,而與此同步開發中的AI語音眼鏡,則預計結合語音模型,打造隨時隨地陪伴的體驗,但目前仍在原型設計階段。
這場重塑語音AI本質的挑戰,無疑讓Sesame自創立之初便成為焦點。也正因如此,儘管他們的主要產品「AI語音眼鏡」尚未問世,成果仍有待市場驗證,依然吸引了矽谷重量級創投的目光。
募資2億估值上看10億,Sesame能否成為新生獨角獸?
在語音AI的賽道上,Sesame並非孤軍奮戰。科技巨頭紛紛投入資源,推出各自的語音助手產品:Meta推出Llama 4擴展其語音功能,此外,Meta AI也被整合至Ray-Ban Meta智慧眼鏡中,提供用戶更直觀的語音互動方式;Google則推出了Gemini語音助手,並與三星合作,將其做為Galaxy系列手機的預設助手,取代了原有的Bixby;而Amazon也在近期升級了Alexa,增強其語音對話能力,以應對市場競爭。
▲ Meta AI也被整合至Ray-Ban Meta智慧眼鏡中,提供用戶更直觀的語音互動方式。(Source:科技新報)
在這樣的市場環境下,儘管產品尚未正式上市,Sesame已憑藉突破性的語音技術與創辦團隊的經歷,吸引矽谷頂級資本押注。
2025年3月,公司宣布正洽談一輪高達2億美元(約新台幣65億元)的新融資,估值上看10億美元(約新台幣325億元),由紅杉資本與Spark Capital主導;早前也已完成由a16z領投的4,750萬美元(約新台幣15億元)A輪募資,並獲得Matrix Partners與Spark Capital等多家知名機構的支持。
正如a16z、Spark Capital、Matrix Partners等早期支持者所看重的是團隊試圖打破過去語音助理冷冰冰、指令式互動局限。當然,Sesame自己也坦承,目前系統在節奏、韻律自然性等方面仍有待完善。
Excited to share a peek of what I’ve been working on
We @sesame believe voice is key to unlocking a future where computers are lifelike
Here’s an early preview you can try! 👇
We’ll be open sourcing a model, and yes…
we’re building hardware! 🧵 pic.twitter.com/c0jHNsb3aa— Justin Alvey (@justLV) February 27, 2025
- Apple is scrambling to catch up in a race it had a headstart in
- Sesame, the startup behind the viral virtual assistant Maya, releases its base AI model
- Sesame And The Promise Of Real AI Voice
- Exploring Sesame AI: Revolutionizing Artificial Intelligence for Real-World Solutions
- Sesame revolutionizes conversational AI with Maya and Miles, its natural and expressive voice assistants
- Sesame is the first voice assistant I’ve ever wanted to talk to more than once
(本文由 創業小聚 授權轉載;首圖來源:Image by Freepik )