史上最大「神經語言資料集」誕生？新創 Conduit 將解碼 1 萬小時腦波對話

在舊金山，一家名為 Conduit 的新創公司最近完成了一項引人注目的資料收集計畫，該計畫在六個月內從數千名參與者那裡收集了約 1 萬小時的非侵入性腦部掃描資料。該資料集被認為是迄今為止最大的神經語言資料集，旨在訓練思維轉文本的人工智慧模型，直接解碼人類在說話或打字前幾秒鐘的腦信號。

參與者在小型隔間中進行兩小時的會話，以語音或簡化鍵盤與大型語言模型（LLM）自由交流。最初的測試依賴於結構化任務，但Conduit發現自然對話能顯著提高資料品質，因此轉向了更具個性化的交流方式。在過程中，Conduit面臨著來自腦電圖（EEG）記錄的電氣干擾挑戰，最初透過包裹設備和使用電池供電來消除噪音，但隨著專案擴大，模型的改進減少了對激進噪音減少的需求。