北京時間 3 月 10 日消息,百度公司計劃在 3 月 16 日舉行發布會,公布自己的 ChatGPT 競品:“文心一言”。然而,百度員工透露,他們正在加緊趕在最后期限前推出這款聊天機器人,但它的一些基本功能仍難以實現。
匆忙趕進度
知情人士透露,為了開發人工智能聊天機器人“文心一言”,百度有數百人在夜以繼日地工作。而且,百度還從其他團隊抽調員工,借用性能強大的計算機芯片。
一些知情人士稱,在“文心一言”預定發布時間之前,作為聊天機器人基礎的人工智能模型仍在接受數據訓練。一些員工表示,他們沒有足夠的時間來開發一款功能良好的產品。“文心一言”的發布被視為中國科技行業備受期待的一件事。
百度計劃分階段推出這款產品,首先向有限的用戶開放公開測試。百度在上個月,公司將首先將“文心一言”整合到其搜索引擎中,并將于 3 月向公眾開放。
這種匆忙反映出百度正在展開一場有目的的賭博,目的是領先最近宣布類似計劃的中國競爭對手。百度稱,已與 400 多家中國公司簽署協議,這些公司將能夠在其產品和服務中使用“文心一言”。百度表示,作為回報,聊天機器人將獲得在不同場景下運行的經驗,以幫助提高其性能。
百度近年來已失去了投資者的青睞,“文心一言”的成功發布可能會幫助它重新回到中國最優秀的科技公司行列。但是,失敗可能會導致它遭受與谷歌類似的命運。直到最近,谷歌一直堅持對人工智能采取相對謹慎的態度,并在其人工智能聊天機器人演示中出現了事實錯誤,導致市值損失了 1000 億美元。
多個挑戰
多年來,百度已在開發大型語言模型方面投入了大量資金。大型語言模型是 ChatGPT 的基礎,也是它將谷歌和 ChatGPT 英文版適配成中文。百度在 2019 年發布了第一個語言模型,取名為“文心”。此前,谷歌將其模型命名為“BERT”,兩者都引用了動畫片《芝麻街》中的人物。
去年 12 月底,隨著 ChatGPT 的熱度越來越高,百度 CEO 李彥宏向員工介紹了他們在聊天機器人領域的新進展。“我們有這么酷的技術,但我們能把它變成每個人都需要的產品嗎?”,他表示,“這實際上是最艱難的一步,但也是最偉大、最有影響力的一步。”
知情人士透露,今年 1 月初,百度高管告訴其自然語言處理團隊,開始利用“文心”語言模型打造一款類似 ChatGPT 的產品。但是,該項目面臨挑戰,其中許多挑戰已經被其他致力于類似 ChatGPT 技術的人工智能開發人員所分享。
百度依靠英偉達芯片訓練“文心一言”
百度面臨的一個挑戰是讓模型對用戶的請求做出更精確的響應,方法則是教它消除具有多種含義的短語或可以指代多人的名稱之間的歧義;另一個挑戰是讓聊天機器人生成更像人類的語言;第三個挑戰是提高其事實準確性,這是大型語言模型存在的技術限制。大型語言模型是根據不同單詞出現在一起的概率而不是根據信息片段來組合句子的,這種限制也使得這些模型難以控制。知情人士稱,百度已聘請承包商幫助評估和改進聊天機器人的回答。
知情人士說,每一步都需要時間。人工智能研究人員表示,正確訓練這樣一個擁有數千顆芯片的模型可能需要幾周或幾個月的時間。本周,百度工程師和產品經理們都在忙著改進“文心一言”的基本功能,比如它對用戶請求的響應速度,以及它概述搜索結果的方式。
員工因擔憂賣股票
百度開發團隊一直在不停地工作,包括在 1 月底為期一周的農歷新年假期。知情人士稱,該項目目前已從創建一個能夠用中文和英語對話的雙語聊天機器人,縮減為一個主要關注中文的聊天機器人。
知情人士稱,“文心一言”的研發工作一直由百度首席技術官王海峰負責,主要由百度的技術開發部門實施,該部門包括自然語言處理團隊和移動生態系統業務集團。一些知情人士透露,百度人工智能云部門正在提供云計算支持。
為了加快開發進程,百度高管們整合了更多公司資源。知情人士說,春節假期結束后,李彥宏要求包括自動駕駛部門在內的全公司人工智能研究團隊,將他們最強大的計算機芯片 —— 英偉達的 A100—— 借給“文心一言”的開發團隊。美國去年年底實施的芯片制裁阻止了中國公司購買新的 A100 芯片。
百度還抽調員工來幫忙,特別是清理訓練數據,比如過濾掉低質量的內容。另外,百度還聘請了外部團隊進行數據清理。
知情人士說,時間緊迫讓一些員工對“文心一言”能否達到用戶或市場預期感到不安。一些員工表示,出于這些擔憂,他們已經在發布前賣出了一些公司股票。