◆AI數字人「劉強東」直播賣貨。

香港文匯報訊(記者 蔡競文)內地推動新質生產力,電商平台近期迎來變革聲音,有企業應用以人工智能(AI)生成的「數字人」帶動業務,開啟AI電商時代。內地電商大佬京東劉強東昨日(4月16日)以「採銷東哥AI數字人」的形式,同時出現在京東家電家居和京東超市的兩個採銷直播間,開啟自己的直播首秀。

京東剛剛宣布將加碼內容生態建設,投入超過10億元現金和10億流量,上不封頂,作為獎勵,廣納優秀創作者、機構入駐。除了從外部吸納創作者和機構,京東亦繼續發力採銷直播。

本次 「採銷東哥AI數字人」的直播首秀,運用了在京東雲言犀自研的AI驅動大姿態數字人,亦是業內首創的企業家數字人直播形式,除了將加碼京東的內容生態建設,也將夯實京東低價心智,持續為消費者帶來低價好物,豐富用戶的購物體驗。

120秒內難以察覺是數字人

京東昨日還揭秘了「採銷東哥AI數字人」的練成過程。京東指出,一般而言,言犀語音大模型在訓練時,被「餵」入5萬小時海量鮮活的語音數據,這讓言犀數字人可以智能匹配不同直播風格,例如用沉穩的音色營造專業的氛圍,又或者用極具感染力的聲音吸引用戶下單,還賦予言大姿態肢體表現,實驗表明,絕大部分用戶在120秒內難以察覺這是數字人。

經過大規模聲音形象訓練

然而,由於大家熟知劉強東的聲音及形象,「採銷東哥」要「形似」外,更要做到「神似」。在言犀大模型形象訓練時,大模型捕捉並呈現了劉強東的習慣性表情和動作,如在講話時偶爾搓動手指,強調某件事時會配合更大幅度的手部動作,亦有時不時的點頭等。更具挑戰的是聲音訓練,劉強東的宿遷口音及語速比較快,吐字比較輕,有些詞語會習慣連讀,他對「時間」、「正是」中的「sh」發音帶有重鼻音,還喜歡稱呼「兄弟們」等等,要不要加鼻音,哪裏要連讀,都需要大模型給出準確判斷。

復刻個人音色還不夠,更要讓聲音更適合直播帶貨,以及將「兄弟們」這樣的口頭禪用在合適的地方。京東雲言犀團隊也對這些細節進行了模型調優。他們起初「餵」給大模型的演講素材,雖然充滿激情、爆發力強,但過於正式。為此,他們用最新錄製的閑談作為主要素材,其中有劉強東娓娓道來生動的旅行經歷,再提取5分鐘演講的韻律特徵灌給大模型,透過不斷優化,最終塑造出「採銷東哥」AI數字人親切自然、貼近用戶的聲音。