
除了對話,AI主導教學的能力更為關鍵。
作者|田思奇
編輯|栗子
中國孩子學英語,最常見的情況是:掌握幾百上千個單詞后,口語能力卻突然停住。考試能拿高分,卻無法在真實場景中自然開口——不是不會,是說不出來。
“孩子學到歐標A1/A2水平后,就沒有合適的口語資源了。”斑馬首席產品官修佳明說。最需要練口語的階段,反而最難找到穩定可規模化的資源;真人外教雖然可能是優解,但專業訓練不足、難以控制的教學質量和資質問題,讓家長和機構都無從解決。
那么,一個理想的口語老師需要具備什么特質?或許它應該是超人類的:擁有永不疲憊的耐心、絕對精準的教學記憶、以及不受任何情緒影響的、恒定頂尖的教學水準。
基于這個判斷,斑馬團隊意識到,能完美承接這一任務的,或許不再是人,而是一個真正意義上的AI Agent。“既然大模型天生擅長語言,我們能不能讓它不僅會說,還能‘教’?”
11月18日,斑馬為行業打響了AI Agent教育落地應用的第一槍:推出超人類AI教師為主導的系統性學習產品「斑馬口語」,按年訂閱,最長可學習6年。與陪練式產品最大的差異在于:AI外教可主導教學節奏,能判斷孩子是否理解、是否需要更多等待時間,也不會因難度提升而降低要求。

這些細節勾勒出一個判斷:兒童口語,也許是AI Agent最扎實的商業化入口之一。因為它直面一個嚴肅命題:教學的準確性。
1.口語瓶頸期與AI的必然性
在立項之初,斑馬團隊憑借其教育經驗,將范圍不斷縮窄,最終聚焦于一個被長期忽視的痛點:口語瓶頸期。
其用戶畫像是:7到12歲,掌握300到1000的英語詞匯,能進行初步閱讀的學生,但口語表達卻與讀寫能力嚴重脫節。他們渴望真實、有效、能引導其進行結構化表達的對話環境。而真人外教除了資源和資質稀缺外,更核心的問題在于一個普遍誤區:“是外國人就能教英語”。
修佳明向「甲子光年」強調,語言教學是復雜的科學。許多外教缺乏系統訓練,在臨場壓力下,“老師也會緊張,他不一定能采用最好的引導給到孩子,”甚至會因本能的“偷懶”,用“你說得不對,應該這樣”的粗暴糾正方式打擊孩子的積極性。
AI外教的設計,正是為了系統性規避這些人類瓶頸。它的教學水平由教研團隊預設,因此是恒定的,并且能聽懂孩子的中文意圖。
在AI外教的教學中,孩子不需要在頭腦中將一句話組織得盡善盡美后再開口。比如一個孩子說:“我昨天吃月餅……呃,就是那個round的。”真人外教可能會因聽不懂“月餅”而卡頓,AI外教則能理解其意圖并用英文承接:“You mean mooncakes? So yesterday you enjoyed mooncakes with your family?” 這個過程在不降低教學難度的前提下,幫助孩子將中文思維遷移到英語表達上。
面對孩子天馬行空的表達,AI外教也能將其重新拉回教學軌道。當屏幕展示的是食物,孩子卻偏要聊奧特曼時,它不會生硬地打斷,而是會說:“Ultraman sounds cool! But look, in today’s story we are at a restaurant. Can you tell me which food Ultraman might choose?” 這種方式既未扼殺孩子的興趣,也保證了教學目標的達成。

因此,AI外教并非真人外教的廉價替代品,而是為解決規模化、高質量口語教學難題提供的一種新解法。
基于此,斑馬的產品開發路徑與多數科技公司快速發布迭代的模式有所不同。從2023年8月立項到產品發布,團隊花費近兩年時間進行打磨。“我們做的時候也沒有想到要做這么久,” 修佳明坦言。
這種做法,與硅谷創業圈流行的最小可行產品(MVP)理念存在根本差異。MVP的核心是用最小成本快速驗證商業假設,但在教育領域,這種模式幾乎沒有試錯空間。一次糟糕的學習體驗,就可能挫傷孩子長期的學習興趣。
因此,斑馬的實踐遵循從MVP發展出來的更嚴苛的原則:最小有效產品(Minimum Effective Product)。該理念要求產品在推向市場前,必須在核心教學效果和用戶體驗上,達到一個足夠高且穩定的標準。
這一理念最極致的體現,是團隊對“實時打斷”功能的取舍。技術上,讓AI在孩子犯錯瞬間進行打斷并糾正,無疑是先進的。然而,在超7000節內測中,團隊發現該功能嚴重破壞了教學場景下的對話節奏和尊重感,反而打擊了孩子的表達欲。面對技術炫技和真實教學體驗的沖突,斑馬選擇了后者。
這種“為效果負責”的邏輯,也延伸到了其商業模式上。斑馬口語被設計成一個長周期的“教學產品”,而非一個輕量的“AI工具”,并采用了按年付費3600元的產品模式,未提供門檻更低的短期訂閱選項。

修佳明解釋,這是對教育規律的尊重,因為口語能力的提升遵循螺旋式上升的節奏,很難按月衡量和交付成果。他對比道:“如果是跟大模型聊,最多也就是讓你多一些交流經驗。但斑馬背后的教學體系做得比較縝密,能夠讓孩子一點一點地真的去把口語水平提上來。”
2. 為教學而生的AI,不是“好好先生”
如果將AI外教視為一個能獨立完成教學任務的AI智能體,那么支撐它運轉的并非一個通用大模型,而是一套圍繞兒童口語教學,從數據、感知、決策到記憶全鏈路定制的系統。
一切從“聽懂”開始。這是通用 AI 在兒童語言學習場景中最容易失敗的環節。對于正在學習語言的孩子,被誤解是最直接的挫敗來源。因此,斑馬首先打造的是一雙真正聽得懂孩子的“耳朵”,其核心來自兩類獨特數據。
第一類是斑馬多年積累的中國兒童英語發音數據。它覆蓋模糊發音、吞音、口水音、家庭噪音,以及典型的“中式口音”,讓模型能理解孩子真實意圖。例如孩子說 “bruhther”,系統能識別為 “brother”,而不是錯誤輸入。
第二類來自多年的真人外教一對一。數萬小時教學語料讓模型學習如何當老師——如何處理興奮、走神、膽怯等不同情緒,如何引導、糾錯、鼓勵,而不是僅僅維持對話。
這兩類數據,分別教會模型“聽懂學生”和“像教師一樣回應”。
但一個好的老師不僅要聽懂,還要判斷何時糾正、何時鼓勵。斑馬在內測中提出一個關鍵指標——受挫率。團隊發現,低齡兒童大量發音不準來自生理發育,并非態度問題。強行頻繁糾正反而損傷開口意愿。因此ASR引擎被訓練成能識別“表意準確但發音不完美”,優先確認“我聽懂了”,讓孩子保持表達的信心。隨著年齡增長,這些發音會自然校正。
接下來是口語教學中最棘手的難題:節奏感。為判斷孩子是說完還是在思考,斑馬開發了作為ASR前置的智能VAD(語音活動檢測)策略。它結合音頻能量、語義完整度和上下文環節動態判斷,不依賴固定靜音時間,從而在正確的節點自然接話。
在“說”的維度上,AI外教的TTS引擎經過專項訓練,聲音標準、溫和,語速和重音可隨教學需要調整。更底層的協作在于大模型承擔了相當于“教學導演”的角色:控制動畫、口型、重點詞高亮等狀態,實現對多模態教學節奏的實時編排,這是通用模型所無法勝任的。

真正讓 AI外教 成為“能教”的 AI,是其內部的決策原則。通用大模型的本能是迎合用戶,但在教學場景中,這會破壞學習結構。面對“我不想學了”“我們聊別的吧”,通用模型常會順從,而 AI外教 會先安撫,再將對話帶回教學主線。它能聽懂中文,但從不輸出中文,保證任務目標不被稀釋。
這一切的核心是對“教學準確性”的追求。真人教師在壓力下難以在瞬間做出最優判斷,容易因緊張或疲憊出現跳級、越級或直接糾錯的情況。而AI沒有情緒與惰性,能穩定執行最合適的策略。修佳明認為:“它會充分思考,給出既不傷孩子信心,又能推進知識點的反饋。”因此在引導準確性上,AI 在很多環節甚至具備超越真人的穩定性。
但大模型不可避免地面臨“幻覺”。在教學中,最危險的不是說錯一句話,而是“卡住教學流程”。教學綱與互動路徑都依賴模型按要求推進,只要某一環節未按預期返回響應,整個學習過程可能無法繼續。對此,斑馬構建了異常監測與自動回退機制,能實時捕捉到模型偏離教學任務的狀態,將話題回溯一至兩輪,重新拼接上下文,讓學習回到主線。
讓 AI外教不只是一段程序,而成為“能陪孩子長期學習的對象”的,是其多層記憶系統:
這一切最終指向一個明確判斷:AI外教并不是“更強的通用 AI”,而是一個為教學而生的AI。它的價值不在于知識面,而在于能否穩定、完整地教完25分鐘的學習,并確保每一句輸出都服務于學習目標。
這正是AI口語教學能否成為真正產品,而不是技術概念的關鍵分水嶺。
3.AI商業化新路徑:做深、不做寬
斑馬口語的出現,標志著教育行業里第一個真正落地的AI Agent 老師成型了。這里的Agent,并不是指把通用大模型塞進一個外教皮膚里,而是指它能圍繞明確的口語學習目標自主規劃教學任務、推進流程、判斷失誤,并據此給出下一步引導。
它不等待指令,而是帶著目標主動行動,這正是 AI Agent 的本質能力。

再次審視斑馬給出的解法,可以看出這套產品哲學可以被總結為三個相互關聯的原則,也正是斑馬口語與“陪練式 AI”徹底區隔開的根本邏輯。
第一層,是對AI角色的重新定義:從工具進化到責任主體。
在絕大多數應用里,AI仍是一個增強型工具:用戶提問,模型回答。對于交互的成敗,責任主體是用戶。用戶提問的質量,決定了AI回答的價值。
而在斑馬口語的系統里,教學效果的責任,明確轉移到了AI身上。它要為教學進度、目標達成和突發狀況全權負責。這種責任的轉移,從根本上改變了產品的設計邏輯,同時極大地推高了技術門檻,重新劃定了“為學習效果負責”的界線。
第二層,是對價值的重新計量:從體驗好不好,轉向結果可不可靠。
大部分AI應用在談體驗,語音是不是自然、界面是不是順滑。但在口語教學這種場景里,家長最終關心的是:半年、一年之后,孩子到底有沒有明顯變化。這迫使產品設計從一開始就要綁定教學路徑、評估體系以及可被驗證的學習結果,而不是只針對某一節課的“爽感”做優化。
第三層,是對關系的重新想象:從一次性使用,到長期相處。
語言學習需要長期投入,這意味著系統不僅要在技術上跑得通,還要在情感層面站得住。斑馬在AI外教身上疊加的記憶系統、人格設定和交互細節,本質上是在重建一種類似“固定老師”的長期關系。這也抬高了產品復用成本,但換來的是更強的留存和粘性預期。
在這三層判斷之上,斑馬走了一條相對“重”的路:
不是接入一個通用大模型就上線,而是從ASR、TTS、大模型微調到互動引擎都自己做,從語料建設到教學法設計也盡量掌握在內部。這種重投入,讓token成本可控,服務穩定性更容易自洽,也給了他們時間去做兩年的反復打磨。
當然,從行業視角看,這種路徑并非對所有公司都適用。它對團隊的工程能力、教研資源、資金耐力都有較高要求,也天然更適合客單價相對可觀、用戶愿意長期付費的領域。但它至少證明了一點:在教育這樣結果導向的場景里,AI 產品是可以被當成一個完整的教學系統來構建,而不是一個掛在原有體系邊上的智能插件。
這也讓“AI+教育”這個被討論了多年的命題,出現了一點新的變化:過去更多的想象是AI幫助老師減負,現在則通過斑馬此次AI Agent的成功落地,開始出現AI 在某些高度標準化、又高度稀缺的教學環節里,直接承擔主要角色的案例。
隨著更多像這樣的“超人類”老師在不同細分領域出現,AI之于教育的價值,將遠不止于提效,而是真正成為推動教育個性化的一股核心力量。
(文中配圖來源:斑馬口語,封面來源:AI生成)