SpeechIO TIOBE Benchmark

滾動測試報告 2023年11月

系列文章:

引篇

規范

場景測試:新聞聯播

場景測試:魯豫有約一日行

滾動測試報告:2023.04

......

更多文章請點擊頂部專輯入口閱讀


滾動測試 2023.11

1 更新日志

最新更新日期:2023.11

  • 2023年11月

    • 場景:增加 [評書 單田芳-白眉大俠],[相聲 德云社],[脫口秀 吐槽大會]

    • 測試:全廠商 × 全場景 滾動刷新測試

  • 2023年10月:

    • 指標:增加 SOTA 數值 ,詳見 [當我們談論SOTA時,我們在談論什么]

    • 場景:增加 短視頻 電影剪輯 谷阿莫&牛叔說電影 短視頻 美食&烹飪 瓊斯愛生活&貧窮料理  

    • 測試集發布:[新聞聯播] 測試集已公開發布,后續滾動測試不會每期都覆蓋該場景

    • 測試:全廠商 × 全場景 滾動刷新測試

  • 2023年9月:

    • 場景:增加 在線教育 羅翔 法考 在線教育 張雪峰 考研 

    • 廠商:[阿里云+]已上線合并入公網版本[阿里云],TIOBE 歷史數據記錄始終以公網版本為準。

    • 測試:全廠商 × 全場景 滾動刷新測試

  • 2023年8月:

    • 場景:增加 播客 創業內幕

    • 測試:全廠商 × 全場景 滾動刷新測試

  • 2023年7月:

    • 場景:增加 播客 故事FM

    • 重要修復:發現 直播帶貨 李佳琪薇婭 直播 王者榮耀 老羅語錄 三個場景測試集標注錯誤,全面檢查&修正;作廢這三個測試集6月的測試結果,7月開始啟用修正后的測試集。詳情見本月已經發布的[更正說明文章]

    • 測試:全廠商 × 全場景 滾動刷新測試

  • 2023年6月:

    • 場景:增加 直播帶貨 李佳琪薇婭 直播 王者榮耀 老羅語錄

    • 廠商:增加 阿里+ ,為阿里云新算法的試用版; 測試中取消 谷歌,因谷歌的中文識別性能沒有參考性,且費用超過其余各家之和。

    • 更名:原搜狗知音平臺 改名為 搜狗AI開放平臺

    • 測試:全廠商 × 全場景 滾動刷新測試

  • 2023年5月:

    • 修復搜狗多句結果解析bug

    • 場景:增加 天下足球-世界杯往事 羅振宇跨年演講 李永樂老師在線講堂

    • 廠商:增加 創S

    • 測試:全廠商 × 全場景 滾動刷新測試

  • 2023年4月:

    • 場景:增加 魯豫有約大咖一日行

    • 廠商:增加 微軟 Azure 認知服務 搜狗知音平臺

    • 測試:全廠商 × 全場景 滾動刷新測試

  • 2023年3月:

    • 場景:增加 新聞聯播

    • 廠商:增加 阿里 百度 谷歌 訊飛 騰訊 創Y

2 滾動測試

已有測試集信息匯總

文章鏈接 場景 領域 難度(1-5)
新聞聯播 新聞播報 時政
魯豫有約一日行 訪談電視節目 名人工作、生活 ★★☆
天下足球 專題電視節目 足球 ★★
羅振宇跨年 會場演講 人文歷史、科技 ★★
李永樂講堂 在線教育 科普 ★★★
直播 王者榮耀 直播 游戲 ★★★
直播 帶貨 直播 電商、美妝 ★★★★
老羅語錄 線下培訓 段子,做人 ★★★★
播客 故事FM? 播客 人生故事、見聞 ★★
播客 創業內幕
播客 創業、產品、投資 ★★
羅翔 法考
在線教育 法律 法考 ★★
張雪峰 考研?
在線教育 考研 高校報考 ★★★
谷阿莫&牛叔 短視頻 電影剪輯 ★★★
瓊斯愛生活&貧窮料理 短視頻 美食、烹飪 ★★★
單田芳-白眉大俠 評書 江湖、武俠 ★★
德云社專場 相聲 包袱段子 ★★
吐槽大會 脫口秀 明星糗事 ★★

最新滾動測試結果匯總

縱軸(字準確率%)繪制范圍為 [70, 100]

(注:訊飛被低估,原因詳見 SOTA)


最新滾動測試詳細數據

飄綠部分為各個測試集的最優性能

3 后記

  • 本月阿里、騰訊有提升

  • 搜狗在涉及中遠場的場景有明顯提升,其余場景有波動。

掃描下面二維碼 或 微信搜索 SpeechIO,關注公眾號。

文章轉載自微信公眾號SpeechIO