采用tdnn+lstm網絡結構,以及多領域語言模型,實現一分鐘內的語音毫秒級響應速度的高準確率轉文字
對音頻流進行實時識別,實現所聽即所見,不僅準確率高、而且延遲低
采用cnn+transformer端到端模型,以及領域語言模型rescore的方法,將錄音文件高準確率的的轉為文本
業內領先的cnn+transformer端到端的技術
不僅支持中英文識別,而且支持日、韓、法、德等語種的語音識別
不僅具有通用領域識別能力,而且建立教育、餐飲、經濟等多個垂直領域聲學以及語言模型模型
對識別結果進行高準確率的逗號、句號、感嘆號、問號等智能標點預測,使得結果可讀性強