微軟不願意提及的軟肋，Win10的語音識別

由於仍然使用10年前的技術，語音識別準確率相對較低，使用者需要大量訓練時間，語音輸入成為Windows的軟肋。

據PCWorld 網站報道，Windows有一項微軟不願意提及的功能。雖然Windows可以讓使用者使用觸控筆“寫寫畫畫”，藉助Windows Hello利用臉部登入系統(或保護Web安全)，甚至命令小娜設定提醒事項，但它明顯不想讓使用者使用的一項功能是，利用其語音識別引擎對系統發號施令或讓使用者利用語音輸入編輯文件。

微軟不大力宣揚Windows語音識別功能的原因可以追溯到10年前，當時微軟產品經理謝恩·博切(Shanen Boettcher)在演示Windows Vista的語音輸入功能時搞砸了。之後Windows的語音輸入技術一直相當“低調”，目前幾乎沒有使用者知道Windows有語音輸入功能。

如果說Windows有機會再戰語音輸入領域，目前似乎是個時機——計算機和人工智慧的進展為語音輸入提供了好得多的基礎。

在被問及語音輸入技術在Office中的未來時，微軟負責語音識別研究以及小娜和必應的執行副總裁哈里·舒姆(Harry Shum)表示，“這是一個重大問題。語音輸入沒有扮演更重要的角色是不可理解的。”

語音識別不完美的原因

部分使用者仍然認為語音輸入還是《杜恩斯比利》(Doonesbury)系列漫畫中蘋果牛頓 PDA的水平，把使用者說的“I am writing a test sentence”，聽為“Siam fighting atomic sentry”。使用者有這種想法是可以原諒的：Windows語音識別功能仍然採用微軟Speech Recognizer 8.0技術，自Vista以來，這一技術就基本上沒有什麼變化。舒姆稱之為“祖父”級技術。

PCWorld表示，但硬體已經發生了很大變化：聽和解釋語音要求的處理能力遠低於10年前。Surface Book等PC產品中的整合式麥克風陣列的質量，意味著無需使用專用麥克風語音識別就可以達到很高的準確率。只是，語音輸入技術的發展已經適合大眾使用了嗎？

在使用語音輸入軟體輸入長度為1028個單詞的文章時，95%的準確率意味著使用者必須修正逾15個錯誤。在測試中，Windows語音輸入準確率為93.6%，從理論上說這一數值並不高，低於測試的其他專用語音輸入軟體。Windows有個奇怪的習慣，在輸入逗號時，它會在文件中插入“comma”(逗號)這個詞彙。語音輸入社群似乎對這類相對較小的失誤是否有重要影響有不同看法。

當然，這還不是全部。使用過語音輸入軟體的人都知道，準確率的關鍵是訓練。隨著時間推移，語音輸入軟體會了解使用者口音，“apricot”中“a”的發音與“bad”還是“ape”中的“a”相同，和如何過濾無意識的痙攣性語言障礙。微軟員工曾聲稱，經過適當訓練，Windows語音識別技術的準確率可以達到99%.。1000個單詞出現10個錯誤還不算太壞。

很少有使用者願意花時間訓練使用語音識別軟體。Windows語音識別軟體，要求使用者用10分鐘時間訓練數個句子，會讓使用者有度日如年的感覺。小娜和Siri不要求使用者進行訓練，那是因為它們已經被訓練了數以百萬計的語音樣本。

小娜(可以在PC和手機上使用)在語音識別方面表現遠優於Windows語音輸入系統的原因是，它利用了微軟雲服務的計算能力。微軟會對使用者的語音進行分析，使使用者語音與其其他資料相關聯，生成作為小娜靈魂的智慧。

微軟重視語音識別