Contents

没有那么美好的语音输入

老罗这次的相声讲得一如既往得好听,听得我都要吃安利了。Smartisan手机除了丑,基本上没什么让我觉得不好的地方,尤其是在出了黑色款之后。白色充满了塑料的廉价感,而我看到的所有媒体在评论咖啡金的时候都会说:“这个颜色好不好看我们不多做评论……”。也许实体机的效果要比照片漂亮也不一定。 http://ww2.sinaimg.cn/large/801b780agw1f94lu2jzolj20b809vjrv.jpg 除了令人满意的硬件配置之外,这次最令人瞩目的就是老罗的“信息输入,编辑处理和打通应用边界的终极解决方案”了。包括“讯飞”,“三星”,和“微不足道的一小步”。 “大爆炸”和“One Step”都没什么可说的,而讯飞则是在老罗的提点下迅速走俏。我看到不少人都开始玩讯飞,基本上都在说,讯飞碉堡了。

事实上,讯飞确实很厉害,在我看来,它的移动输入法比某狗某熊某鹅都要有进取心。老罗从T1开始就想推语音输入,要把它当做下个世代的输入手段。手机输入的一大弊端就是它的键盘尺寸,全键盘的拼音输入极其容易误触;9宫格的重码率又不够低。同时手机输入与键盘相比缺少力反馈,即使习惯了键盘布局依然让人不舒服。一个优秀产品经理想解决这个问题也是情理之中。

然而,语音输入真的如同老罗所说的这么美好么?

一些优劣对比

老罗给的一个场景是,“在微信中发语音消息是让人很讨厌的事情”。很多人都对此表示了共鸣。于是,通过把语音转化成文字,即可以保持输入的效率,又可以提高阅读的效率,听起来是一个皆大欢喜的方案。 我们来考虑一下这个事情。发语音之所以让人讨厌,大概有这么几个原因:

 • 读取速度慢。如果是一条20s的语音,就只能20s听完,不能快进。
 • 容错低。如果一条20s的语言中,18s处没有听清楚,只能从头听起。这是极其令人恼火的。

所以对于信息接收方来说,这确实不是什么愉快的体验。但相对的,它也有一些好处:

 • 传达的信息丰富。声音中能够表现的语气不是文字可以比拟的。
 • 输入真的很方便。手指按下讲话松开发送。所讲即所输,一触即达。

那么我们来想几个问题。

语言输入是否真的可以提高效率

按照老罗的计算方法,我们看看发送语音的操作需要几步:

 1. 按下录音键
 2. 讲话
 3. 松开录音键

而使用语音输入的操作(我们都不用iOS举例,否则算欺负人):

 1. 单击输入框出发键盘
 2. 按下录音键
 3. 讲话
 4. 等待识别
 5. 阅读识别内容
 6. 如有必要进行修正
 7. 发送

即使不需修正,操作步骤也是直接发送语音的两倍。所以实际上,语音输入是把时间成本从信息的接受者转移到了生产者身上了。也许总的时间成本变低了,但信息生产者是主动方,接受者是被东方,也就是说选择权基本上是在生产者手中。那么除了“做一个能体谅对方的好人”之外,生产者有什么理由选择一个高成本的输入手段?

语音输入的使用场景是什么

这次老罗开始演示讯飞的时候就表现的十分紧张,朱萧木甚至提前录制了道歉视频证明如果演示失败绝不是讯飞的错。这种负责的做法是令人敬佩的,但也表现出语音输入的一个弊端,就是容易受到环境的干扰。如果是在室外,嘈杂的环境音,风吹过麦克风的声音,都会成为巨大的干扰。

此外,以我的理解,语音输入的识别率是与语音长度有关的。整句输入和整段输入有更丰富的上下文关系和语言模式,相比短句与单词理应有更高的成功率。老罗所演示的这种一气呵成的输入也是语音识别的理想情况,现实中我们讲话时,往往是边说边考虑如何措辞,导致的是不规则的断句,类似“是吧,这个,对吧,然后”这种无意义的语气词,这都会影响到识别的精准度。

人往往对大段文字中的几处错误可以忽略,因为小比例的错字对整段的影响微乎其微;而对短句中的错字则往往更不能容忍。同时,输入100字修改三个字,与输入10各自修改一个字,后者的成本其实更高。因为无论修改几个字,操作成本最高的都是“用胡萝卜定位并选中出错内容”这一过程。

而即使是现场演示的过程中,其实也是有错字出现的。97%的成功率,很高,但并不够高。

所以我想我可以说,语言输入目前并不是十分匹配微信QQ这种即时通讯中的日常场景,至少不是如同老罗想说的这么匹配。反而它更适合“室内安静环境中的大段内容输入”,这不就是室内办公么。但是,这种环境下,为什么不用键盘呢。

音转字的其他应用方案

事实上,老罗说的那个令人抓狂的微信语音消息的问题确实存在。但我认为腾讯给出的解决方案更好。长按语音消息气泡,就可以把语音转成文字了。这个解决方案保留了主动的信息生产方的输入效率,也为接收方提供了充分的选择,并且完全不会影响用户得到的体验。从这个角度来说,老罗一开所说的问题根本就不存在。

总结

虽然我反对了这么多,但有些场景下,语音输入还是有大的用武之地的。比如你在酒店里面想回一封邮件,要输入大段文字又不想拿电脑出来,这种商务场景下确实很有用。但几乎也只限定于这种场景了。 讯飞的技术十分优秀,老罗的展示也无懈可击地将讯飞的亮点表现了出来,对得起友商。但在我看来,他实在是对着一群错误的人,讲了一个错误的故事。语音输入是一个重要的输入手段,但它还远远不能代替键盘输入。至少不是现在。

最后推一波讯飞

除了语音输入,讯飞的其他输入也都十分优秀。正常的全键盘与九宫格拼音就不用多说了,这点各大输入法其实差距并不大。而在我的体验中,用户比较少用到的其他输入模式,讯飞的体验则优于其他厂商。

 • 双拼。对各种双拼方案支持良好。
 • 笔画输入。键盘布局与尺寸合理,分词优化得当,通过分词符号可以只输入每个字的前几画即可完成短语词汇的输入。
 • 手写输入。据我所知应该是第一家(不知道是不是唯一一家)手写整句输入的输入法。意思就是说,你在写完第一个字之后,不需要停笔等待它识别完成再输入第二个字,而是可以一气把所有字都写进去,讯飞进行整句识别。这对父母级别的用户来说是非常友好的体验。此外,讯飞也不需要额外的手写键盘,直接在九宫格键盘上就可以写字,在你不记得某个字的读音的时候,可以试一试。

遗憾的是讯飞并没有iPad的客户端,但在iPad中按照iPhone版也可以正常使用。