第三十五章徐勇的辞职

9月18号。

这是个勿忘国耻的日子。

在这一天，百度宣布了重大的消息。

网易新闻：

“昨日，中文搜索引擎百度公司宣布，该公司两位创始人之一的元老徐勇将于本月26日

徐勇在5月份的时候就提交了辞呈，徐勇和百度都未解释辞职原因。百度内部人士透露，暂时没有人替代徐的职位，徐目前所负责的业务将分割到各相关部门。

徐勇曾是百度持股仅次于李彦宏的高管。1999年，徐勇和校友兼好友李彦宏创建了百度，并担任副总裁职位；今年初，徐的职务由副总裁变为首席策略官，负责公司战略方向。徐勇表示辞职后将在自己的‘老本行’生物学领域发展。”

百度收购了搜夏引擎后，再次巩固了自己中文搜索霸主的地位，原本在上一年度发展得如火如荼的慧聪网，如今已经被百度打得节节败退。

在此之前，百度在中文搜索结果质量的各项指标上，百度的工程师表现得非常聪明，在某些点上也做得很细很出色，虽然对比 Google 还是有优势，但是在与搜索相关的基础技术上，百度还是全面落后。

百度的搜索质量提高，有很大部分是依靠人工做大量细緻的策略调整硬拉上去的。而在百度收购了搜夏之后，其在与搜索相关的基础技术上则有了很大的突破，其技术上的创新能力在今年一而再被媒体提及，而其商业模式仍旧是其诟病所在。

联合创始人徐勇离职，李彦宏加强公司控制权，这基本上是所有人看到消息的第一想法。年初徐勇任CSO，明白人一眼就可以看出，这其实是个有点虚的职位。

而媒体的相关猜测是：徐勇的离职是百度为上市进行人事调整的一环，是为百度上市融资“让道”。

这种说法是有道理的，在6月份的时候，百度便已经进行了第三次融资，这是上市前的最后一次融资，这一次是策略性融资，引进了googli以及DFJ等八家风险投资机构共投资1500万美元，股数225万股，折合股份7.98%，而夏梦持股降为11%，预计公开发股后，夏梦的持股会变成9%。

纵观在纳斯达克上市的中国互联网企业，无一不在上市前上演高层人事调整的大地震，百度也不例外。

只是为何在百度的这场人事调整大地震中，徐勇为什么会出局呢？这其中的机密除了百度的高层估计其他人都不知道真实答案。

甭管徐勇为何出局，反正这消息对陈义哲而言，就是一个好消息。

知道消息的第一时间，陈义哲便给了徐勇打去了电话，“徐哥，徐总，现在没事一身轻，应该有时间过来鹏城这边逛逛了吧？”

“我就怕一到你那边，我一身又变重了！”徐勇笑道。

“徐哥，你这是怕我往你身上塞黄金吗？”陈义哲打趣道。

“真的？那我这次可得顺便带个麻袋过去才行！”徐勇笑道。

“只要你来，你就是开着大货车过来也行！”陈义哲说道。

9月底的时候，徐勇果然来鹏城了。

陈义哲带着徐勇参观了cdss项目目前的情况。

长达一年多的时间里，徐勇陆陆续续发来了大量的医院临床数据，而cdss项目组多达30个人的技术人员就一直在做标准化数据的工作。

目前夏梦已经在陈义哲的方案设计下，初步开发了支持阑尾炎，肝结核，胃结核等几项特殊疾病的cdss。

“怪不得搜夏引擎的技术让百度技术团队惊为天人，看来夏梦互联网内部是人才济济啊。”徐勇感叹道。

“呵呵，百度的技术也不差，你看google都被百度挡在国门外，现在google也只能曲线入华。”陈义哲笑道。

徐勇摇了摇头，说道，“说句真心话，百度和google还是有一定的差距的。只是在国内市场，百度占了天时地利，这其实是‘百度更懂中文’地一个集中体现。就简单地说分词，百度当年做分词，先从一个人工编辑号地字典开始，用这个字典跑一些网页，观察里面地bad case。”

“可能是分词过细，或者是中文人名没分出来，然后就尝试根据中文语法规律加入规则或添加词表解决这些 bad case，如此往复，直到有满意的结果。上线应用，发现有新的 bad case 就再研究加规则，当然也有自动流程发现和确认如“人艰不拆”之类的新词！”

“徐哥，想不到你这个医药出身的也懂得这其中的技术！”陈义哲笑道。

“都在这一行干了五年了，没吃过猪肉，也见过猪跑。”徐勇自嘲道，紧接着他继续道，“Google和百度最大的区别，就是google更加强调技术，它做分词则是把问题看成一个概率问题：如果中文网页中哪些字经常一起出现，那麽它们很有可能就是一个词。看哪些词后面会跟的地得，的地得后面有常跟哪些词，语法结构也就出来了。”

“解题思路就是把所有抓到的中文网页往 MapReduce 裡一丢，参数算出来就好了。评估分词质量的方法也很简单，就拿新模型放到网页检索的模型裡，做个实验看质量有没提升就行。这套方法结果之好，基本把中文分词做成了一个没有多少悬念的简单问题！”

“其实这也是Google不懂中文的问题，因为它不需要中文语言专家的参与！同时这也就是 Google 做实时翻译的思路。”陈义哲接着道，“不过这种方法虽然简单，看似没有什么秘密可言，可是首先，Google得先有这么多的网页数据，还得有大机群，有分布计算框架，还有可复用的模型……这点套在cdss其实也一样，cdss也需要大数据，计算的模型，看似简单，但是其实复杂无比！”

“这是必然的，毕竟医学上的知识太复杂了，做cdss项目往往需要考虑非常多的患者因素，如症状、体征、实验室检查数据、家族史、基因、流行病学资料、现有的医学文献等等。同时新发表的临床研究数以万计，质量参差不齐，这些大量的数据导致

乐文小说网

第三十五章 徐勇的辞职

第三十五章徐勇的辞职