乐文小说网 > 重生2002之纳米人生 > 第三十五章 徐勇的辞职

第三十五章 徐勇的辞职

9月18号。

这是个勿忘国耻的日子。

在这一天,百度宣布了重大的消息。

网易新闻:

“昨日,中文搜索引擎百度公司宣布,该公司两位创始人之一的元老徐勇将于本月26日

徐勇在5月份的时候就提交了辞呈,徐勇和百度都未解释辞职原因。百度内部人士透露,暂时没有人替代徐的职位,徐目前所负责的业务将分割到各相关部门。

徐勇曾是百度持股仅次于李彦宏的高管。1999年,徐勇和校友兼好友李彦宏创建了百度,并担任副总裁职位;今年初,徐的职务由副总裁变为首席策略官,负责公司战略方向。徐勇表示辞职后将在自己的‘老本行’生物学领域发展。”

百度收购了搜夏引擎后,再次巩固了自己中文搜索霸主的地位,原本在上一年度发展得如火如荼的慧聪网,如今已经被百度打得节节败退。

在此之前,百度在中文搜索结果质量的各项指标上,百度的工程师表现得非常聪明,在某些点上也做得很细很出色,虽然对比 Google 还是有优势,但是在与搜索相关的基础技术上,百度还是全面落后。

百度的搜索质量提高,有很大部分是依靠人工做大量细緻的策略调整硬拉上去的。而在百度收购了搜夏之后,其在与搜索相关的基础技术上则有了很大的突破,其技术上的创新能力在今年一而再被媒体提及,而其商业模式仍旧是其诟病所在。

联合创始人徐勇离职,李彦宏加强公司控制权,这基本上是所有人看到消息的第一想法。年初徐勇任CSO,明白人一眼就可以看出,这其实是个有点虚的职位。

而媒体的相关猜测是:徐勇的离职是百度为上市进行人事调整的一环,是为百度上市融资“让道”。

这种说法是有道理的,在6月份的时候,百度便已经进行了第三次融资,这是上市前的最后一次融资,这一次是策略性融资,引进了googli以及DFJ等八家风险投资机构共投资1500万美元,股数225万股,折合股份7.98%,而夏梦持股降为11%,预计公开发股后,夏梦的持股会变成9%。

纵观在纳斯达克上市的中国互联网企业,无一不在上市前上演高层人事调整的大地震,百度也不例外。

只是为何在百度的这场人事调整大地震中,徐勇为什么会出局呢?这其中的机密除了百度的高层估计其他人都不知道真实答案。

甭管徐勇为何出局,反正这消息对陈义哲而言,就是一个好消息。

知道消息的第一时间,陈义哲便给了徐勇打去了电话,“徐哥,徐总,现在没事一身轻,应该有时间过来鹏城这边逛逛了吧?”

“我就怕一到你那边,我一身又变重了!”徐勇笑道。

“徐哥,你这是怕我往你身上塞黄金吗?”陈义哲打趣道。

“真的?那我这次可得顺便带个麻袋过去才行!”徐勇笑道。

“只要你来,你就是开着大货车过来也行!”陈义哲说道。

9月底的时候,徐勇果然来鹏城了。

陈义哲带着徐勇参观了cdss项目目前的情况。

长达一年多的时间里,徐勇陆陆续续发来了大量的医院临床数据,而cdss项目组多达30个人的技术人员就一直在做标准化数据的工作。

目前夏梦已经在陈义哲的方案设计下,初步开发了支持阑尾炎,肝结核,胃结核等几项特殊疾病的cdss。

“怪不得搜夏引擎的技术让百度技术团队惊为天人,看来夏梦互联网内部是人才济济啊。”徐勇感叹道。

“呵呵,百度的技术也不差,你看google都被百度挡在国门外,现在google也只能曲线入华。”陈义哲笑道。

徐勇摇了摇头,说道,“说句真心话,百度和google还是有一定的差距的。只是在国内市场,百度占了天时地利,这其实是‘百度更懂中文’地一个集中体现。就简单地说分词,百度当年做分词,先从一个人工编辑号地字典开始,用这个字典跑一些网页,观察里面地bad case。”

“可能是分词过细,或者是中文人名没分出来,然后就尝试根据中文语法规律加入规则或添加词表解决这些 bad case,如此往复,直到有满意的结果。上线应用,发现有新的 bad case 就再研究加规则,当然也有自动流程发现和确认如“人艰不拆”之类的新词!”

“徐哥,想不到你这个医药出身的也懂得这其中的技术!”陈义哲笑道。

“都在这一行干了五年了,没吃过猪肉,也见过猪跑。”徐勇自嘲道,紧接着他继续道,“Google和百度最大的区别,就是google更加强调技术,它做分词则是把问题看成一个概率问题:如果中文网页中哪些字经常一起出现,那麽它们很有可能就是一个词。看哪些词后面会跟的地得,的地得后面有常跟哪些词,语法结构也就出来了。”

“解题思路就是把所有抓到的中文网页往 MapReduce 裡一丢,参数算出来就好了。评估分词质量的方法也很简单,就拿新模型放到网页检索的模型裡,做个实验看质量有没提升就行。这套方法结果之好,基本把中文分词做成了一个没有多少悬念的简单问题!”

“其实这也是Google不懂中文的问题,因为它不需要中文语言专家的参与!同时这也就是 Google 做实时翻译的思路。”陈义哲接着道,“不过这种方法虽然简单,看似没有什么秘密可言,可是首先,Google得先有这么多的网页数据,还得有大机群,有分布计算框架,还有可复用的模型……这点套在cdss其实也一样,cdss也需要大数据,计算的模型,看似简单,但是其实复杂无比!”

“这是必然的,毕竟医学上的知识太复杂了,做cdss项目往往需要考虑非常多的患者因素,如症状、体征、实验室检查数据、家族史、基因、流行病学资料、现有的医学文献等等。同时新发表的临床研究数以万计,质量参差不齐,这些大量的数据导致