Category: 吴军《数学之美》连载

数学之美 系列十八 - 矩阵运算和文本处理中的分类问题

我在大学学习线性代数时,实在想不出它除了告诉我们如何解线性方程外,还能有什么别的用途。
关于矩阵的许多概念,比如特征值等等,更是脱离日常生活。后来在数值分析中又学了很多矩阵
的近似算法,还是看不到可以应用的地方。当时选这些课,完全是为了混学分的学位。我想,很
多同学都多多少少有过类似的经历。直到后来长期做自然语言处理的研究,我才发现数学家们提
出那些矩阵的概念和算法,是有实际应用的意义的。

十六、 不要把所有的鸡蛋放在一个篮子里 — 谈谈最大熵模型

我们在投资时常常讲不要把所有的鸡蛋放在一个篮子里,这样可以降低风险。 在信息处理中,这个原理同样适用。在数学上,这个原理称为 最大熵原理 (the maximum entropy principle)。这是一个非常有意思的题目,但是把它讲清楚要 用两个系列的篇幅。

数学之美系列十五——繁与简 自然语言处理的几位精英

我 在数学之美系列中一直强调的一个好方法就是简单。但是,事实上,自然语 言处理中也有一些特例,比如有些学者将一个问题研究到极致,执著追求完善甚 至可以说 完美的程度。他们的工作对同行有很大的参考价值,因此我们在科研 中很需要这样的学者。

Google 阿卡 47 的制造者阿米特.辛格博士

我 认为,在计算机中一个好的算法,应该向阿卡 47 冲锋枪那样简单、有效、 可靠性好而且容易读懂(或者说易操作),而不应该是故弄玄虚。Google 的杰出 工程师阿米特.辛格博士 (Amit Singhal) 就是为 Google 设计阿卡 47 冲锋枪 的人,在公司内部,Google 的排序算法便是以他的名字命名的。

数学之美系列十–有限状态机和地址识别

地址的识别和分析是本地搜索必不可少的技术,尽管有许多识别和分析地址的方法,最有效的是
有限状态机。
一个有限状态机是一个特殊的有向图(参见有关图论的系列),它包括一些状态(节点)和连接
这些状态的有向弧。下图是一个识别中国地址的有限状态机的简单的例子。

数学之美系列九–如何确定网页和查询的相关性

我们已经谈过了如何自动下载网页、如何建立索引、如何衡量网页的质量(Page Rank)。我们 今天谈谈如何确定一个网页和某个查询的相关性。了解了这四个方面,一个有一定编程基础的读 者应该可以写一个简单的搜索引擎了,比如为您所在的学校或院系建立一个小的搜索引擎。] 我们还是看上回的例子,查找关于”原子能的应用”的网页。我们第一步是在索引中找到包含这三 个词的网页(详见关于布尔运算的系列)。

数学之美系列八 —贾尼里克的故事和现代语音处理

读者也许注意到了,我们在前面的系列中多次提到了贾里尼克这个名字。事实上,现代语音识别和自然语言处理确实是和它的名字是紧密联系在一起的。我想在这回 的系列里,介绍贾里尼克本人。在这里我不想列举他的贡献,而想讲一讲他作为一个普普通通的人的故事。这些事要么是我亲身经历的,要么是他亲口对我讲的。

数据咖成长系列之内力篇(一)–数学之美

这是吴军博士在google中国的官方博客–谷歌黑板报上连载的系列文章,偏向于科普系列,这本书展现了吴军博士多年的科研经历对科学问题的思考,这本书

越早读越好,最好在高中阶段,当你看到了数学之美这本书之后,你就知道了你以前憎恶的数学,在科学中,生活中有多么有用,多么美丽.这本书是一本能让你

爱上数学的书,值得一读.

数学之美系列七 — 信息论在信息处理中的应用

数学之美系列七 — 信息论在信息处理中的应用

先看看信息熵和语言模型的关系。我们在系列一中 谈到语言模型时,没有讲如何定量地衡量一个语言模型的好坏,当然,读者会很自然地想到,既然语言模型能减少语音识别和机器翻译的错误,那么就拿一个语音识 别系统或者机器翻译软件来试试,好的语言模型必然导致错误率较低。这种想法是对的,而且今天的语音识别和机器翻译也是这么做的。

数学之美系列六 — 图论和网络爬虫 (Web Crawlers)

[离散数学是当代数学的一个重要分支,也是计算机科学的数学基础。它包括数理逻辑、集合论、图论和近世代数四个分支。数理逻辑基于布尔运算,我们已经介绍过了。这里我们介绍图论和互联网自动下载工具网络爬虫 (Web Crawlers) 之间的关系。顺便提一句,我们用 Google Trends 来搜索一下”离散数学”这个词,可以发现不少有趣的现象。比如,武汉、哈尔滨、合肥和长沙市对这一数学题目最有兴趣的城市。]

数学之美系列五 — 简单之美:布尔代数和搜索引擎的索引

数学之美系列五 — 简单之美:布尔代数和搜索引擎的索引

[建立一个搜索引擎大致需要做这样几件事:自动下载尽可能多的网页;建立快速有效的索引;根据相关性对网页进行公平准确的排序。我们在介绍 Google Page Rank (网页排名) 时已经谈到了一些排序的问题,这里我们谈谈索引问题,以后我们还会谈如何度量网页的相关性,和进行网页自动下载。]

数学之美系列三——隐含马尔可夫模型在语言处理中的应用

前言:隐含马尔可夫模型是一个数学模型,到目前为之,它一直被认为是实现快速精确的语音识别系统的最成功的方法。复杂的语音识别问题通过隐含马尔可夫模型能非常简单地被表述、解决,让我不由由衷地感叹数学模型之妙

数学之美系列二 — 谈谈中文分词

数学之美系列二 — 谈谈中文分词

上回我们谈到利用统计语言模型进行语言处理,由于模型是建立在词的基础上的,对于中日韩等语言,首先需要进行分词。例如把句子 “中国航天官员应邀到美国与太空总署官员开会。”

数学之美系列一 — 统计语言模型

也 许大家不相信,数学是解决信息检索和自然语言处理的最好工具。它能非常清晰地描述这些领域的实际问题并且给出漂亮的解决办法。每当人们应用数学工具解决一 个语言问题时,总会感叹数学之美。我们希望利用 Google 中文黑板报这块园地,介绍一些数学工具,以及我们是如何利用这些工具来开发 Google 产品的。

切换注册

登录

忘记密码 ?

切换登录

注册