首页
资讯
科技
财经
汽车
房产
关注
快讯
聚焦
综合
滚动
您当前的位置:
首页
>
资讯
>
详情
读改变未来的九大算法笔记07_搜索引擎 焦点精选
2023-06-09 10:13:03
来源:博客园
(资料图)
1.车库轶事
1.1.1939年
1.1.1.戴夫·休利特(Dave Hewlett)
1.1.1.1.惠普(Hewlett-Packard)
1.2.1976年
1.2.1.蒂夫·乔布斯(Steve Jobs)和史蒂夫·沃兹尼亚克(Steve Wozniak)
1.2.1.1.从一间卧室开始的,空间很快就不够用了,于是他们转移到了车库
1.3.1998年
1.3.1.佩奇和布林
1.3.1.1.谷歌
1.3.1.1.1.门洛帕克车库
2.互联网搜索历史
2.1.1945年
2.1.1.超链接
2.1.1.1.美国工程师范内瓦·布什(Vannevar Bush)
2.1.1.2.论文《诚若所思》(As We May Think)
2.1.1.3.一台被称作麦麦克斯(memex)的机器
2.1.1.3.1.允许“关联索引……任何被选中的东西都能立即自动选择另一个东西”
2.1.1.3.2.一种早期的超链接
2.2.1994年
2.2.1.Infoseek
2.2.2.Lycos
2.3.1995年
2.3.1.AltaVista
2.4.1999年
2.4.1.AltaVista递交的美国专利文件《索引的限制搜索》(“Constrained searching of an index”)中描述了元词把戏
3.两大主要任务
3.1.匹配(matching)
3.2.排名(ranking)
4.匹配算法
4.1.AltaVista:互联网级别的第一种匹配算法
4.1.1.20世纪90年代中期,AltaVista是搜索引擎的王者
4.1.2.有史以来第一次,有一个搜索引擎能完全索引互联网上每个页面的全部文本
4.2.有效匹配只是高效搜索引擎的一大挑战
4.3.索引
4.3.1.是所有搜索引擎背后最基础的思想
4.3.2.是计算机科学中最古老的有用思想
4.3.3.互联网搜索引擎的索引和一本书的索引有着相同的工作原理
4.3.3.1.“书页”现在成了万维网上的网页
4.3.3.2.搜索引擎则给互联网上的每个网页分配了一个不同的页码
4.3.4.索引不仅应该存储页码,还要存储信息在页面内的位置
5.排名和邻度
5.1.查询词彼此相邻的网页比那些查询词相距很远的网页相关度更高
5.2.搜索引擎在不断地使用和邻度有关的信息,以提高搜索排名
5.3.“NEAR”(邻近)关键词
5.3.1.NEAR查询
5.4.搜索引擎的生死由其排名的质量决定,而通过利用网页结构,排名质量能够得到大幅提升
6.元词把戏
6.1.Metaword Trick
6.2.创建一份索引时,囊括所有元词是件很简单的事
6.3.标题查询和其他取决于网页结构的“结构查询”类似于NEAR查询
7.排名算法
7.1.PageRank
7.1.1.一种对网页排名的算法
7.1.2.主要发明者拉里·佩奇的排名算法
7.1.3.学术会议论文《解析大规模超文本网络搜索引擎》(The Anatomy of a Large-Scale Hypertextual Web Search Engine)
7.1.4.核心思想
7.1.4.1.权威性网页通过超链接向其他网页传输权重
7.2.基于链接的排名算法(Link-based Ranking Algorithms)
7.3.超链接
7.3.1.网页上的一个短语,当你点击它时,你将被带到另一个网页
7.3.2.一个网页的链入链接数可能成为该网页“有用性”或“权威性”的指标
7.3.3.人们可以滥用超链接把戏,人为地提高自己网页的排名
7.3.3.1.搜索引擎称这种滥用为网络垃圾Web Spam
7.3.4.一个有许多链入链接的网页应该有高排名
7.4.权重
7.4.1.来自高权重网页的链接排名要比来自低权重网页链接的排名高
7.4.2.所有网页的初始权重值(Authority Score)都是1
7.4.2.1.如果一个网页有链入链接,在计算该网页权重时就要加入指向其网页的权重
7.4.2.2.如果X和Y网页链接Z网页,那么Z网页的权重就是X网页和Y网页权重相加的值
7.4.3.和来自低权重网页的链入链接相比,一个来自高权重网页的链入链接应该更能证明一个网页的排名
7.5.随机访问者
7.5.1.超链接很有可能形成“循环”(cycle)
7.5.1.1.随机访问者解决这个“鸡生蛋还是蛋生鸡”的问题
7.5.1.2.不管超链接有没有形成循环,随机访问者把戏都能完美地运作
7.5.2.关键点
7.5.2.1.每次访问一个网页时,都有一个固定的重新访问概率(大概是15%),让访问者不从已有的超链接中挑选一个并点击
7.5.2.2.网页的访问者权重值(Surfer Authority Score)
7.5.2.2.1.一名随机访问者访问该网页的时间比例
7.5.3.一个有许多链入链接的网页被访问的概率较大
7.5.4.和一个来自不知名网页的链接相比,访问者更有可能继续点击一个来自知名网页的链入链接
7.5.5.每个网页链入链接的质量和数量都会被纳入考虑范围
7.6.搜索引擎并非通过模拟随机访问者来计算PageRank值:它们使用像随机访问者模拟一样给出相同答案的数学技巧,但计算成本要低很多
7.6.1.商业搜索引擎中用来判定排名的算法要比PageRank这类基于链接的排名算法多得多
标签:
下一篇:
最后一页
上一篇:
今日热门!最后的最后渴望变成天使_最后的最后渴望变成天使
猜你喜欢
·
读改变未来的九大算法笔记07_搜索引擎 焦点精选
·
今日热门!最后的最后渴望变成天使_最后的最后渴望变成天使
·
全市首张“企业开办+用电报装”营业执照发出
·
奥迪a6有多大(奥迪a6l是多大尺寸?)
·
今日聚焦!机器人如何让人类生活更美好?
·
春节假期工资几倍
·
俄方称赫尔松地区饮用水样本目前未发现偏离规范性指标的情况 速讯
热门推荐
胡正寰院士夫妇捐赠300万元个人积蓄 鼓励青年学子潜心学术科研
·以“征信修复、洗白、铲单”为名行骗?国家发改委:严查严处!
·为期15天!2022新疆文化和旅游周(日本专场)推出近百项内容
·今年5月5日起,外观设计专利权期限由10年延长为15年
长征十一号“一箭三星”发射成功
·国家海洋环境预报中心预测:今年我国沿海风暴潮将多于去年
·第十三届中国艺术节将于2022年9月举办
·海信公开高端出海战略:将在美国和日本建立研发中心
生态环境部:全国中高风险地区医疗废物污水处置平稳有序
·
新华国际时评:美国霸权执念何时休
·
俄乌结束“最具进展”谈判 各方怎么看?
·
人民财评:以次充好的BALLY还能走多远?
·
环球深壹度 | 欧洲“战略自主”?难!
·
2022年金融如何支持全面推进乡村振兴?人民银行发文明确
·
国家互联网信息办公室 国家税务总局 国家市场监督管理总局印发《关于进一步规范网络直播营利行为促进行业健康发展的意见》的通知
·
生态环境部:对碳排放数据弄虚作假行为“零容忍”
聚焦
·
俄乌谈判有进展 关键分歧待化解
·
如何解决健身场地难找、价高难题?国家发改委提出三大要点
·
住建部:将于今年4月开展房屋市政工程安全生产治理行动
·
外交部:中俄关系不结盟、不对抗、不针对第三方
·
第二十三次中国-欧盟领导人会晤将以视频方式举行
·
外交部批日本篡改教科书逃避历史罪责
·
亚洲杯中国组委会推出“云瞰亚洲杯”慢直播项目
综合
美联储或加速加息对抗通胀引担忧
新华社华盛顿3月29日电(国际观察)美联储或加速加息对抗通胀引担忧新华社记者高攀 熊茂伶 许缘近期,美国联邦
博鳌亚洲论坛2022年年会4月举行 国产品牌成官方指定手机
人民网北京3月30日电 (记者夏晓伦)记者近日获悉,博鳌亚洲论坛2022年年会定于4月20至22日在海南博鳌举行,年会