导学案 因特网信息的查找
2.2 因特网信息的查找——搜索引擎
【课标导航】
1.知道搜索引擎,了解搜索引擎的分类。
2.掌握搜索引擎的一般使用方法,能够利用搜索引擎获取信息。
【重点理解】
1.搜索引擎
因特网是获取信息资源的主要途径,我们将用于因特网信息查找的网络工具(网站)称为搜索引擎。 搜索引擎按工作方式主要分为:全文搜索,目录索引类搜索,元搜索三类。
2.全文搜索与目录索引类搜索
全文搜索针对从因特网上提取的网站信息(网页文字为主)建立索引数据库,当用户查询时,在库中检索与查询条件相符的相关记录,并输出结果。
全文搜索引擎使用方法也称为“关键词查询”,即在网站搜索框内输入待查找信息的关键词,选择“搜索”,系统自动在索引数据库中查找与关键词匹配的信息,并排列显示出来。
目录索引类搜索是将收取到的各个网站(网页)信息按照设计好的目录分类建立索引数据库,当用户查询时,用户依据搜索引擎罗列的一系列目录逐级查找,从而获得所需信息;目录索引类搜索也称为“分类搜索”。
3.合理选择搜索引擎以获取信息
全文搜索与目录索引类搜索在搜索方面各有利弊,对查询目标明确的信息一般多采用全文搜索,而对于被搜索内容存在一定的范围限制,如搜索某一类信息,选择目录索引搜索更为有效。
【延伸拓展】
1.常用搜索引擎网址及别称
百度<http://www.baidu.com/>;
Google<http://www.google.com/>;谷歌
搜狐<http://www.sohu.com/>;搜狗
新浪<http://www.sina.com/>;爱问
网易<http://www.163.com/>;有道
雅虎<http://cn.yahoo.com/>;
说明:
(1)全文搜索引擎代表:百度、Google;目录索引搜索引擎代表:搜狐、新浪、网易、雅虎;两者各有利弊,当前许多搜索引擎都设置了两种搜索方式,兼顾发展,如Google、新浪,搜狐等。
(2)专门的搜索引擎:百度、Google;提供搜索引擎的综合网站:搜狐、新浪、网易、雅虎。
(3)网站中往往将搜索引擎作为一个独立的产品(栏目)来开发,并另外起一个别称,如搜狗等。
2.“蜘蛛”程序,“机器人”程序
全文搜索引擎的检索程序,能够自动访问互联网,并沿着任何网页中的所有URL爬到其他网页,重复这个过程,并把爬过的所有网页收集回来。
3.关键词
具体说明和体现要查找信息的字、词。如要求查找“1982年世界杯足球赛冠军的得主”,可确定关键词为:1982、世界杯、足球、冠军。
4.元搜索引擎
多个搜索引擎结合起来进行搜索,即提交一次搜索请求,通过多个预设搜索引擎检索,并对结果进行二次加工,提高全面性。但策略简单,速度慢。例:DOGPILE<www.dogpile.com>
【典例剖析】
1.用分类查找的方法查找:
①历史文化类的网站。
②天文爱好者网站。
解析:本题主要让学生通过练习熟悉目录索引搜索信息的一般方法和操作;另外通过引导使学生体会对查找信息范围有明显类属的内容通过分类查找更有效。
答案:选择某目录索引搜索引擎,选择历史、文化或天文地理相关主题,继续选择历史文化类等相关子主题,从而得到所需网站信息。
2. 用关键词查找的方法查找:
①1982年世界杯足球赛冠军的得主。
②天狼星的图片。
③狮子座流星雨的图片。
解析:本题主要让学生通过练习熟悉全文搜索的一般方法,关键词的选取等内容;另外利用全文搜索信息的适用情况。
答案:在百度搜索框内分别输入“1982 世界杯 足球 冠军”,“天狼星 图片”,“狮子座 流星雨 图片”,选择“搜索”按钮完成信息查找。
【课堂反馈】
1.我们一般通过( )工具在因特网上查找信息和资料。
A.电子邮件 B.搜索引擎 C.QQ D.迅雷
2.下列选项中,属于搜索引擎的是( )。
A.Google B.百度 C.雅虎 D.淘宝
3. 某同学在Google搜索栏输入“新疆 喀纳斯”,然后单击“搜索”按钮,他的这种信息检索属于( )
A.分类搜索 B.全文搜索 C.多媒体信息检索 D.专业垂直搜索
4.用百度在互联网上搜索朱自清的《荷塘月色》,你所选择的关键词是( )
A.朱自清 B. 荷塘月色 C. 朱自清 荷塘月色 D.散文
5.用分类搜索查找NBA相关新闻信息,并完成以下表格。
搜索引擎 |
各级主题分类目录 |
信息数(相关网页篇数) |
|
|
|
|
|
|
|
|
|
|
|
|
6.尝试使用不同的搜索引擎,相同的关键词查询我国珍惜保护动物的信息。
关键词 |
搜索引擎 |
信息数(相关网页篇数) |
|
|
|
|
|
|
|
|
|
【课后训练】
一.不定项选择题:
1.分类搜索和全文搜索各有利弊,当前许多搜索引擎都在朝两者兼备的方向发展,以下搜索引擎( )设置了两种搜索方式。
A.雅虎 B.Google C.新浪 D.搜狐
2.下列说法正确的是( )
A.搜索引擎按其工作方式可划分为全文搜索引擎和目录索引类搜索引擎
B.搜索引擎按其工作方式可划分为目录索引类搜索引擎与分类式搜索引擎 C.全文搜索方式又被称为分类搜索
D.目录索引类搜索引擎的使用方法称为“关键词查询” 3.在搜索引擎搜索框中输入“乌鲁木齐教育”,然后单击“搜索”则显示( )。
A.与搜索内容有关的网址
B.与搜索内容有关的网页
C.乌鲁木齐教育网站的首页
D.乌鲁木齐教育局邮箱
二.非选择题
4.搜索关于“网络实名”信息,了解什么是网络实名,它的优点是什么?如何获得网络实名?
【阅读材料】
搜索引擎原理
搜索引擎并不真正搜索互联网,它搜索的实际上是预先整理好的网页索引数据库。搜索引擎,也不能真正理解网页上的内容,它只能机械地匹配网页上的文字。
真正意义上的搜索引擎,通常指的是收集了互联网上几千万到几十亿个网页并对网页中的每一个文字(即关键词)进行索引,建立索引数据库的全文搜索引擎。当用户查找某个关键词的时候,所有在页面内容中包含了该关键词的网页都将作为搜索结果被搜索出来。在经过复杂的算法进行排序后,这些结果将按照与搜索关键词的相关度高低,依次排列。
现在的搜索引擎已普遍使用超链分析技术,除了分析索引网页本身的文字,还分析索引所有指向该网页的链接的URL、AnchorText,甚至链接周围的文字。所以,有时候,即使某个网页A中并没有某个词比如“恶魔撒旦”,但如果有别的网页B用链接“恶魔撒旦”指向这个网页A,那么用户搜索“恶魔撒旦”时也能找到网页A。而且,如果有越多网页(C、D、E、F……)用名为“恶魔撒旦”的链接指向这个网页A,或者给出这个链接的源网页(B、C、D、E、F……)越优秀,那么网页A在用户搜索“恶魔撒旦”时也会被认为更相关,排序也会越靠前。
搜索引擎的原理,可以看做三步:从互联网上抓取网页→建立索引数据库→在索引数据库中搜索排序。
1. 从互联网上抓取网页
利用能够从互联网上自动收集网页的Spider系统程序,自动访问互联网,并沿着任何网页中的所有URL爬到其他网页,重复这个过程,并把爬过的所有网页收集回来。
2. 建立索引数据库
由分析索引系统程序对收集回来的网页进行分析,提取相关网页信息(包括网页所在URL、编码类型、页面内容包含的所有关键词、关键词位置、生成时间、大小、与其他网页的链接关系等),根据一定的相关度算法进行大量复杂计算,得到每一个网页针对页面文字中及超级链接中每一个关键词的相关度(或重要性),然后用这些相关信息建立网页索引数据库。
3. 在索引数据库中搜索排序
当用户输入关键词搜索后,由搜索系统程序从网页索引数据库中找到符合该关键词的所有相关网页。因为所有相关网页针对该关键词的相关度早已算好,所以只需按照现成的相关度数值排序,相关度越高,排名越靠前。
最后,由页面生成系统将搜索结果的链接地址和页面内容摘要等内容组织起来返回给用户。
搜索引擎的Spider一般要定期重新访问所有网页(各搜索引擎的周期不同,可能是几天、几周或几月,也可能对不同重要性的网页有不同的更新频率),更新网页索引数据库,以反映出网页文字的更新情况,增加新的网页信息,去除死链接,并根据网页文字和链接关系的变化重新排序。这样,网页的具体文字变化情况就会反映到用户查询的结果中。
互联网虽然只有一个,但各搜索引擎的能力和偏好不同,所以抓取的网页各不相同,排序算法也各不相同。大型搜索引擎的数据库储存了互联网上几千万至几十亿的网页索引,数据量达到几千G甚至几万G。但即使最大的搜索引擎建立超过二十亿网页的索引数据库,也只能占到互联网上普通网页的不到30%,不同搜索引擎之间的网页数据重叠率一般在70%以下。我们使用不同搜索引擎的重要原因,就是因为它们能分别搜索到不同的网页。而互联网上有更大量的网页,是搜索引擎无法抓取索引的,也是我们无法用搜索引擎搜索到的。