基于轻量级php搜索sphider站内搜索安装说明

  • 时间:
  • 浏览:206
  • 来源:无双科技

安装

1.解压缩文件,然后将它们复制到服务器,例如,复制到
/ home / youruser / public_html / sphider(后称为[path_of_sphider])

。2.在服务器中,在MySQL中创建一个数据库来保存Sphider数据。

a)在命令提示符下键入(登录MySQL):
mysql -u <您的用户名> -p
出现提示时输入密码。

b)在MySQL中,键入:
CREATE DATABASE sphider;

当然,您可以为数据库使用其他名称代替sphider

c)使用exit退出MySQL。

有关如何创建数据库以及授予/获取必要权限的更多信息,请访问MySQL.com。

3.设置目录中,编辑database.php文件,然后更改$ database$ mysql_user$ mysql_password$ mysql_host以更正值(如果您不知道$ mysql_host应该是什么,它应该保持原样-'localhost ') 。

4.在浏览器中打开install.php脚本(管理目录),这将创建Sphider操作所需的表。

或者,可以使用Sphider发行版的sql目录中给出的tables.sql脚本手动创建表。在提示符下,键入
mysql -u <您的用户名> -p sphider_db <[sphider的路径] /sql/tables.sql

5. 在admin目录中,编辑auth.php以更改管理员用户名和密码(默认值为'admin'和'admin')。

6.在浏览器中打开admin / admin.php并开始建立索引。

7. search.php是默认的搜索页面。

索引选项

完整:继续进行索引编制,直到没有其他可允许的链接为止。

到深度:索引到给定的深度,其中深度表示从起始页面可以离开页面的“点击”次数。深度0意味着只有起始页面被索引,深度为1个索引页开始,所有从它等链接到的网页

重新建立索引:选中此复选框,索引是即使网页已经被收录被迫。

蜘蛛可以离开网域:默认情况下,Sphider永远不会离开给定的域,因此不会遵循domain.com指向domain2.com的链接。通过选中此选项,Sphider可以离开域,但是在这种情况下,强烈建议定义适当的必须包含/必须不包含字符串列表,以防止蜘蛛走得太远。

必须包含/不得包含:请参阅此处以获得说明。

客制化

如果要更改Sphider的默认行为,则可以通过管理界面或直接settings目录中编辑conf.php来执行此操作。 要更改搜索页面的外观以适合您的网站,请在模板目录中修改或添加模板修改search.css文件以及页眉和页脚模板(header.htmlfooter.html应该足够了通过编辑其余模板文件,可以进行较大的修改。 admin / ext.txt 中提供了未检查索引的文件类型列表未索引的常用单词列表在

include / common.txt

从命令行使用索引器

可以使用以下语法从命令行蜘蛛化网页:

php spider.php <options>

   其中<options>是

-所有重新索引数据库中的所有内容
-u 将网址设置为索引
-F将索引深度设置为全(无限深度)
-d 将索引深度设置为
-l允许蜘蛛离开初始域
-r设置Spider重新索引网站
-m <字符串>设置网址必须包含的字符串(使用\ n作为多个字符串之间的分隔符)
-n <字符串>设置网址不得包含的字符串(使用\ n作为多个字符串之间的分隔符)

例如,要对http:/ / ww w.domain.com/test.html进行爬网并将其索引到深度2,请使用

php spider.php -u http:/ /ww w.domain.com/test.html -d 2

如果需要要重新索引相同的URL,请使用

php spider.php -u http:/ /ww w.domain.com/test.html -r

索引pdf和doc文件

可以通过外部二进制文件为PDF和doc文件建立索引。下载并安装 pdftotextcatdoc并在conf.php中设置location(path)(请注意,在Windows下,您不应在定义可执行文件的路径时使用空格)。另外,在“管理”部分中,选中“索引pdf”和“索引doc”框(或者,在conf.php中将$ index_pdf和$ index_doc参数设置为1)。

防止页面被索引

Robots.txt

防止页面被索引的最常见方法是使用robots.txt标准,方法是将robots.txt文件放入服务器的根目录中,或在页面标题中添加必要的meta标签(有关如何为此,请参见此处)。

必须包含/不得包含字符串列表

Sphider支持的功能强大的选项是定义站点的必须包含/不包含字符串列表(为此,请在“索引”屏幕中单击“高级”选项)。在“必须不包括”列表中包含字符串的所有url都将被忽略。同样,将忽略“必须包含”列表中不包含任何字符串的任何url。字符串列表中的所有字符串都应以换行符(输入)分隔。例如,为防止将您站点中的论坛编入索引,可以将ww w.yoursite.com/forum添加到“不得包含”列表中。这意味着所有包含该字符串的url将被忽略,并且不会被索引。还支持使用Perl样式正则表达式而不是文字字符串。每个以'*'开头的字符串都被视为正则表达式,因此'* / [a] + /'

忽略链接

<a href..>标记中的Sphider尊重rel =“ nofollow”属性,因此,例如<a href="foo.html" rel="nofollow>中的链接foo.html被忽略。

忽略页面的一部分

Sphider包含一个选项,可将部分页面排除在索引之外。例如,当某些关键字出现在大多数页面的某些部分(例如页眉,页脚或菜单)时,这可以用于防止搜索结果泛滥。<!-sphider_noindex->​​和<!-/ sphider_noindex->​​标记之间的页面的任何部分均未编入索引,但是会跟随其中的链接。

Dome下载地址:

https://www.wsjianzhan.com/morenfenlei/phpsphidersousuozhanneisousuo.html


猜你喜欢

请求百度开发平台接口报错解决方案,282004 invalid parameter(s) 及

请求百度开发平台接口报错解决方案,282004 invalid parameter(s) 及'error_code': 282131 'error_msg': 'input text too long'

因为百度开发平台返回的数据都为gbk编码,而json_decode只能转utf-8编码的数据;使用iconv()函数转为utf-8编码;{'error_code':282131

2020-08-07

百度云、阿里云、开启CDN后,PHP获取用户真实IP的方法

百度云、阿里云、开启CDN后,PHP获取用户真实IP的方法

最近网站上CDN,但上CDN的同时,要获取到用户的真实IP地址。虽然网上有很多关于网站在CDN加速的情况下,PHP获取用户真实IP地址的方法,但总觉的不可靠,还是自己测试一下最

2020-08-06

如何使用chrome浏览器模拟微信访问网页?

如何使用chrome浏览器模拟微信访问网页?

APP、微信小程序开发时,我们经常需要使用电脑模拟微信访问,今天就教你如何使用谷歌、360浏览器的F12功能模拟微信访问网页。第一步:使用谷歌浏览器打开网页,按下F12或FN+

2020-08-04

php QRcode::png图片生成base64_encode后图片无法显示,暗中77u/ BOM头,让你猝不及防

php QRcode::png图片生成base64_encode后图片无法显示,暗中77u/ BOM头,让你猝不及防

最近做了一个支付宝的扫码支付功能,网上参考稳献一大篇,马上搬砖上码,功夫不付有心人,很快就OK了,上线服务器测试,既然无法显示二维码,以下是生成的二维码data:image/p

2020-07-31

深圳网站建设扫码支付功能升级维护