基于轻量级php搜索sphider站内搜索安装说明
- 时间:
- 浏览:1566
- 来源:无双科技
安装
1. 解压缩文件,然后将它们复制到服务器,例如,复制到
/ home / youruser / public_html / sphider (后称为[path_of_sphider]) 。
2. 在服务器中,在MySQL中创建一个数据库来保存Sphider数据。
a)在命令提示符下键入(登录MySQL):
mysql -u <您的用户名> -p 出现提示时输入密码。
b)在MySQL中,键入:
CREATE DATABASE sphider;
当然,您可以为数据库使用其他名称代替 sphider 。
c)使用 exit 退出MySQL。
有关如何创建数据库以及授予/获取必要权限的更多信息,请访问 MySQL.com。
3. 在 设置 目录中,编辑 database.php 文件,然后更改 $ database , $ mysql_user , $ mysql_password 和 $ mysql_host 以更正值(如果您不知道 $ mysql_host 应该是 什么 ,它应该保持原样 -'localhost ') 。
4. 在浏览器中 打开 install.php 脚本( 管理 目录),这将创建Sphider操作所需的表或者可以使用Sphider发行版的sql目录中给出的tables.sql脚本手动创建表。 在提示符下,键入 mysql -u <您的用户名> -p sphider_db <[sphider的路径] /sql/tables.sql
5. 在 admin 目录中,编辑 auth.php 以更改管理员用户名和密码(默认值为'admin'和'admin')。
6. 在浏览器中 打开 admin / admin.php 并开始建立索引。
7. search.php 是默认的搜索页面。
索引选项
完整 :继续进行索引编制,直到没有其他可允许的链接为止。
到深度 :索引到给定的深度,其中深度表示从起始页面可以离开页面的“点击”次数。 深度0意味着只有起始页面被索引,深度为1个索引页开始,所有从它等链接到的网页
重新建立索引 :选中此复选框,索引是即使网页已经被收录被迫。
蜘蛛可以离开网域 :默认情况下,Sphider永远不会离开给定的域,因此不会遵循domain.com指向domain2.com的链接。 通过选中此选项,Sphider可以离开域,但是在这种情况下,强烈建议定义适当的必须包含/必须不包含字符串列表,以防止蜘蛛走得太远。
必须包含/不得包含 :请参阅 此处 以获得说明。
客制化
如果要更改Sphider的默认行为,则可以通过管理界面或直接 在 settings 目录中 编辑 conf.php 来执行此操作 。 要更改搜索页面的外观以适合您的网站,请在 模板 目录中 修改或添加 模板 。 修改 search.css 文件以及页眉和页脚模板( header.html 和 footer.html ) 应该足够了 。 通过编辑其余模板文件,可以进行较大的修改。 admin / ext.txt 中提供了未检查索引的文件类型列表 。 未索引的常用单词列表在
include / common.txt 。
从命令行使用索引器
可以使用以下语法从命令行蜘蛛化网页:
php spider.php <options>
其中<options>是
-所有重新索引数据库中的所有内容
-u 将网址设置为索引
-F将索引深度设置为全(无限深度)
-d 将索引深度设置为
-l允许蜘蛛离开初始域
-r设置Spider重新索引网站
-m <字符串>设置网址必须包含的字符串(使用\ n作为多个字符串之间的分隔符)
-n <字符串>设置网址不得包含的字符串(使用\ n作为多个字符串之间的分隔符)
例如,要对http:/ / www.domain.com/test.html进行爬网并将其索引到深度2,请使用
php spider.php -u http:/ /ww w.domain.com/test.html -d 2
如果需要要重新索引相同的URL,请使用
php spider.php -u http:/ /ww w.domain.c_om/test.html -r
索引pdf和doc文件
可以通过外部二进制文件为PDF和doc文件建立索引。 下载并安装 pdftotext 和 catdoc 并在conf.php中设置location(path)(请注意,在Windows下,您不应在定义可执行文件的路径时使用空格)。 另外,在“管理”部分中,选中“索引pdf”和“索引doc”框(或者,在conf.php中将$ index_pdf和$ index_doc参数设置为1)。
防止页面被索引
Robots.txt
防止页面被索引的最常见方法是使用robots.txt标准,方法是将robots.txt文件放入服务器的根目录中,或在页面标题中添加必要的meta标签(有关如何为此,请参见 此处 )。
必须包含/不得包含字符串列表
Sphider支持的功能强大的选项是定义站点的必须包含/不包含字符串列表(为此,请在“索引”屏幕中单击“高级”选项)。 在“必须不包括”列表中包含字符串的所有url都将被忽略。 同样,将忽略“必须包含”列表中不包含任何字符串的任何url。 字符串列表中的所有字符串都应以换行符(输入)分隔。 例如,为防止将您站点中的论坛编入索引,可以将ww w.yoursite.com/forum添加到“不得包含”列表中。 这意味着所有包含该字符串的url将被忽略,并且不会被索引。 还支持使用Perl样式正则表达式而不是文字字符串。 每个以'*'开头的字符串都被视为正则表达式,因此'* / [a] + /'
忽略链接
<a href..>标记中的Sphider尊重rel =“ nofollow”属性,因此,例如<a href="foo.html" rel="nofollow>中的链接foo.html被忽略。
忽略页面的一部分
Sphider包含一个选项,可将部分页面排除在索引之外。 例如,当某些关键字出现在大多数页面的某些部分(例如页眉,页脚或菜单)时,这可以用于防止搜索结果泛滥。 <!-sphider_noindex->??和<!-/ sphider_noindex->??标记之间的页面的任何部分均未编入索引,但是会跟随其中的链接。
Dome下载地址:
https://www.wsjianzhan.com/morenfenlei/phpsphidersousuozhanneisousuo.html
猜你喜欢