Total Pageviews

Wednesday 31 August 2016

Privoxy简明教程(不仅仅是把socks代理转换为http代理)

我估计八成人第一遍看 Privoxy 手册-http://www.privoxy.org/3.0.21/user-manual/index.html,会一头雾水。
所谓「站得高,看得远」,一旦对 Privoxy 整体结构有把握,自然胸有成竹,做得到有的放矢地查阅手册,而不是一头栽进茫茫的配置项中。

Privoxy 用途#
Privoxy 是一个代理软件,代理 – 简单说,就是进出你电脑的流量的中介。借由它,我们可以控制出去的请求、返回的响应。不必要的请求 – 比如视频广告的地址、图片广告的地址,我们可以直接 block 掉;不必要的响应内容 – 比如页面中的文字广告,我们可以借由 filter 过滤掉,不让其显示。

当然,上面只是 Privoxy 最常见、最普通的用法,Privoxy 还有其它用法,这里且按下。

Privoxy 安装#
Privoxy 支持的平台非常多:

Windows 95 and later versions (98, ME, 2000, XP, Vista, Windows 7 etc.), GNU/Linux (RedHat, SuSE, Debian, Fedora, Gentoo, Slackware and others), Mac OS X (10.4 and upwards on PPC and Intel processors), OS/2, Haiku, DragonFly, FreeBSD, NetBSD, OpenBSD, Solaris, and various other flavors of Unix.

Windows 平台的安装自不用说,下载一个 exe 文件一路点击下一步;Linux 平台多数可以通过仓库安装。

比如 Ubuntu:

sudo apt-get install privoxy
又比如 openSUSE:

sudo zypper install privoxy
一般也建议使用仓库安装。

或者你实在愿意折腾,那就下载源代码-http://sourceforge.net/projects/ijbswa/files/Sources/自己编译安装。

启动 Privoxy#

安装完 Privoxy 后,需要启动它,因为各平台下的各个系统情况不一,这里就不一一介绍,请看手册说明-http://www.privoxy.org/user-manual/startup.html

设置 Privoxy#

以上准备就绪后,可以开始定制我们的 Privoxy 了。

一切从 config 文件说起。

config 文件在各种系统下位置、名称可能并不一样,比如 Windows 系统下,它其实叫 config.txt,在 openSUSE 系统下,它所在的目录为 /etc/privoxy,这个目录是个软链接,指向 /var/lib/privoxy/etc。

但通常,我们并不需要修改 config 文件,这里且让它默认着。

再来介绍两类文件:

action 文件
match-all.action
default.action
user.action
filter 文件
default.filter
user.filter
match-all.action、default.action、default.filter 这几个文件,建议不要做修改,因为 Privoxy 升级时会覆盖掉。所以把我们的配置内容写到 user.action 及 user.filter 中 – 这也是为什么两个文件叫 user.* 的缘故。

action 文件

action 文件定义 Privoxy 的动作,比如 {+block}:

{+block{干掉xy的 blog}}
.xyz.com
这一句,把我的网址挡掉,凡是 xyz.com 的请求,均会返回 403 – Privoxy 直接返回一个被 blocked 的提示页面,内容大概如下:

Your request for http://www.xyz.com/blog/ was blocked.
分析下代码的意义:

第一行,{+block} 是一个指令,block后的 {} 写的是要 block 的原因,不写也可以,作用类似于注释。
第二行, .xyz.com,这是一个上述指令要应用的网址,分两个部分,一个 domain,一个 path,domain 部分支持部分通配符,比如 *、?、[0-9]、[a-z];path 部分是指第一个 / 后的部分网址,支持 POSIX 1003.2 正则表达式,比 domain 部分灵活。具体见手册。
filter 文件

filter 文件定义过滤响应的规则,比如:

FILTER: blockBaiduAd 去除百度推广广告
s|</head>|<style type=text/css>\#content_left>table,[id*='00'],\#ec_im_container,\#ec_im_container+div,.ad-block,.EC_zwd_table{display: none !important;}</style></head>|g
s|</body><script.*</script></html>|</body></html>|g
第一行中,大写的 FILTER 表示定义一个过滤规则,blockBaiduAd 表示规则名称,再后面是说明。

第二行及第三行,是对返回的页面进行修改。比如你用过 Vi/Vim 或 sed 等工具,应该对 s 这个替换命令很熟悉。简单说,上面的语句就是把页面内的代码作过更换,这样一些文字广告就不在浏览器中显示了。

但是,user.filter 中只是定义过滤的规则,规则的应用,还是要在 action 文件中,所以以上规则写到 user.action 中,如下:

# 清理百度推广广告
{+filter{blockBaiduAd}}
.baidu.com
我想看过 action 文件配置结构的话,就已经知道这一句是什么意思:# 后是一个注释,filter 是指令,要求执行 blockBaiduAd 这条规则,.baidu.com 是应用到的网址。

在整个使用过程中,要多多借助 Privoxy 提供的工具,比如 http://config.privoxy.org/show-url-info,可以查看你定义的规则是否对某一条 URL 生效。