看得透又看得远者prevail. ppt.cc/flUmLx ppt.cc/fqtgqx ppt.cc/fZsXUx ppt.cc/fhWnZx ppt.cc/fnrkVx ppt.cc/f2CBVx: 编码问题(for Linux)

Monday, 29 October 2012

编码问题(for Linux)

文件系统（目录、文件名）编码转换

查看文件编码格式
1. 使用VIM
使用命令 :set fileencoding 即可显示文件编码
如果你只是想查看其它编码格式的文件或者想解决用Vim查看文件乱码的问题，那么你可以在
~/.vimrc 文件中添加以下内容：
set encoding=utf-8 fileencodings=ucs-bom,utf-8,cp936
这样，就可以让vim自动识别文件编码（可以自动识别UTF-8或者GBK编码的文件），其实就是依照fileencodings提供的编码列表尝试，如果没有找到合适的编码，就用latin-1(ASCII)编码打开。

2. 使用enca ( Extremely Naive Charset Analyser )
这个包，系统默认可能没有安装，需要安装。
使用方法：$enca filename

文件编码转换
1. 使用VIM
:set fileencoding=utf-8
保存退出。

2. 使用enca包工具enconv转换文件编码
比如要将一个GBK编码的文件转换成UTF-8编码，操作如下：
enconv -L zh_CN -x UTF-8 filename

3. iconv 转换，（iconv属于glibc-common包，一般系统都有）iconv的命令格式如下：
iconv -f encoding -t encoding inputfile
比如将一个UTF-8 编码的文件转换成GBK编码
iconv -f GBK -t UTF-8 file1 -o file2

Linux文件名编码转换
从Linux往windows 拷贝文件或者从windows往Linux拷贝文件，有时会出现中文文件名乱码的情况，出现这种问题的原因是因为，windows的文件名中文编码默认为 GBK,而Linux中默认文件名编码为UTF8,由于编码不一致，所以导致了文件名乱码的问题，解决这个问题需要对文件名进行转码。

在Linux中专门提供了一种工具convmv进行文件名编码的转换，可以将文件名从GBK转换成UTF-8编码,或者从UTF-8转换到GBK。
首先看一下你的系统上是否安装了convmv,如果没安装的话用:
yum -y install convmv
安装。
下面看一下convmv的具体用法：
convmv -f 源编码 -t 新编码 [选项] 文件名
常用参数：
-r 递归处理子文件夹
–notest 真正进行操作，请注意在默认情况下是不对文件进行真实操作的，而只是试验。
–list 显示所有支持的编码
–unescap 可以做一下转义，比如把%20变成空格
比如我们有一个utf8编码的文件名，转换成GBK编码，命令如下：
convmv -f UTF-8 -t GBK –notest utf8编码的文件名
这样转换以后”utf8编码的文件名”会被转换成GBK编码（只是文件名编码的转换，文件内容不会发生变化）。
注意：不要在NTFS和FAT文件系统中使用此命令，否则可能产生意外结果，如果要在Linux中正确的显示NTFS和 FAT的中文件名，可以通过mount参数来解决，具体方法查看一下man手册。

Total Pageviews

Monday, 29 October 2012

编码问题(for Linux)