本文共 3224 字,大约阅读时间需要 10 分钟。
正如其名,cut的工作就是“剪”,具体的说就是在文件中负责剪切数据用的。cut是以每一行为一个处理对象的,这种机制和sed是一样的。
2、剪切依据
cut命令主要是接受三个定位方法:
第一,字节(bytes),用选项-b
第二,字符(characters),用选项-c
第三,域(fields),用选项-f
例:
一,按字节cut:
注意:一个空格算一个字节,一个汉字算三个字节
[root@localhost ~]# date
2011年08月11日 星期四20:44:52 EDT
[root@localhost ~]# date |cut -b 1-4 取前四个字节
2011
[root@localhost ~]# date |cut -b 1-6
2011
[root@localhost ~]# date |cut -b 1-7 一个汉字算三个字节
2011年
[root@localhost ~]# date |cut -b 1-10
2011年08
多个定位之间用逗号隔开:
[root@localhost ~]# date |cut -b 1-7,10
2011年8
[root@localhost ~]# date |cut -b 10,1-7 cut会先把-b后面所有的定位进行从小到大排序,然后再提取
2011年8
负号的使用:
[root@localhost ~]# date |cut -b -4
2011
[root@localhost ~]# date |cut -b 4-
1年08月11日 星期四21:05:30 EDT
[root@localhost ~]# date |cut -b -4,4-
2011年08月11日 星期四21:06:53 EDT
-4表示从第一个字节到第四个字节,而4-表示从第四个字节到行尾。这两种情况下,都包括了第4个字节“1”。如果我执行date |cut -b -4,4-,会输出整行,不会出现连续两个重叠的1
二,按字符cut:
按字符cut相对比较简单,中文字符和空格都算一个字符。
[root@localhost ~]# date |cut -c 1-5
2011年
[root@localhost ~]# date |cut -c 5,9,13
年月日
三、按域cut
以/etc/passwd文件为例:
[root@localhost ~]# head -n5 /etc/passwd |cut -d : -f 1,3-5
root:0:0:root
bin:1:1:bin
daemon:2:2:daemon
adm:3:4:adm
lp:4:7:lp
-d指定域分隔符,-f 指定要剪出哪几个域,这个与awk的输出特定字段功能一样。
-d选项的默认间隔符就是制表符,所以当你就是要使用制表符的时候,完全就可以省略-d选项,而直接用-f来取域就可以了
如何分的清空格和制表符?
[root@localhost ~]# cat test 这个文件各单词间存在单个空格、制表符和多个空格
data11【单个空格 】data12 【制表符】data13
data21【多个空格】data22【单个空格】data23
data31 【单个空格 】data32 【 多个空格data33
[root@localhost ~]# sed -n l test 用sed命令可以让制表符原形毕露~
data11 data12\tdata13$
data21 data22 data23$
data31 data32 data33$
[root@localhost ~]# cat test |cut -f 2
data13
data21 data22 data23
data31 data32 data33
[root@localhost ~]# cat test |cut -d " " -f 2 cut的间隔符只允许是一个字符
cut: the delimiter must be a single character
请尝试执行“cut --help”来获取更多信息。
[root@localhost ~]# cat test |cut -d " " -f 2
data12 data13 中间那个空白字符是制表符
第一个空格后面还是空格,所以输出空格
data32 单个空格后面就是data32
+++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++
=========================================================================================================================
cut命令从文件的每一行剪切字节、字符和字段并将它们写至标准输出。它是以文件的每一行作为处理对象的。
命令格式:cut [选项] [范围] 文件。选项用来指定单位(字节、字符还是字段),范围指定选项的位置。
常用的选项有:
-b:指定以字节为单位显示选中内容
-c:指定以字符为单位显示选中内容
-f:指定以字段为单位显示选中内容
-d:指定字段的分界符,默认为制表符
其它的选项还有-n(仅和-b选项一起使用)、-s(仅和-f选项一起使用)
范围表示:
n:第n个字节/字符/字段
n-:从第n个字节/字符/字段到最后一个字节/字符/字段
n-m:从第n个字节/字符/字段到第m个字节/字符/字段,包括m
-m:从行的开头到第m个字节/字符/字段,包括m
-:从行开头到行的最后
一、显示passwd文件中用户名、密码、用户ID和用户目录。
passwd文件每行分为七列,以:为分隔符;这七列依次是用户名、密码、用户ID、组ID、用户描述、用户目录、用户bash。由于passwd文件内容过多,我们这里用sed显示其中的1-6行。
二、显示前两个字节或前两个字符
看起来-b选项和-c选项没什么区别嘛。。其实不然,若文件内容有汉字就可以看出来两者的差别了。
三、
你是不是有些疑惑:汉字不是占两个字节么?cut -b 1-2 test1正好是显示两个字节呀。。不错,网上有很多资料都是这么说的,而且它们会告诉你用cut -b 1-3就可以完整的显示出一个汉字,原因是cut -b 1-2以字节为单位来处理,字符被“切成两半”,因此无法正常显示。
但是看了下面的图片,你或许会有不同的看法:
呵呵。。实在不好意思,貌似从utf-8到gb2312的编码转换没有成功,但是没关系,这不影响我们对为什么cut -b 1-2不能正确显示汉字的判断。
这个图片就可以说明-b和-c选项的差别:我们用cut -b 1-2 test1时,没有显示出汉字,但是换成-c选项则可以显示两个汉字。这就是-b(字节)和-c(字符)之间的区别。
我们看到编码为utf-8的test1文件第一行一共有5个汉字和3个字母,但wc -c统计是19个字节,而编码为iso-8859的test文件统计为14个字节!(wc -c在统计字节时,结束符/换行符也作为一个字节。)
这表明:在utf-8编码下,汉字是占三个字节的!
大家可自己动手试验一下,在utf-8编码下,用cut -b 1-3可以显示一个汉字,而在其它编码如gb2312、iso-8859等编码下,用cut -b 1-2就可以显示一个汉字。
转载地址:http://hyngi.baihongyu.com/