Linux命令——cut命令学习

阅读量：4284 次

发布时间：2019-05-27

本文共 3224 字，大约阅读时间需要 10 分钟。

一、定义

正如其名，cut的工作就是“剪”，具体的说就是在文件中负责剪切数据用的。cut是以每一行为一个处理对象的，这种机制和sed是一样的。

2、剪切依据

cut命令主要是接受三个定位方法：

第一，字节（bytes），用选项-b

第二，字符（characters），用选项-c

第三，域（fields），用选项-f

例：

一，按字节cut：

注意：一个空格算一个字节，一个汉字算三个字节

[root@localhost ~]# date

2011年08月11日星期四20:44:52 EDT

[root@localhost ~]# date |cut -b 1-4 取前四个字节

2011

[root@localhost ~]# date |cut -b 1-6

2011

[root@localhost ~]# date |cut -b 1-7 一个汉字算三个字节

2011年

[root@localhost ~]# date |cut -b 1-10

2011年08

多个定位之间用逗号隔开：

[root@localhost ~]# date |cut -b 1-7,10

2011年8

[root@localhost ~]# date |cut -b 10,1-7 cut会先把-b后面所有的定位进行从小到大排序，然后再提取

2011年8

负号的使用：

[root@localhost ~]# date |cut -b -4

2011

[root@localhost ~]# date |cut -b 4-

1年08月11日星期四21:05:30 EDT

[root@localhost ~]# date |cut -b -4,4-

2011年08月11日星期四21:06:53 EDT

-4表示从第一个字节到第四个字节，而4-表示从第四个字节到行尾。这两种情况下，都包括了第4个字节“1”。如果我执行date |cut -b -4,4-，会输出整行，不会出现连续两个重叠的1

二，按字符cut：

按字符cut相对比较简单，中文字符和空格都算一个字符。

[root@localhost ~]# date |cut -c 1-5

2011年

[root@localhost ~]# date |cut -c 5,9,13

年月日

三、按域cut

以/etc/passwd文件为例：

[root@localhost ~]# head -n5 /etc/passwd |cut -d : -f 1,3-5

root:0:0:root

bin:1:1:bin

daemon:2:2:daemon

adm:3:4:adm

lp:4:7:lp

-d指定域分隔符，-f 指定要剪出哪几个域，这个与awk的输出特定字段功能一样。

-d选项的默认间隔符就是制表符，所以当你就是要使用制表符的时候，完全就可以省略-d选项，而直接用－f来取域就可以了

如何分的清空格和制表符？

[root@localhost ~]# cat test 这个文件各单词间存在单个空格、制表符和多个空格

data11【单个空格】data12 【制表符】data13

data21【多个空格】data22【单个空格】data23

data31 【单个空格】data32 【多个空格data33

[root@localhost ~]# sed -n l test 用sed命令可以让制表符原形毕露~

data11 data12\tdata13$

data21 data22 data23$

data31 data32 data33$

[root@localhost ~]# cat test |cut -f 2

data13

data21 data22 data23

data31 data32 data33

[root@localhost ~]# cat test |cut -d " " -f 2 cut的间隔符只允许是一个字符

cut: the delimiter must be a single character

请尝试执行“cut --help”来获取更多信息。

[root@localhost ~]# cat test |cut -d " " -f 2

data12 data13 中间那个空白字符是制表符

第一个空格后面还是空格，所以输出空格

data32 单个空格后面就是data32

+++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++

=========================================================================================================================

　cut命令从文件的每一行剪切字节、字符和字段并将它们写至标准输出。它是以文件的每一行作为处理对象的。

　　命令格式：cut [选项] [范围] 文件。选项用来指定单位(字节、字符还是字段)，范围指定选项的位置。

　　常用的选项有：

　　-b：指定以字节为单位显示选中内容

　　-c：指定以字符为单位显示选中内容

　　-f：指定以字段为单位显示选中内容

　　-d：指定字段的分界符，默认为制表符

　　其它的选项还有-n（仅和-b选项一起使用）、-s（仅和-f选项一起使用）　

　　范围表示：

　　n：第n个字节/字符/字段

　　n-：从第n个字节/字符/字段到最后一个字节/字符/字段

　　n-m：从第n个字节/字符/字段到第m个字节/字符/字段，包括m

　　-m：从行的开头到第m个字节/字符/字段，包括m

　　-：从行开头到行的最后

　　一、显示passwd文件中用户名、密码、用户ID和用户目录。

passwd文件每行分为七列，以:为分隔符；这七列依次是用户名、密码、用户ID、组ID、用户描述、用户目录、用户bash。由于passwd文件内容过多，我们这里用sed显示其中的1-6行。　　

　　二、显示前两个字节或前两个字符　

　　看起来-b选项和-c选项没什么区别嘛。。其实不然，若文件内容有汉字就可以看出来两者的差别了。　

　　三、

　　你是不是有些疑惑：汉字不是占两个字节么？cut -b 1-2 test1正好是显示两个字节呀。。不错，网上有很多资料都是这么说的，而且它们会告诉你用cut -b 1-3就可以完整的显示出一个汉字，原因是cut -b 1-2以字节为单位来处理，字符被“切成两半”，因此无法正常显示。

　　但是看了下面的图片，你或许会有不同的看法：　

呵呵。。实在不好意思，貌似从utf-8到gb2312的编码转换没有成功，但是没关系，这不影响我们对为什么cut -b 1-2不能正确显示汉字的判断。

　这个图片就可以说明-b和-c选项的差别：我们用cut -b 1-2 test1时，没有显示出汉字，但是换成-c选项则可以显示两个汉字。这就是-b（字节）和-c（字符）之间的区别。

　　我们看到编码为utf-8的test1文件第一行一共有５个汉字和３个字母，但wc -c统计是19个字节，而编码为iso-8859的test文件统计为14个字节！（wc -c在统计字节时，结束符/换行符也作为一个字节。）

这表明：在utf-8编码下，汉字是占三个字节的！

　大家可自己动手试验一下，在utf-8编码下，用cut -b 1-3可以显示一个汉字，而在其它编码如gb2312、iso-8859等编码下，用cut -b 1-2就可以显示一个汉字。

转载地址：http://hyngi.baihongyu.com/

你可能感兴趣的文章

Python中用format函数格式化字符串的用法

查看>>

详解Python中的join()函数的用法

查看>>

python List与String 转化问题

Python collections模块实例讲解

查看>>

python项目内import其他内部package的模块的正确方法

查看>>

Win7 x64 PL/SQL 连接 Oralce 提示 Could not initialize "%ORACLE_HOME%\bin\oci.dll"

查看>>

pl/sql与oracle 连接问题

查看>>

ORA-12560: TNS: 协议适配器错误的解决方法

查看>>

shapley值法初学入门详细介绍

查看>>

聚类系数（clustering coefficient）计算

查看>>

看看大牛们是怎样获得英文综述（reviews）的?(干细胞论坛)

查看>>

拉普拉斯平滑处理 Laplace Smoothing

查看>>

Spearman秩相关系数和Pearson皮尔森相关系数

查看>>