【Linux】Linux 常用命令

作者：LogM

0. 关于 Linux 命令的正则表达式

awk、sed、grep 使用的是不同标准的正则表达式，而且与 C++、Python、Java 中的正则表达式标准还不一样，真的蛋疼，详见正则表达式派别综述。

1. `find` 文件查找

# 查找txt文件
# -iname：忽略大小写
find . -name "*.txt"
find . -iname "*.txt"

# 正则表达式查找.txt和.cpp文件，注意特殊符号用`\`转义
# -iregex：忽略大小写
find . -regex ".*\.\(txt\|cpp\)$"
find . -iregex ".*\.\(txt\|cpp\)$"

# 使用`!`进行否定，查找非.txt或.cpp的所有文件
find . ! -regex ".*\.\(txt\|cpp\)$"

# 查找指定深度和指定类型：f为文件，d为目录，l为符号连接
find . -maxdepth 3 -type f

# 查找后进行指定操作，`-ok`逐文件提示是否进行操作，`-exec`无提示，注意结尾的`;`
find . -type f -name "*.txt" -ok cat {} \;
find . -type f -name "*.txt" -exec cat {} \;

2. `grep` 文本搜索

# 在文件中查找"match_pattern"，允许多个文件，支持正则表达式
grep "match_pattern" file_1 file_2 file_3

# grep 使用的正则表达式有点特殊，我自己会使用`-P`来打开"PCRE正则兼容"
grep -P "match_pattern" file_1 file_2 file_3

# 只打印匹配到的文件名
grep -l "match_pattern" file_1 file_2 file_3

# 忽略大小写
grep -i "match_pattern" file_name

# 输出除"match_pattern"的其他行
grep -v "match_pattern" file_name

# 输出的结果中，对匹配的区域进行高亮
grep "match_pattern" file_name --color=auto

# 只输出匹配"match_pattern"的区域，而非一行
grep -o "match_pattern" file_name

# 每个输出的前面带上这个区域在原文件中的位置（第一个字符为0，第二个字符为1，依次类推），一般`-b``-o`连用
grep -b -o "match_pattern" file_name

# 每行输出的前面带上这行在原文件中的行号
grep -n "match_pattern" file_name

# 统计文件中包含文本的行数
grep -c "match_pattern" file_name

# 在目录下递归查找，`-r`和`-R`效果相同
grep -r "match_pattern" path
grep -R "match_pattern" path

# `-e`允许多个"match_pattern"
grep -e ".*\.html" -e ".*\.php" file_name

# `-E`使用正则表达式的写法有所改变，等同于egrep，貌似是`|`和`&`不再需要`\`转义且`*`表示任意数量的任意字符
grep -E "*\.php|*\.html" file_name --color=auto
# 等同于
grep ".*\.html\|.*\.php" file_name

3. `xargs` 命令行参数转换

xargs 能够将输入数据转化为特定命令的命令行参数；这样，可以配合很多命令来组合使用。比如grep，比如find。

# 将多行输出转化为单行输出(`\n`是多行文本间的定界符)
cat file.txt| xargs

# 将单行转化为多行输出(`-n`指定每行显示的字段数)
cat single.txt | xargs -n 3

# xargs参数说明:
# -d 定义定界符 （默认为空格 多行的定界符为 \n）
# -n 指定输出为多行
# -I {} 指定替换字符串，这个字符串在xargs扩展时会被替换掉,用于待执行的命令需要多个参数时

# 复制所有图片文件到 /data/images 目录下
ls *.jpg | xargs -n1 -I {} cp {} /data/images

# 打印目录下所有 .cpp 的文件的行数
find source_dir/ -type f -name "*.cpp" -print0 |xargs -0 wc -l

4. `sort` 排序

# -n 按数字进行排序 VS -d 按字典序进行排序
# -r 逆序排序
# -k N 指定按第N列排序
# -t 指定分割符

sort -nrk 1 data.txt
sort -bd data # 忽略像空格之类的前导空白字符

# 对于指定分割符为特殊字符时需要注意
sort -t '\t' -k3 a.txt
# 上述命令报错：sort: multi-character tab `\t'
# 正确写法：
sort -t $'\t' -k3 a.txt

5. `uniq` 消除重复行

# 使用`uniq`前，必须先使用`sort`

sort unsort.txt | uniq  # 行去重后的结果

sort unsort.txt | uniq -c  # 行前打印该行重复次数

sort unsort.txt | uniq -d  # 只打印出现重复的行

6. `tr` 替换或删除字符

echo "HELLO WORLD" | tr 'A-Z' 'a-z'  # 大写字母转小写

cat text| tr '\t' ' '  # 制表符转空格

# -d 删除
cat file | tr -d '0-9' # 删除所有的数字字符

# -c 求补集
cat file | tr -c '0-9' '?'  # 把所有非数字的字符替换为'?'
cat file | tr -d -c '0-9 \n'  # 删除所有非数字的字符，注意换行和空格的保留

# -s 压缩文本中出现的重复字符；最常用于压缩多余的空格
cat file | tr -s ' '    # 删除重复的空格

# 字符类
# tr中可用各种字符类：
# alnum：字母和数字
# alpha：字母
# digit：数字
# space：空白字符
# lower：小写
# upper：大写
# cntrl：控制（非可打印）字符
# print：可打印字符
# 使用方法：tr [:class:] [:class:]
tr '[:lower:]' '[:upper:]'  # 大小写转换也可以这么写

7. `cut` 按列切分文本

# cut从每一行切割字符串，把指定列输出
# -b：以字节为单位，显示每行第n个字节
# -c：以字符为单位，显示每行第n个字符
# -f：以分隔符分割字段，显示每行第n个字段的内容
# -d：指定字段的分隔符，默认的字段分隔符为“TAB”
# --complement 求补，提取指定字段之外的列

# cut 取的范围：
# N- 第N个字段到结尾
# -M 第1个字段为M
# N-M N到M个字段

cut -d";" -f2,4 filename  # 提取文件的第2列和第4列，`;`分隔

cut -d";" -f3 --complement filename  # 提取文件除第3列外的所有列：

cut -c1-5 file # 打印第1到5个字符

8. `paste` 按列拼接文本

# 将两个文本按列拼接到一起

paste file1 file2   # 默认在列方向上合并
paste -s file1 file2   # 在行方向上合并
paste file1 file2 -d “,”  # 指定合并后的字段分隔符

9. `wc` 统计行和字符的工具

wc -l file # 统计行数
wc -w file # 统计单词数
wc -c file # 统计字符数

10. `sed` 文本替换利器

# s是sed命令，表示替换字符
# g是sed替换标记，表示全部替换
# 首处替换
seg 's/text/replace_text/' file   # 替换每一行的第一处匹配的text

# 全局替换
seg 's/text/replace_text/g' file

# -i 直接修改源文件
seg -i 's/text/repalce_text/g' file

# 移除空白行：
# d是sed命令，表示删除匹配的行
sed '/^$/d' file

# 变量转换，已匹配的字符串通过标记&来引用
echo this is en example | seg 's/\w+/[&]/g'$ 
# 输出：[this] [is] [en] [example]

# 子串匹配标记
# 第一个匹配的括号内容使用标记 \1 来引用
sed 's/hello\([0-9]\)/\1/'

# 双引号求值
# sed通常用单引号来引用；也可使用双引号，使用双引号后，双引号会对表达式求值：
sed 's/$var/HLLOE/'

# 当使用双引号时，我们可以在sed样式和替换字符串中指定变量；
eg:p=patten
r=replaced
echo "line con a patten" | sed "s/$p/$r/g"$>line con a replaced

# 其它示例
# 字符串插入字符：将文本中每行内容（PEKSHA） 转换为 PEK/SHA
sed 's/^.\{3\}/&\//g' file

11. `awk` 数据流处理工具

# awk脚本结构
awk 'BEGIN{ statements } statements2 END{ statements } '

# 工作方式：
# 执行begin中语句块；
# 从文件或stdin中读入一行，然后执行statements2，重复这个过程，直到文件全部被读取完毕；
# 执行end语句块；

# print 打印当前行
# 使用不带参数的print时，会打印当前行;
echo -e "line1\nline2" | awk 'BEGIN{print "start"} {print } END{ print "End" }'

# print 以逗号分割时，参数以空格定界;
echo | awk ' {var1 = "v1" ; var2 = "V2"; var3="v3"; print var1, var2 , var3; }'
# 输出：v1 V2 v3

# 使用-拼接符的方式（'-'作为拼接符）;
echo | awk ' {var1 = "v1" ; var2 = "V2"; var3="v3"; print var1"-"var2"-"var3; }'
# 输出：v1-V2-v3

# 特殊变量： NR NF $0 $1 $2
# NR:表示记录数量，在执行过程中对应当前行号；
# NF:表示字段数量，在执行过程总对应当前行的字段数；
# $0:这个变量包含执行过程中当前行的文本内容；
# $1:第一个字段的文本内容；
# $2:第二个字段的文本内容；
echo -e "line1 f2 f3\n line2 \n line 3" | awk '{print NR":"1"-"$2}'

# 打印每一行的第二和第三个字段：
awk '{print $2, $3}' file

# 统计文件的行数：
awk ' END {print NR}' file

# 累加每一行的第一个字段：
echo -e "1\n 2\n 3\n 4\n" | awk 'BEGIN{sum = 0; print "begin";} {sum += $1;} END {print "=="; print sum }'

# 用样式对awk处理的行进行过滤
awk 'NR < 5' #行号小于5
awk 'NR==1,NR==4 {print}' file #行号等于1和4的打印出来
awk '/linux/' #包含linux文本的行（可以用正则表达式来指定，超级强大）
awk '!/linux/' #不包含linux文本的行

# 设置定界符
# 使用-F来设置定界符（默认为空格）
awk -F: '{print $NF}' /etc/passwd

# 读取命令输出
# 使用getline，将外部shell命令的输出读入到变量cmdout中；
echo | awk '{"grep root /etc/passwd" | getline cmdout; print cmdout }'

# 在awk中使用循环
for(i=0;i<10;i++){print $i;}
for(i in array){print array[i];}

# 以逆序的形式打印行：(tac命令的实现）
seq 9| awk '{lifo[NR] = $0; lno=NR} END{ for(;lno>-1;lno--){print lifo[lno];}}'

# awk实现head、tail命令
# head:
awk 'NR<=10{print}' filename

# tail:
awk '{buffer[NR%10] = $0;} END{for(i=0;i<11;i++){ print buffer[i %10]} } ' filename

# 打印指定列
# awk方式实现：
ls -lrt | awk '{print $6}'

# cut方式实现
ls -lrt | cut -f6

# 打印指定文本区域
# 确定行号
seq 100| awk 'NR==4,NR==6{print}'

# 确定文本
# 打印处于start_pattern 和end_pattern之间的文本；
awk '/start_pattern/, /end_pattern/' filename

seq 100 | awk '/13/,/15/'cat /etc/passwd| awk '/mai.*mail/,/news.*news/'

# awk常用内建函数
# index(string,search_string): 返回search_string在string中出现的位置
# sub(regex,replacement_str,string): 将正则匹配到的第一处内容替换为replacement_str;
# match(regex,string): 检查正则表达式是否能够匹配字符串；
# length(string): 返回字符串长度
echo | awk '{"grep root /etc/passwd" | getline cmdout; print length(cmdout) }'

# printf 类似c语言中的printf，对输出进行格式化
seq 10 | awk '{printf "->%4s\n", $1}'

12. 迭代文件中的行、单词和字符

# 1. 迭代文件中的每一行
# while 循环法
while read line;doecho $line;done < file.txt改成子shell:cat file.txt | (while read line;do echo $line;done)

# awk法：
cat file.txt| awk ‘{print}’

# 2.迭代一行中的每一个单词
for word in $line;do echo $word;done

# 3. 迭代每一个字符
# ${string:start_pos:num_of_chars}：从字符串中提取一个字符；(bash文本切片）
# ${#word}:返回变量word的长度
for((i=0;i<${#word};i++))doecho ${word:i:1);done

13. 压缩与解压

# 对于*.zip文件
zip -r examples.zip dir  # 压缩，-r 表示处理文件夹
unzip filename.zip  # 解压

# 对于*.tar文件
# 解压
# 从1.15版本开始tar就可以自动识别压缩的格式,故不需人为区分压缩格式就能正确解压
# -x: extract 解压
# -v: verbose 详细信息
# -f: file(file=archieve) 文件
tar -xvf filename.tar.gz
tar -xvf filename.tar.bz2
tar -xvf filename.tar.xz
tar -xvf filename.tar.Z
# -C: 解压到指定目录
tar -xvf filename.tar.gz -C ./

# 压缩
# -c, create 创建压缩文件
# -z, --gzip 通过gzip压缩的形式对文件进行归档
# -j, --bzip2 通过bzip2压缩的形式对文件进行归档
tar -zcvf file.tar file1       # 压缩file1文件，压缩形式为gzip
tar -cvf file.tar file1 file2 # 压缩file1，file2文件，仅打包不使用压缩
tar -cvf file.tar dir         # 压缩dir目录

14. 一些实用的命令

# 从文件中随机抽取n行
awk 'BEGIN{srand()} {print rand()"\t"$0}' input_file | sort -nk 1 | head -n line_num | awk -F "\t" '{print $2}'

【Linux】Linux 常用命令

0. 关于 Linux 命令的正则表达式

1. find 文件查找

2. grep 文本搜索

3. xargs 命令行参数转换

4. sort 排序

5. uniq 消除重复行

6. tr 替换或删除字符

7. cut 按列切分文本

8. paste 按列拼接文本

9. wc 统计行和字符的工具

10. sed 文本替换利器

11. awk 数据流处理工具

12. 迭代文件中的行、单词和字符

13. 压缩与解压

14. 一些实用的命令

相关推荐

1. `find` 文件查找

2. `grep` 文本搜索

3. `xargs` 命令行参数转换

4. `sort` 排序

5. `uniq` 消除重复行

6. `tr` 替换或删除字符

7. `cut` 按列切分文本

8. `paste` 按列拼接文本

9. `wc` 统计行和字符的工具

10. `sed` 文本替换利器

11. `awk` 数据流处理工具