案例-Shell-文本处理：人人网访问记录分析

2020-08-02 | 阅读：次

背景

千橡的人人网每天都会有数以亿计的访问者，每个访问者的访问行为在千橡的服务器中都会留下访问记录。访问记录里有许多信息，其中包含两个字段：访问者的IP、访问者的用户id。例如，格式是这样的：

>>> cat record.txt
20 202.114.112.5 32123453
21 213.89.113.5 34234234
22 202.114.112.5 32123453
23 213.89.113.5 34234234
24 202.114.112.5 32123453

每条记录分为 3 个字段，第一个字段是用户的访问时间，第二个字段是用户的访问 IP，第 3 个字段是用户的id，中间以空格隔开。这样的记录有什么用呢？千橡的工程师每天晚上都会分析这些用户数据：

异常 IP：同一分钟内，同一 IP 同一 id 出现大量访问，则认为该 IP 为异常 IP

$ cut -d " "  -f 2,3 record.txt

统计第一纬度为 IP，因此以 IP 为排序索引，并根据此结果统计重复 IP 且重复 id 的次数

先根据 IP 进行排序

$ cut -d " " -f 2,3 record.txt | sort 

114.112.5 32123453
114.112.5 32123453
114.112.5 32123453
89.113.5 34234234
89.113.5 34234234

根据排序好的结果进行统计

$ cut -d " " -f 2,3 record.txt | sort | uniq -c

       3 202.114.112.5 32123453
       2 213.89.113.5 34234234

$ cut -d " " -f 2,3 record.txt | sort | uniq -c | sort -n -r

       3 202.114.112.5 32123453
       2 213.89.113.5 34234234

$ cut -d " " -f 2,3 record.txt | sort | uniq -c | sort -n -r | head -n 100

       3 202.114.112.5 32123453
       2 213.89.113.5 34234234