This page is READ-ONLY. It is generated from the old site.
All timestamps are relative to 2013 (when this page is generated).
If you are looking for TeX support, please go to VietTUG.org

Lọc ra kết quả tìm kiếm của google nhờ curl

... lọc ra danh sách URL tìm thấy nhờ google
Added by over 4 years ago

Ta dùng curl để lấy kết quả tìm kiếm từ google. Câu hỏi là, làm sao lọc ra các kết quả tìm bởi search engine này? Hãy xét ví dụ sau:

1 $ curl \
2   -LA 'Windows is stupid' \
3   'http://google.com/search?q=phim người lớn&num=100' \
4 | sed -e 's#<#\n<#g' \
5 | grep "href=\"http://[a-z]" \
6 | grep -v google \
7 | awk -F'"' '{print $2}

Thực hiện lệnh trên sẽ in ra danh sách 100 liên kết đến các trang web có liên quan đến từ khóa phim người lớn. Chú thích cho các dòng lệnh quan trọng như sau

 1. Dòng 5: chỉ lấy các kết quả cho ở dạng tên miền, bỏ qua google cache
 2. Dòng 6: bỏ qua các liên kết đến chính google.com
 3. Dòng 7: in ra liên kết url từ kết quả dạng a href="http://example.net/" ...

Sau khi có kết quả trên thì tạo blacklist dễ dàng hơn nhiều :) Tuy nhiên, danh sách thu được cần xem xét cẩn thận :P


Comments