Back to Question Center
0

Semest Ekspertining Chrome veb-skrablari bo'yicha qo'llanma

1 answers:

Agar Google Chrome dan foydalanayotgan bo'lsangiz, brauzeringiz uchun kengaytma mavjud

veb-sahifalarni tozalashga yordam beradi. "Scrapper" deb nomlanadi va u muammosiz ishlatilishi mumkin. Scrapper veb-sayt tarkibini skanerlashga va natijalarni Google hujjatlariga yuklashga yordam beradi.

Skraper kengaytmasi yordamida saytni qanday qilib yo'qotish mumkin?

1 - computer experts corporation. Chrome brauzerini Google Chrome-da tanlang;

2. Kengaytmalarda '' Scrapper '' uchun qidiruv o'tkazing;

3. Birinchi qidiruv natijasi "Scrapper" deb nomlanuvchi kengaytma;

4.

5. "Buyuk Britaniyadagi deputatlar ro'yxatiga qayting"

6. Quyidagi

8. "Scrape" ni tanlash uchun o'ng chertib qo'ying

9. Qoplama uchun konsol boshqa oynada ochiladi,

10. Zig'ir matkasi

11. Kontent Google Spreadsheet-da saqlanishini ta'minlash uchun "Google Docs-ga saqlash ..." -ni tanlang

Uzoqni tozalash

, HTMLni asoslarini tushunish foydalidir (masalan, HTML orqali qisqacha ma'lumotni o'qishingiz mumkin)

"Asia Argento"

1. IMDB aktyorlarining juda batafsil arxivi mavjud. "Asia Argento" sayti: https://www.imdb.com/name/nm0000782/;

2. Bu erda, aktrisaning o'ynagan barcha rollarini ko'rishingiz mumkin..Qiziquvchan bo'lgan ma'lumotlarni o'chirib tashlaylik;

3. Yuqorida ta'rif berilgan usulni qirib tashlashga harakat qiling;

4. Siz ro'yxatning biroz buzilganligini ko'rasiz. Buning sababi, bu erda ro'yxat turli xil bo'lishi mumkin;

5. Qoplama konsolini boshlang. Yuqori chap tomonda, XPath degan kichik qutini ko'rasiz;

6. Xpath - XML ​​va HTML uchun ishlaydigan so'rovlar tili;

7. XPath siz qiziqqan sahifaning qismlarini topishga yordam beradi. Keyingi narsa tegishli elementni topish va unga XPathni yozish;

8. Keling, bizning jadvalimizni tuzaylik;

9. Siz kerakli barcha ma'lumotlarga ega bo'lgan mavjud XPath "// div [3] / div [3] / div [2] / div" ekanligini ko'rasiz;

10. XPath HTML tizimini HTML dokumentini ko'rish uchun tizimga xabar beradi va uchinchi elementni, keyin ikkinchi elementni va keyin hammasini tanlang;

11. Ammo, bizning ma'lumotlarimizni ajratib olishni istaymiz;

12. Ushbu tugmachani olish uchun konsol ustidagi ustunlar qismidan foydalaning;

13. Avval nomini topamiz, Rír "sarlavhasini ko'rish uchun elementni tekshirishdan foydalaning;

14. Tagdagi yorliqni tekshiring. XPath-ga teg qo'shing;

15. Bu ibora mos ravishda ishlaydi, shuning uchun bizning birinchi ustunimiz bo'ladi;

16. «Kolonlar» qismida birinchi ustunning nomini «sarlavha» ga almashtirish;

17. XPATni unga qo'shish;

18. Ustun qismida XPathlar nisbiy bo'ladi va "./b" elementni

19 ni tanlashini anglatadi. XPath sarlavha ustuni uchun "./b" ni qo'shing va "scrape" ni tanlang;

20. Keling, bir yil davom etaylik. Yillar bir vaqt oralig'ida bo'lishi mumkin;

21. Sizning nomingiz uchun ustunning yonidagi kichik plyusni tanlash bilan yangi ustun yarating;

22. XPath "./span" yordamida "yil" uchun ustun yaratish;

23. Qopqoqni bosing va yil qanday qo'shilganini ko'ring;

24. Bajarildi!

December 6, 2017