வலைத்தளங்களிலிருந்து தகவல்களைப் பிரித்தெடுப்பதற்கான எளிதான வழியை செமால்ட் பகிர்கிறது

வலை ஸ்கிராப்பிங் என்பது வலைத்தளங்களிலிருந்து உள்ளடக்கத்தைப் பெறுவதற்கான பிரபலமான முறையாகும். விசேஷமாக திட்டமிடப்பட்ட வழிமுறை தளத்தின் பிரதான பக்கத்திற்கு வந்து அனைத்து உள் இணைப்புகளையும் பின்பற்றத் தொடங்குகிறது, நீங்கள் குறிப்பிட்டுள்ள பிரிவுகளின் உட்புறங்களை வரிசைப்படுத்துகிறது. இதன் விளைவாக - தேவையான அனைத்து தகவல்களையும் கொண்ட தயாராக CSV கோப்பு கண்டிப்பான வரிசையில் உள்ளது. இதன் விளைவாக வரும் CSV எதிர்காலத்தில் கிட்டத்தட்ட தனித்துவமான உள்ளடக்கத்தை உருவாக்குகிறது. பொதுவாக, ஒரு அட்டவணையாக, அத்தகைய தரவு மிகவும் மதிப்பு வாய்ந்தது. ஒரு கட்டுமான கடையின் முழு தயாரிப்பு பட்டியலும் ஒரு அட்டவணையில் வழங்கப்படுகிறது என்று கற்பனை செய்து பாருங்கள். மேலும், ஒவ்வொரு தயாரிப்புக்கும், உற்பத்தியின் ஒவ்வொரு வகைக்கும், பிராண்டிற்கும், அனைத்து துறைகளும் பண்புகளும் நிரப்பப்படுகின்றன. ஒரு ஆன்லைன் ஸ்டோரில் பணிபுரியும் எந்த நகல் எழுத்தாளரும் அத்தகைய CSV கோப்பை வைத்திருப்பதில் மகிழ்ச்சியடைவார்கள்.

வலைத்தளங்கள் அல்லது வலை ஸ்கிராப்பிங்கிலிருந்து தரவைப் பிரித்தெடுப்பதற்கு ஏராளமான கருவிகள் உள்ளன, உங்களுக்கு எந்த நிரலாக்க மொழிகளும் தெரிந்திருக்காவிட்டால் கவலைப்பட வேண்டாம், இந்த கட்டுரையில் நான் ஸ்கிராப்பிங்ஹப்பைப் பயன்படுத்தி எளிதான வழிகளில் ஒன்றைக் காண்பிப்பேன்.

முதலில், scrapinghub.com க்குச் சென்று பதிவு செய்து உள்நுழைக.

உங்கள் நிறுவனத்தைப் பற்றிய அடுத்த கட்டத்தைத் தவிர்க்கலாம்.

நீங்கள் உங்கள் சுயவிவரத்தைப் பெறுவீர்கள். நீங்கள் ஒரு திட்டத்தை உருவாக்க வேண்டும்.

இங்கே நீங்கள் ஒரு வழிமுறையைத் தேர்வு செய்ய வேண்டும் (நாங்கள் "போர்டியா" என்ற வழிமுறையைப் பயன்படுத்துவோம்) மற்றும் திட்டத்திற்கு ஒரு பெயரைக் கொடுக்க வேண்டும். அதை எப்படியாவது அசாதாரணமானது என்று அழைப்போம். உதாரணமாக, "111".

நீங்கள் தரவைப் பிரித்தெடுக்க விரும்பும் வலைத்தளத்தின் URL ஐ நீங்கள் தட்டச்சு செய்ய வேண்டிய வழிமுறையின் செயல்பாட்டு இடத்திற்கு இப்போது நாங்கள் வருகிறோம். பின்னர் "புதிய சிலந்தி" என்பதைக் கிளிக் செய்க.

ஒரு எடுத்துக்காட்டுக்கு சேவை செய்யப் போகும் பக்கத்திற்குச் செல்வோம். முகவரி தலைப்பில் புதுப்பிக்கப்பட்டுள்ளது. "இந்த பக்கத்தை குறிக்கவும்" என்பதைக் கிளிக் செய்க.

உங்கள் மவுஸ் கர்சரை வலதுபுறமாக நகர்த்தினால் மெனு தோன்றும். இங்கே "பிரித்தெடுக்கப்பட்ட உருப்படி" தாவலில் நாங்கள் ஆர்வமாக உள்ளோம், அங்கு நீங்கள் "உருப்படிகளைத் திருத்து" என்பதைக் கிளிக் செய்ய வேண்டும்.

இன்னும் எங்கள் புலங்களின் வெற்று பட்டியல் காட்டப்படும். "+ புலம்" என்பதைக் கிளிக் செய்க.

இங்கே எல்லாம் எளிது: நீங்கள் புலங்களின் பட்டியலை உருவாக்க வேண்டும். ஒவ்வொரு உருப்படிக்கும், நீங்கள் ஒரு பெயரை உள்ளிட வேண்டும் (இந்த விஷயத்தில், ஒரு தலைப்பு மற்றும் உள்ளடக்கம்), இந்த புலம் தேவையா ("தேவை") மற்றும் அது மாறுபடுமா ("மாறுபடும்") என்பதைக் குறிப்பிடவும். ஒரு உருப்படி "தேவை" என்று நீங்கள் குறிப்பிட்டால், வழிமுறை இந்த புலத்தை நிரப்ப முடியாத பக்கங்களைத் தவிர்க்கும். கொடியிடப்படாவிட்டால், செயல்முறை என்றென்றும் நீடிக்கும்.

இப்போது நமக்குத் தேவையான புலத்தில் கிளிக் செய்து அது என்ன என்பதைக் குறிக்கவும்:

முடிந்தது? வலைத்தளத்தின் தலைப்பில் "மாதிரியைச் சேமி" என்பதைக் கிளிக் செய்க. அதன் பிறகு, நீங்கள் பணிபுரியும் இடத்திற்கு திரும்பலாம். இப்போது வழிமுறைக்கு எதையாவது பெறுவது எப்படி என்று தெரியும், அதற்காக நாம் ஒரு பணியை அமைக்க வேண்டும். இதைச் செய்ய, "மாற்றங்களை வெளியிடு" என்பதைக் கிளிக் செய்க.

பணிக்குழுவுக்குச் சென்று, "ஸ்பைடரை இயக்கு" என்பதைக் கிளிக் செய்க. வலைத்தளம், முன்னுரிமையைத் தேர்ந்தெடுத்து "இயக்கு" என்பதைக் கிளிக் செய்க.

சரி, ஸ்கிராப்பிங் இப்போது செயல்பாட்டில் உள்ளது. அனுப்பிய கோரிக்கைகளின் எண்ணிக்கையில் உங்கள் கர்சரை சுட்டிக்காட்டி அதன் வேகம் காண்பிக்கப்படுகிறது:

CSV இல் தயாராக சரங்களை பெறுவதற்கான வேகம் - மற்றொரு எண்ணை சுட்டிக்காட்டி.

ஏற்கனவே தயாரிக்கப்பட்ட பொருட்களின் பட்டியலைக் காண இந்த எண்ணைக் கிளிக் செய்க. இதே போன்ற ஒன்றை நீங்கள் காண்பீர்கள்:

இது முடிந்ததும், இந்த பொத்தானைக் கிளிக் செய்வதன் மூலம் முடிவைச் சேமிக்க முடியும்:

அவ்வளவுதான்! இப்போது நீங்கள் நிரலாக்கத்தில் எந்த அனுபவமும் இல்லாமல் வலைத்தளங்களிலிருந்து தகவல்களைப் பெறலாம்.