Back to Question Center
0

Semalt: 3 βήματα για την απόκτηση της ιστοσελίδας PHP

1 answers:

Η απόξεση ιστού, αποκαλούμενη επίσης η εξαγωγή δεδομένων ιστού ή η συλλογή ιστού, διαδικασία εξαγωγής δεδομένων από έναν ιστότοπο ή ένα ιστολόγιο. Αυτές οι πληροφορίες στη συνέχεια χρησιμοποιούνται για να ορίσετε μετα-ετικέτες, μετα-περιγραφές, λέξεις-κλειδιά και συνδέσμους σε έναν ιστότοπο, βελτιώνοντας τη συνολική του απόδοση στα αποτελέσματα των μηχανών αναζήτησης.

Χρησιμοποιούνται δύο βασικές τεχνικές για την αποτύπωση δεδομένων:

  • Ανάλυση εγγράφων - Περιλαμβάνει ένα έγγραφο XML ή HTML που μετατρέπεται στο DOM ) αρχείων. Η PHP μας παρέχει μεγάλη επέκταση DOM - muebles modernos de living.
  • Κανονικές εκφράσεις - Πρόκειται για έναν τρόπο απόρριψης δεδομένων από τα έγγραφα ιστού με τη μορφή κανονικών εκφράσεων.

Το ζήτημα με τα δεδομένα απόξεσης τρίτου ιστότοπου σχετίζεται με τα πνευματικά του δικαιώματα επειδή δεν έχετε άδεια χρήσης αυτών των δεδομένων. Αλλά με την PHP, μπορείτε εύκολα να αποκόψετε τα δεδομένα χωρίς προβλήματα που σχετίζονται με δικαιώματα πνευματικής ιδιοκτησίας ή χαμηλής ποιότητας. Ως προγραμματιστής PHP, μπορεί να χρειαστείτε δεδομένα από διαφορετικούς ιστότοπους για σκοπούς κωδικοποίησης. Εδώ έχουμε εξηγήσει πώς να λαμβάνετε αποτελεσματικά τα δεδομένα από άλλους ιστότοπους, αλλά πριν από αυτό, θα πρέπει να έχετε κατά νου ότι στο τέλος θα λάβετε αρχεία index.php ή scrape.js.

Βήματα 1: Δημιουργία φόρμας για να εισάγετε τη διεύθυνση URL της ιστοσελίδας:

Πρώτα απ 'όλα, θα πρέπει να δημιουργήσετε φόρμα στο index.php κάνοντας κλικ στο κουμπί Submit και εισάγετε τη διεύθυνση URL του ιστότοπου για την απόκρυψη δεδομένων.



Εισάγετε τη διεύθυνση URL του ιστοτόπου για να Scrape δεδομένα

)



Βήματα 2: Δημιουργία λειτουργίας PHP για την απόκτηση δεδομένων ιστοτόπου:

Η PHP εξουδετερώνει τη λειτουργία του αρχείου scrape.php καθώς θα βοηθήσει στη λήψη δεδομένων και στη χρήση της βιβλιοθήκης URL. Θα σας επιτρέψει επίσης να συνδεθείτε και να επικοινωνήσετε με διαφορετικούς διακομιστές και πρωτόκολλα χωρίς κανένα πρόβλημα..

λειτουργία scrapeSiteData ($ website_url) {

αν (! Function_exists ('curl_init')) {

die (cURL δεν είναι εγκατεστημένο. ').

}

$ curl = curl_init

;

curl_setopt ($ curl, CURLOPT_URL, $ website_url).

curl_setopt ($ curl, CURLOPT_RETURNTRANSFER, true);

$ εξόδου = curl_exec ($ curl);

curl_close ($ curl);

επιστρέφουν $ output?

}

Εδώ μπορούμε να δούμε αν έχει εγκατασταθεί σωστά η PHP cURL ή όχι. Τρεις κύριες cURLs πρέπει να χρησιμοποιηθούν στην περιοχή λειτουργιών και το curl_init

θα βοηθήσει στην προετοιμασία των περιόδων σύνδεσης, το curl_exec

θα το εκτελέσει και το curl_close

θα βοηθήσει στο κλείσιμο της σύνδεσης. Οι μεταβλητές όπως CURLOPT_URL χρησιμοποιούνται για να ορίσετε τις διευθύνσεις URL ιστότοπων που χρειαζόμαστε για την αποξήρανση. Το δεύτερο CURLOPT_RETURNTRANSFER θα βοηθήσει στην αποθήκευση των σελίδων που έχουν υποστεί ξυλεία στη μορφή μεταβλητής αντί της προεπιλεγμένης φόρμας, η οποία τελικά θα εμφανίσει ολόκληρη την ιστοσελίδα.

Βήματα 3: Ξύστε τα συγκεκριμένα δεδομένα από την Ιστοσελίδα:

Ήρθε η ώρα να χειριστείτε τις λειτουργίες του αρχείου PHP και να ξύσετε το συγκεκριμένο τμήμα της ιστοσελίδας σας. Αν δεν θέλετε όλα τα δεδομένα από μια συγκεκριμένη διεύθυνση URL, θα πρέπει να επεξεργαστείτε τις μεταβλητές CURLOPT_RETURNTRANSFER και να επισημάνετε τις ενότητες που θέλετε να ξεφυλλίσετε.

εάν (isset ($ _ POST ['submit'])) {

$ html = scrapeWebsiteData ($ _ POST ['website_url']);

$ start_point = strpos ($ html, 'Τελευταία μηνύματα');

$ end_point = strpos ($ html, '', $ start_point);

$ μήκος = $ end_point- $ start_point;

$ html = substr ($ html, $ start_point, $ μήκος);

echo $ html.

}

Σας προτείνουμε να αναπτύξετε τις βασικές γνώσεις PHP και Regular Expressions προτού χρησιμοποιήσετε κάποιον από αυτούς τους κωδικούς ή να ξεφυλλίσετε ένα συγκεκριμένο blog ή ιστοσελίδα για προσωπικούς σκοπούς.

December 8, 2017