Semalt: PHP ဝက်ဘ်စာမျက်နှာဖျက်ရန်အဆင့် ၃ ဆင့်

၀ က်ဘ်ဒေတာထုတ်ယူခြင်း (သို့) web ရိတ်သိမ်းခြင်းဟုလည်းခေါ်သောဝက်ဘ်ဖျက်ခြင်းသည် ၀ ဘ်ဆိုဒ်သို့မဟုတ်ဘလော့ဂ်မှအချက်အလက်များကိုထုတ်ယူခြင်းဖြစ်သည်။ ထို့နောက်ထိုအချက်အလက်များကို meta tag များ၊ meta ဖော်ပြချက်များ၊ သော့ချက်စာလုံးများနှင့်ကွန်ရက်စာမျက်နှာတစ်ခုသို့ချိတ်ဆက်မှုများပြုလုပ်ရန်၊ ရှာဖွေရေးအင်ဂျင်ရလဒ်များ၏တိုးတက်မှုကိုယေဘူယျအသုံးပြုသည်။

ဒေတာများကိုခြစ်ရန်အဓိကနည်းစနစ်နှစ်ခုကိုအသုံးပြုထားသည်။

  • မှတ်တမ်းတင်ခြင်း - ၎င်းတွင် DOM (Document Object Model) ဖိုင်များအဖြစ်ပြောင်းလဲထားသော XML သို့မဟုတ် HTML စာရွက်စာတမ်းပါဝင်သည်။ PHP ကကျွန်တော်တို့ကို DOM extension အများကြီးပေးတယ်။
  • ပုံမှန်အသုံးအနှုန်းများ - ၎င်းသည်ဝဘ်စာရွက်စာတမ်းများမှပုံမှန်ဖော်ပြမှုပုံစံများမှအချက်အလက်များကိုဖယ်ရှားခြင်းနည်းလမ်းဖြစ်သည်။

တတိယပါတီ ၀ က်ဘ်ဆိုဒ်၏အချက်အလက်များကိုဖျက်ပစ်ခြင်းသည်ပြcopနာ၏မူပိုင်နှင့်ဆက်စပ်နေသည်။ အဘယ်ကြောင့်ဆိုသော်ဤအချက်အလက်များကိုသင်အသုံးပြုရန်ခွင့်မပြုသောကြောင့်ဖြစ်သည်။ သို့သော် PHP ဖြင့်မူပိုင်ခွင့်များနှင့်အရည်အသွေးနိမ့်သောပြconnectedနာများမရှိဘဲဒေတာများကိုလွယ်လွယ်ကူကူဖျက်ပစ်နိုင်သည်။ PHP ပရိုဂရမ်မာတစ်ယောက်အနေနှင့်သင်သည် coding ရည်ရွယ်ချက်များအတွက်အမျိုးမျိုးသောဝက်ဘ်ဆိုက်များမှအချက်အလက်များလိုအပ်နိုင်သည်။ ဤတွင်ကျွန်ုပ်တို့အခြားဆိုဒ်များမှ data များကိုထိထိရောက်ရောက်မည်သို့ရယူရမည်ကိုရှင်းပြပြီးဖြစ်သည်။ သို့သော်၎င်းမတိုင်မှီအဆုံး၌ index.php သို့မဟုတ် scrape.js ဖိုင်များကိုသင်ရရှိမည်ကိုသတိရသင့်သည်။

ဝက်ဘ်ဆိုက်လိပ်စာကိုရိုက်ထည့်ရန် Form ဖန်တီးပါ။

ပထမတစ်ခုအနေဖြင့် index.php တွင်ပုံစံကိုဖန်တီးရန် Submit ခလုတ်ကို နှိပ်၍ အချက်အလက်များကိုဖျက်ရန်ဝက်ဘ်ဆိုက် URL ကိုရိုက်ထည့်ပါ။

<form method = "post" name = "scrape_form" id = "scrap_form" acti>

ဒေတာများကိုခြစ်ရန်ဝက်ဘ်ဆိုက် URL ကိုရိုက်ထည့်ပါ

<input type = "input" name = "website_url" id = "website_url">

<input type = "submit" name = "submit" value = "Submit">

</form>

Website အချက်အလက်ရယူရန် PHP Function ကိုအဆင့်များ ၂ ။

ဒုတိယအဆင့်မှာ PHP function ကို scrape.php ဖိုင်တွင်ဖန်တီးရန်ဖြစ်သည်။ ၎င်းသည် data ရရှိရန်နှင့် URL library ကိုအသုံးပြုရန်အတွက်ဖြစ်သည်။ ၎င်းသည်မတူညီသောဆာဗာများနှင့်ပရိုတိုကောများနှင့်ဆက်သွယ်မှုပြုရန်မည်သည့်ပြissueနာမျှမရှိဘဲခွင့်ပြုလိမ့်မည်။

scrapeSiteData function ကို ($ website_url) {

if (! function_exists ('curl_init')) {

die ('cURL မတပ်ဆင်ထားပါ။ ကျေးဇူးပြု၍ ထည့်သွင်းပြီးထပ်မံကြိုးစားပါ။ ');

}

$ ဆံပင်ကောက်ကောက် = curl_init ();

curl_setopt ($ ဆံပင်ကောက်ကောက်, CURLOPT_URL, $ website_url);

curl_setopt ($ ဆံပင်ကောက်ကောက်, CURLOPT_RETURNTRANSFER, စစ်မှန်တဲ့);

$ output ကို = curl_exec ($ ဆံပင်ကောက်ကောက်);

curl_close ($ ဆံပင်ကောက်ကောက်);

$ output ကို return;

}

ဒီနေရာတွင် PHP cURL ကိုစနစ်တကျတပ်ဆင်ပြီးမရကိုကြည့်နိုင်သည်။ အဓိကURရိယာသုံးခုကို functions area တွင်အသုံးပြုရန်လိုအပ်ပြီး curl_init () က session များကိုစတင်ရန်ကူညီလိမ့်မည်။ curl_exec () က execute ဖြစ်လိမ့်မည်။ curl_close () သည် connection ကိုပိတ်လိမ့်မည်။ CURLOPT_URL ကဲ့သို့သောကိန်းဂဏန်းများကိုကျွန်ုပ်တို့ဖျက်ရန်လိုအပ်သည့်ဝက်ဘ်ဆိုက်ဒ် URL များကိုသတ်မှတ်သည်။ ဒုတိယ CURLOPT_RETURNTRANSFER သည်နောက်ဆုံးပေါ်ဝဘ်စာမျက်နှာတစ်ခုလုံးကိုဖော်ပြမည့်ပုံမှန်ပုံစံအစားမဟုတ်ဘဲပုံစံကိုမဟုတ်ဘဲပုံစံပုံစံတွင်သိမ်းဆည်းထားလိမ့်မည်။

အဆင့် ၃။ ဝက်ဘ်ဆိုက်မှသတ်သတ်မှတ်မှတ်အချက်အလက်များကိုခြစ်ရာ

သင်၏ PHP ဖိုင်၏လုပ်ဆောင်နိုင်စွမ်းကိုကိုင်တွယ်ရန်နှင့်သင်၏ ၀ က်ဘ်စာမျက်နှာ၏သီးခြားအပိုင်းကိုပယ်ဖျက်ဖို့အချိန်ရောက်လာပြီ။ URL တစ်ခုမှဒေတာအားလုံးကိုသင်မလိုချင်ပါက CURLOPT_RETURNTRANSFER variable ကို အသုံးပြု၍ တည်းဖြတ်ပြီးသင်ခြစ်လိုသည့်ကဏ္highlightများကိုပြင်ဆင်သင့်သည်။

if (isset ($ _ POST ['submit'])) {

$ html = scrapeWebsiteData ($ _ POST ['website_url']);

$ start_point = strpos ($ html, 'Latest Posts');

$ end_point = strpos ($ html, '', $ start_point);

$ အရှည် = $ end_point- $ start_point;

$ html = substr ($ html, $ start_point, $ length);

echo $ html;

}

ဤကုဒ်များကိုအသုံးမပြုမီသို့မဟုတ်ကိုယ်ပိုင်ရည်ရွယ်ချက်များအတွက်ဘလော့ဂ်တစ်ခုသို့မဟုတ် ၀ ဘ်ဆိုဒ်များကိုခြစ်ခြင်းမပြုမီ PHP ၏အခြေခံဗဟုသုတနှင့်ပုံမှန်ဖော်ပြမှုများတိုးတက်ရန်သင့်အားကျွန်ုပ်တို့အကြံပြုပါသည်။