Semalt: Web Scraping ជាមួយ Python

តើអ្នកធ្លាប់ឆ្លងកាត់ពេលវេលាដ៏គួរឱ្យភ័យខ្លាចទាំងនោះទេនៅពេលដែលអ្នកមិនមានវ៉ាយហ្វាយ។ បើដូច្នោះមែនអ្នកបានដឹងថាតើអ្វីដែលអ្នកធ្វើនៅលើកុំព្យូទ័ររបស់អ្នកពឹងផ្អែកលើសំណាញ់យ៉ាងដូចម្តេច។ ចេញពីទំលាប់ដ៏តឹងរ៉ឹងអ្នកនឹងឃើញថាខ្លួនអ្នកឆែកអ៊ីមែលរបស់អ្នកមើលរូបថត Instagram របស់មិត្តអ្នកក៏ដូចជាអានធ្វីតរបស់ពួកគេ។

ដោយសារការងារកុំព្យួទ័រច្រើនទាក់ទងនឹងដំណើរការគេហទំព័រវានឹងមានភាពងាយស្រួលប្រសិនបើកម្មវិធីរបស់អ្នកអាចប្រើអ៊ីនធឺណិតបានផងដែរ។ នេះជាករណីសម្រាប់ការកាត់ បណ្តាញ ។ វាពាក់ព័ន្ធនឹងការប្រើប្រាស់កម្មវិធីដើម្បីទាញយកនិងដំណើរការមាតិកាពីគេហទំព័រ។ ឧទាហរណ៍ហ្គូហ្គោលប្រើកម្មវិធីបោកប្រាស់ជាច្រើនដើម្បីធ្វើលិបិក្រមគេហទំព័រសម្រាប់ម៉ាស៊ីនស្វែងរករបស់ពួកគេ។

មានវិធីជាច្រើនដែលអ្នកអាច កោសទិន្នន័យ ពីអ៊ីនធឺណិត។ វិធីសាស្រ្តទាំងនេះភាគច្រើនត្រូវការពាក្យបញ្ជានៃភាសាសរសេរកម្មវិធីជាច្រើនដូចជា Python និង R។ ឧទាហរណ៍ជាមួយ Python អ្នកអាចប្រើម៉ូឌុលមួយចំនួនដូចជាសំណូមពរស៊ុបស្រស់ Webbrowser និង Selenium ។

ម៉ូឌុល 'សំណើរ "អនុញ្ញាតឱ្យអ្នកមានឱកាសទាញយកឯកសារយ៉ាងងាយស្រួលពីគេហទំព័រដោយមិនចាំបាច់ព្រួយបារម្ភអំពីបញ្ហាលំបាកដូចជាបញ្ហាការតភ្ជាប់បណ្តាញកំហុសនិងការបង្រួមទិន្នន័យ។ វាមិនចាំបាច់ភ្ជាប់ជាមួយ Python ទេហើយដូច្នេះអ្នកនឹងត្រូវដំឡើងវាជាមុនសិន។

ម៉ូឌុលនេះត្រូវបានបង្កើតឡើងដោយសារតែម៉ូឌុល 'urllib2' របស់ Python មានផលវិបាកជាច្រើនដែលធ្វើអោយពិបាកប្រើ។ តាមពិតវាងាយស្រួលតំឡើង។ អ្វីដែលអ្នកត្រូវធ្វើគឺតំឡើងសំណើតំឡើងតាមបំពង់ពីពាក្យបញ្ជា។ បន្ទាប់មកអ្នកត្រូវធ្វើតេស្តសាមញ្ញមួយដើម្បីធានាថាម៉ូឌុលបានតំឡើងត្រឹមត្រូវ។ ដើម្បីធ្វើដូច្នេះអ្នកអាចវាយ '>>> សំណើនាំចូល' ទៅក្នុងសំបកអន្តរកម្ម។ ប្រសិនបើគ្មានសារកំហុសបង្ហាញទេនោះការតំឡើងបានជោគជ័យ។

ដើម្បីទាញយកទំព័រអ្នកត្រូវផ្តួចផ្តើមមុខងារ 'request.get ()' ។ មុខងារត្រូវការខ្សែអក្សរ URL ដើម្បីទាញយកហើយបន្ទាប់មកត្រឡប់វត្ថុឆ្លើយតបវិញ។ នេះមានការឆ្លើយតបដែលម៉ាស៊ីនមេគេហទំព័របានត្រឡប់មកវិញសម្រាប់ការស្នើសុំរបស់អ្នក។ ប្រសិនបើការស្នើសុំរបស់អ្នកជោគជ័យបន្ទាប់មកគេហទំព័រដែលបានទាញយកត្រូវបានរក្សាទុកជាខ្សែអក្សរនៅក្នុងអថេរអត្ថបទឆ្លើយតបអថេរ។

វត្ថុឆ្លើយតបជាធម្មតាមានគុណលក្ខណៈលេខកូដដែលអ្នកអាចប្រើដើម្បីដឹងថាតើការទាញយករបស់អ្នកជោគជ័យឬអត់។ ស្រដៀងគ្នានេះដែរអ្នកអាចហៅវិធី 'ការលើកកំពស់កម្លាំង ()' លើវត្ថុឆ្លើយតប។ នេះនឹងលើកករណីលើកលែងប្រសិនបើមានកំហុសក្នុងការទាញយកឯកសារ។ វាគឺជាវិធីដ៏ល្អមួយដើម្បីធ្វើឱ្យប្រាកដថាកម្មវិធីមួយឈប់នៅក្នុងការកើតឡើងនៃការទាញយកអាក្រក់។

ពីទីនេះអ្នកអាចរក្សាទុកឯកសារគេហទំព័រដែលបានទាញយករបស់អ្នកនៅលើដ្រាយវ៍រឹងរបស់អ្នកដោយប្រើមុខងារស្តង់ដារ 'បើក ()' និង 'សរសេរ ()' ។ ទោះយ៉ាងណាក៏ដោយដើម្បីរក្សាការអ៊ិនកូដយូនីកូដនៃអត្ថបទអ្នកនឹងត្រូវជំនួសទិន្នន័យអត្ថបទដោយទិន្នន័យគោលពីរ។

ដើម្បីសរសេរទិន្នន័យទៅឯកសារអ្នកអាចប្រើវិធីសាស្ត្រ 'សម្រាប់' រង្វិលជុំជាមួយវិធីសាស្ត្រ 'iter_content ()' ។ វិធីសាស្ត្រនេះផ្តល់មកវិញនូវទិន្នន័យជាច្រើននៅលើការនិយាយឡើងវិញតាមរយៈរង្វិលជុំ។ ភាគច្រើនគឺគិតជាបៃហើយអ្នកត្រូវបញ្ជាក់ថាតើចំនួនបៃនីមួយៗនឹងមានប៉ុន្មាន។ នៅពេលអ្នកសរសេរចប់សូមហៅពាក្យថា 'បិទ ()' ដើម្បីបិទឯកសារហើយការងាររបស់អ្នកចប់ហើយ។

mass gmail