Простой парсер страниц на PHP

парсеры на основе php
Метки: / /

В этой статье мы разберём создание парсеры на основе PHP, при этом максимально просто, также будим использовать библиотеку «Simple HTML DOM».

Если вы плохо работаете с PHP, то посмотрите наш PHP учебник.

Установка библиотеки:

Перед тем, как перейти к самой разработке нужно скачать саму библиотек, для этого заходим по ссылке и нажимаем кнопку «Download».

Скачать библиотеку Simple HTML DOM

У вас скачивается архив, из него, перемешаем файл под названием «simple_html_dom.php» в папку с вашем проектом, после подключаем его в файл парсера, через require_once.

Теперь библиотека установлена.

Пишем парсер контента на PHP:

Теперь пришло время написать парсер на PHP самому и это будет пошаговая инструкция, умаю вам будет понятно.

Но сначала расскажу, от куда будем брать данные, будем их брать с сайта StopGame.ru, мне кажется он наиболее будет понятный для примере, возьмём мы  с него новости, точнее название.

Для начала объявим переменную в которой у нас будет хранится URL страницы, от куда будем брать данные.

Дальше будем использовать стандартную библиотеку PHP CURL, благодаря которой мы возьмём страницу сайта.

Давайте не много разберём этот код, мы создаём запрос с помощью функции curl_init(), дальше идёт его настройка, через функцию curl_setopt(), ну и отправляем его через curl_exec() и сохраняем ответ в переменную $res.

Самая интересное в этом коде функция curl_setopt(), потому что она имеет очень много настроек для запросов, поэтому, если кому не достаточно информации о ней, то переходите по ссылке, также посмотрите документацию библиотеки CURL.

Настало время самого интересного, это самого парсенга и работе с библиотекой «Simple HTML DOM».

Тут не чего сложного нет, даже нечего объяснять, всё в комментариях написано.

Теперь пришло время получить какие данные нам нужны и вывести их на экран, мне же нужно получить только заголовки.

Тут тоже не чего сложного нет, благодаря $html -> find(), мы находим нужные элементы по селекторы и получаем список их.

После этого проходимся по списку с помощью цикла foreach, выводим на экран каждый элемент, вот результат.

парсер контента с сайта php

Как можете заметить, он вывел заголовки из новостей, что значит всё работает.

То есть суть работы парсера в том, что вы просто берёте страницу и ищите по селектору нужный вам элемент, при чём так работает почти всё парсеры на любом языке.

Вывод:

В это статье вы прочитали о том как делаются парсеры на основе PHP, думаю я ту рассказал всё что нужно знать.

Также если вас заинтересовала это библиотека, то посмотрите её документацию.

Подписываетесь на соц-сети:

Оценка:

1 Звезда2 Звезды3 Звезды4 Звезды5 Звезд
(Пока оценок нет)
Загрузка...

Поделится: