Парсингом (от англ. parse) называют процесс анализа или разбора определенного контента на составляющие с помощью роботов-парсеров (специальных программ или скриптов). В SEO этим контентом является html-код страниц сайтов.
Самые известные парсеры в сети это поисковые роботы, которые анализируют страницы, сохраняют данные анализа у себя в базе и потом при поиске выдают релевантные и актуальные документы.
Часто парсинг путают с граббингом. Это близкие понятия, но все же имеют разные значения. Граббер позволяет скачивать информацию из сети (html-страницы, rss-ленты, xml-документы) в свою базу, а парсер позволяет выявить из этой кучи полезную информацию и обработать её, в зависимости от поставленных задач.
В области поисковой оптимизации парсинг используется очень часто. Все seo-инструменты что-то парсят (ссылки, ключевые слова) и на основе этого предоставляют полезные данные для анализа.
Фазы парсинга
Любой парсер состоит из трех частей, которые отвечают за три отдельных процесса парсинга:
Самые известные парсеры в сети это поисковые роботы, которые анализируют страницы, сохраняют данные анализа у себя в базе и потом при поиске выдают релевантные и актуальные документы.
Часто парсинг путают с граббингом. Это близкие понятия, но все же имеют разные значения. Граббер позволяет скачивать информацию из сети (html-страницы, rss-ленты, xml-документы) в свою базу, а парсер позволяет выявить из этой кучи полезную информацию и обработать её, в зависимости от поставленных задач.
В области поисковой оптимизации парсинг используется очень часто. Все seo-инструменты что-то парсят (ссылки, ключевые слова) и на основе этого предоставляют полезные данные для анализа.
Фазы парсинга
Любой парсер состоит из трех частей, которые отвечают за три отдельных процесса парсинга:
- Получение контента в исходном виде. Под получением контента, чаще всего подразумевается скачивание кода веб-страницы, из которой необходимо извлечь данные или контент. Одним из самых развитых решений для получения кода требуемой страницы является библиотека cURL для языка PHP;
- Извлечение и преобразование данных. В этой фазе происходит извлечение требуемых данных из полученного, на первом этапе, кода страницы. Чаще всего для извлечения используют регулярные выражения. Также на этом этапе происходит преобразование извлеченных данных к нужному формату, если это требуется;
- Генерация результата. Завершающий этап парсинга. На нем происходит вывод или запись полученных, на втором этапе, данных, в требуемый формат. Чаще всего, запись ведется напрямую в базу данных.