Просто Studio
Главная » 2012 » Ноябрь » 26 » Что такое парсинг сайтов?
Что такое парсинг сайтов?
Парсингом (от англ. parse) называют процесс анализа или разбора определенного контента на составляющие с помощью роботов-парсеров (специальных программ или скриптов). В SEO этим контентом является html-код страниц сайтов.

Самые известные парсеры в сети это поисковые роботы, которые анализируют страницы, сохраняют данные анализа у себя в базе и потом при поиске выдают релевантные и актуальные документы.

Часто парсинг путают с граббингом. Это близкие понятия, но все же имеют разные значения. Граббер позволяет скачивать информацию из сети (html-страницы, rss-ленты, xml-документы) в свою базу, а парсер позволяет выявить из этой кучи полезную информацию и обработать её, в зависимости от поставленных задач.

В области поисковой оптимизации парсинг используется очень часто. Все seo-инструменты что-то парсят (ссылки, ключевые слова) и на основе этого предоставляют полезные данные для анализа.

Фазы парсинга

Любой парсер состоит из трех частей, которые отвечают за три отдельных процесса парсинга:

  • Получение контента в исходном виде. Под получением контента, чаще всего подразумевается скачивание кода веб-страницы, из которой необходимо извлечь данные или контент. Одним из самых развитых решений для получения кода требуемой страницы является библиотека cURL для языка PHP;
  • Извлечение и преобразование данных. В этой фазе происходит извлечение требуемых данных из полученного, на первом этапе, кода страницы. Чаще всего для извлечения используют регулярные выражения. Также на этом этапе происходит преобразование извлеченных данных к нужному формату, если это требуется;
  • Генерация результата. Завершающий этап парсинга. На нем происходит вывод или запись полученных, на втором этапе, данных, в требуемый формат. Чаще всего, запись ведется напрямую в базу данных.


Просмотров: 1205 / Познакомьтесь с другими публикациями: Новости и статьи