01.08.2020 00:56
Создание простейшего браузера средствами VBA с возможностью парсинга сайтов
Рассматривается создание и применение простейшего браузера, созданного в качестве макроса в MS Excel на языке VBA с возможностью парсинга сайтов.
Ключевые слова: парсинг, браузер, синтаксический анализ, Excel, макрос, программирование, сайт.
Многим пользователям приходится пользоваться устаревшими компьютерами с ограниченными ресурсами. Это не позволяет им полноценно пользоваться сетью Интернет и значительно замедляет работу. Для полноценной работы нужен браузер, который состоит из минимального количества компонентов и имеет возможность получать список всех ссылок сайта, в том числе и ссылки на все файлы, которые находятся на странице, что существенно сокращает время поиска нужной информации.
Для решения этой проблемы поставлена цель создать браузер на языке Visual Basic for Applications с минимальными системными требованиями, интегрированный в MS Excel с возможностью парсинга сайтов.
Парсинг сайтов - последовательный синтаксический анализ информации, размещённой на интернет-страницах.
Это, в свою очередь, позволит решить следующие задачи:
- Освоить возможности VBA
- Научиться подключать библиотеку динамических модулей (IE)
- Включить в проект основные компоненты и интерфейсы браузера
- Осуществление доступа к объектам через компоненты в цикле
- Осуществить извлечение ссылок на файлы-архивы, файлы-документы с HTML-страницы
Создание браузера начинается с выявления потребностей пользователей: выбора дизайна, интерфейса и т. п.
Для начала требуется выбрать, в каком виде должен быть выполнен данный браузер. Так как должно выполняться извлечение ссылок, наилучшей возможностью представляется выполнение браузера в виде макроса в MS Excel.
Какими же необходимыми функциями должен обладать будущий браузер?
В окне должны быть следующие компоненты:
- поле для ввода и отображения адреса сайта;
- выпадающий список с важными ресурсами;
- кнопка начала загрузки страницы;
- кнопка остановки загрузки страницы;
- кнопка обновления страницы;
- кнопки «Вперед», «Назад», «Домой»;
- кнопка для запуска парсинга (извлечение ссылок);
- Окно для отображения сайта.
Наш браузер использует динамические библиотеки браузера Internet Explorer, что упрощает его создание и значительно уменьшает появление ошибок.
После выбора дизайна и разработки проекта можно приступить к написанию программного кода. Он состоит из множества блоков:
- Объявляются переменные, функции
Dim mo Resizer As New C Form Resizer
Dim status D As Boolean
Dim ff As Integer
- Блок, где процедура запускает новый InternetExplorer, создает и инциализирует глобальный объект InternetExplorerWith Events, инициализирует глобальную переменную gblnInternet Ex- plorerIs Open для контроля открытого состояния InternetExplorer
Public Sub Internet Explorer Open (bln Silent As Boolean, _
Bln Visible As Boolean)
- Процедура вызывает метод Navigate для открытия необходимой Web-страницы и сохраняет URL в глобальной переменной.
Public Sub Internet Explorer Navigate (By Valstr URL As String)
- Процедура вызывается событием Document Comlete, сравнивает URL загруженной страницы, создает объект HTML Document и выполняет необходимые действия с содержимым Web-страницы
Public Sub Document Comlete (var URL As Variant)
При работе с браузером происходит следующее - пользователь ввел URL, происходит попытка перейти по указанному адресу, если блок с условием отсутствия ошибок выполняется положительно, осуществляется переход на страницу. При нажатии на кнопку «Парсинг» происходит извлечение всех ссылок, которые находятся на открытой странице в браузере. Эти ссылки записываются в ячейки Excel столбиком.
В итоге получился браузер, состоящий из минимального количества компонентов. Интегрированный набор требует меньше системных ресурсов, чем все его компоненты в своих независимых модификациях, осуществлена возможность парсинга сайтов. Есть перспективы на дальнейшую доработку. Возможности данного браузера очень обширны. Это позволяет пользоваться им не только обычным пользователям, но и веб-программистам и веб-дизайнерам для анализа сайтов, хакерам и т. д.
Список использованной литературы
1. Ермошин А. В., Иванов В. В., Монахов М. Ю., Монахова Г. Е. Индивидуально-ориентированное обучение компьютерной графике в вузе. URL: http://elibrary.ru/download/34326150.pdf
2. Зайцева С. А., Иванов В. В. Формирование компетентности студентов в области информационных и коммуникационных технологий средствами дисциплин профессиональной подготовки. URL: http://elibrary.ru/download/60275857.pdf
3. Основы программирования VBA. URL: http://www.lessons- tva.info/edu/e-inf2/m2t3_7.html. (дата обращения: 14.09.2016).
4. Введение в VBA, макросы, программирование в Excel. URL: http://4excel.ru/index.php?id=vba1. (дата обращения: 14.09.2016).
В. С. Киселев
Опубликовано 01.08.2020 00:56 | Просмотров: 1232 | Блог » RSS |