Jericho HTML Parser |
Автор: admin Просмотров: 2821 Комментарии:
Добавлен: 15 ноября 2014
Java-библиотека для анализа и манипуляции частями HTML документа, в том числе сервеными тегами при дословном воспроизведении любого не распознаваемого или невалидного HTML. Есть высокоуровневые функции по манипуляции формами HTML.
------------------------
Отзыв о Kwork
ТРИО теплый пол отзыв
Vkjust отзыв
Заработок на сокращении ссылок
Earnings on reducing links
Код PHP на HTML сайты
Я уже пять лет не занимаюсь сайтом, так как работаю по 12 часов. Образование у меня среднее, и по этому нет нормальной работы. Если бы сайт приносил по 100$ в месяц, я бы добавлял по 50 статей каждый месяц. Если отправите пожертвования, я оставлю Ваши имена и фамилии в списке благодетелей !
Bitcoin: 1AP3JCZVFpHzZwcAyNztbrbFFiLdnKbY1j
Litecoin LfHXHz4k6LnDNNvCodd5pj9aW4Qk67KoUD
Dogecoin D9HHvKNFZxRhjtoh6uZYjMjgcZewwiUME9
Есть также другие кошельки.
Возможности Jericho HTML Parser:
Библиотека отличается от других HTML парсеров со следующими основными возможностями:- Плохо сформированный HTML не мешает разбору остальных частей документа, что делает библиотеку идеальной для "реальных" HTML, на которых задыхаются другие парсеры.
- Серверные теги ASP , JSP , PSP , PHP и Mason однозначно признаны парсером. Это означает, что нормальный HTML-прежнему анализируется должным образом, даже если есть сервер тегов внутри них, что является общим, например, при динамической настройке атрибутов элементов.
- Опция разбора потока использует класс StreamedSource, который позволяет памяти эффективно обрабатывать большие файлы с использованием итератора событий. По сути, это альтернатива StAX с возможностью парсинга HTML и невалидных XML, а также несколько других функций, которые недоступны в других потоковых парсерах.
- В своей стандартной форме это ни парсер на основе событий ни дерево, он использует комбинацию простого текстового поиска, эффективного распознавания тегов и кэширование позиций тегов. Текст всего исходного документа сначала загружается в память а затем ищутся только соответствующие сегменты
- По сравнению с основными древовидными парсерами, такими как DOM, требование к ресурсам и памяти могут быть гораздо меньше, если требуется парсить только небольшие секции документов. Неправильное или плохо сформированные HTML можно легко игнорировать, в отличие от древовидных анализаторах, которые должны определять каждый узел в документе сверху вниз.
- По сравнению с основными парсерами событий, такими как SAX интерфейс более интуитивный и при необходимости создаётся древовидная иерархия элементов документа.
- В начальной и конечной позиции в исходном документе все анализируемые сегменты доступны, что позволяет модифицировать только отдельные сегменты документа без реконструкции всего документа с дерева.
- Номер строки и столбца каждой позиции в исходном документе легко доступны.
- Обеспечивает простой, но универсальный интерфейс для анализа и управления формами HTML, включая извлечение и заселение начальных значений и преобразования в режимы read-only или data display.
- Типы пользовательских тегов можно легко определять и регистрировать для признания анализатором.
- Встроенные функции для извлечения всего текста из HTML-разметки, подходят для скармливания в текстовый поисковик, такой как Apache Lucene.
- Встроенные функции для обработки HTML разметки с простым форматированием текста.
- Встроенные функции для формирования исходного кода HTML.
- Встроенные функции для форматирования HTML исходного кода делает отступ элементов в зависимости от их глубины в иерархии элемента документа .
- Встроенные функции в компактном HTML-коде удаляют все ненужные пробелы.
------------------------
Отзыв о Kwork
ТРИО теплый пол отзыв
Vkjust отзыв
Заработок на сокращении ссылок
Earnings on reducing links
Код PHP на HTML сайты
Я уже пять лет не занимаюсь сайтом, так как работаю по 12 часов. Образование у меня среднее, и по этому нет нормальной работы. Если бы сайт приносил по 100$ в месяц, я бы добавлял по 50 статей каждый месяц. Если отправите пожертвования, я оставлю Ваши имена и фамилии в списке благодетелей !
Bitcoin: 1AP3JCZVFpHzZwcAyNztbrbFFiLdnKbY1j
Litecoin LfHXHz4k6LnDNNvCodd5pj9aW4Qk67KoUD
Dogecoin D9HHvKNFZxRhjtoh6uZYjMjgcZewwiUME9
Есть также другие кошельки.
Категория: Программирование, Обработка текста, HML/XHTML, Динамический контент
Комментарии |