| Jericho HTML Parser | 
 Java-библиотека для анализа и манипуляции частями HTML документа, в том числе сервеными тегами при дословном воспроизведении любого не распознаваемого или невалидного HTML. Есть высокоуровневые функции по манипуляции формами HTML. 
------------------------
Восстановление сайтов из Вебархива
Размещение по доскам объявлений России
ТРИО теплый пол отзыв
Заработок на сокращении ссылок
Earnings on reducing links
Код PHP на HTML сайты
Возможности Jericho HTML Parser:
Библиотека отличается от других HTML парсеров со следующими основными возможностями:- Плохо сформированный HTML не мешает разбору остальных частей документа, что делает библиотеку идеальной для "реальных" HTML, на которых задыхаются другие парсеры.
- Серверные теги ASP , JSP , PSP , PHP и Mason однозначно признаны парсером. Это означает, что нормальный HTML-прежнему анализируется должным образом, даже если есть сервер тегов внутри них, что является общим, например, при динамической настройке атрибутов элементов.
- Опция разбора потока использует класс StreamedSource, который позволяет памяти эффективно обрабатывать большие файлы с использованием итератора событий. По сути, это альтернатива StAX с возможностью парсинга HTML и невалидных XML, а также несколько других функций, которые недоступны в других потоковых парсерах.
- В своей стандартной форме это ни парсер на основе событий ни дерево, он использует комбинацию простого текстового поиска, эффективного распознавания тегов и кэширование позиций тегов. Текст всего исходного документа сначала загружается в память а затем ищутся только соответствующие сегменты
- По сравнению с основными древовидными парсерами, такими как DOM, требование к ресурсам и памяти могут быть гораздо меньше, если требуется парсить только небольшие секции документов. Неправильное или плохо сформированные HTML можно легко игнорировать, в отличие от древовидных анализаторах, которые должны определять каждый узел в документе сверху вниз.
- По сравнению с основными парсерами событий, такими как SAX интерфейс более интуитивный и при необходимости создаётся древовидная иерархия элементов документа.
- В начальной и конечной позиции в исходном документе все анализируемые сегменты доступны, что позволяет модифицировать только отдельные сегменты документа без реконструкции всего документа с дерева.
- Номер строки и столбца каждой позиции в исходном документе легко доступны.
- Обеспечивает простой, но универсальный интерфейс для анализа и управления формами HTML, включая извлечение и заселение начальных значений и преобразования в режимы read-only или data display.
- Типы пользовательских тегов можно легко определять и регистрировать для признания анализатором.
- Встроенные функции для извлечения всего текста из HTML-разметки, подходят для скармливания в текстовый поисковик, такой как Apache Lucene.
- Встроенные функции для обработки HTML разметки с простым форматированием текста.
- Встроенные функции для формирования исходного кода HTML.
- Встроенные функции для форматирования HTML исходного кода делает отступ элементов в зависимости от их глубины в иерархии элемента документа .
- Встроенные функции в компактном HTML-коде удаляют все ненужные пробелы.
------------------------
Восстановление сайтов из Вебархива
Размещение по доскам объявлений России
ТРИО теплый пол отзыв
Заработок на сокращении ссылок
Earnings on reducing links
Код PHP на HTML сайты
Категория: Программирование, Обработка текста, HML/XHTML, Динамический контент
| Комментарии | 


 Финансы
 Финансы 
 Планирование
 Планирование  Офисные пакеты
 Офисные пакеты  Наука и производство
 Наука и производство  Математика
 Математика  Общество
 Общество  Религии
 Религии  Образование
 Образование  Программирование
 Программирование  Сеть
 Сеть  Безопасность
 Безопасность  Администрирование
 Администрирование Игры
 Игры  Рабочий стол
 Рабочий стол  Компьютерные советы
 Компьютерные советы Другие темы
 Другие темы Добавить статью
 Добавить статью Контакты и Отказ от ответственности
 Контакты и Отказ от ответственности О нас
 О нас 
  Просмотров: 3055
 Просмотров: 3055        Комментарии:
 Комментарии:      
 Добавлен: 15 ноября 2014
 Добавлен: 15 ноября 2014     
    

 
   
  
   