ЛаТеXML
Оригинальный автор(ы) | Брюс Р. Миллер |
---|---|
Начальная версия | 10 мая 2004 г. |
Стабильная версия | 0.8.8
/ 29 февраля 2024 г. |
Репозиторий | |
Написано в | Перл |
Операционная система | Unix-подобный , macOS , Windows |
Тип | Конвертер документов |
Лицензия | Всеобщее достояние |
Веб-сайт | дллмф |
LaTeXML — это бесплатный пакет общедоступного программного обеспечения, который преобразует LaTeX документы в XML , HTML , EPUB , JATS и TEI . [1] [2] [3]
Рабочий процесс [ править ]
Основной выходной формат LaTeXML — это XML-представление (La) TeX модели документа . Постпроцессор может конвертировать эти XML-документы в другие структурированные форматы. Общие случаи использования создают HTML с математическими формулами в виде изображений или XHTML , HTML5 и EPUB с формулами в виде MathML . По сравнению с другими процессорами преобразования LaTeX в XML, LaTeXML стремится сохранить семантические структуры разметки LaTeX . Это делает его хорошей основой для семантических сервисов, таких как математический поиск .
Время преобразования варьируется от 30 миллисекунд для одной формулы (в демоне LaTeXML) до минут для документов книжного формата.
История [ править ]
LaTeXML был запущен в рамках Цифровой библиотеки математических функций в NIST , где документы LaTeX необходимо было подготовить для публикации в Интернете. Система находилась в активной разработке более десяти лет и привлекла небольшое, но преданное своему делу сообщество разработчиков и пользователей, в центре которого находился Брюс Миллер, первоначальный автор проекта.
Текущая выпущенная версия — LaTeXML 0.8.8. Он был выпущен в феврале 2024 года, и его разработка продолжается в общедоступном репозитории .
Заметное использование [ править ]
LaTeXML использовался для преобразования 90% (60% без ошибок) из 530 000 документов из arXiv в XML. [4] В результате постоянных усилий по расширению охвата LaTeXML поддерживает широкий спектр пакетов LaTeX. На конференции ACL 2014 LaTeXML использовался для преобразования представленных статей в XML. [5] Это последовало за существующей работой, направленной на преобразование документов Антологии ACL в высококачественную семантическую разметку для дальнейшего анализа. [6] С февраля 2013 года LaTeXML используется для рендеринга веб-страниц на созданном коллегами математическом веб-сайте PlanetMath . С июля 2015 года он был принят Authorea для расширенной поддержки LaTeX. [7] В 2018 году вышел второй выпуск данных [8] Европейского космического агентства проекта Gaia был реализован с помощью LaTeXML.
В феврале 2022 года arXiv анонсировала экспериментальный сервис на основе LaTeXML, предлагающий 1,78 миллиона документов в формате HTML5. [9] Разработчик LaTeXML заявил об успешном преобразовании 74% arXiv, при этом 97% статей «по крайней мере частично доступны для просмотра». С начала 2024 года этот эксперимент был опубликован на главных страницах статей arXiv. [10] [11]
Реализация [ править ]
Ядро LaTeXML — это Perl- реализация алгоритма синтаксического анализа и обработки TeX в сочетании с настраиваемым эмиттером XML. Чтобы сохранить семантические структуры в разметке LaTeX , LaTeXML необходимы привязки XML для всех пакетов LaTeX с определениями макросов высокого уровня. Дистрибутив LaTeXML в настоящее время предоставляет привязки XML для более чем 200 часто используемых пакетов LaTeX, таких как AMSTeX , Babel. [12] и PGF/TikZ (который имеет только экспериментальную поддержку).
Преобразование LaTeXML состоит из двух этапов:
- первый анализирует LaTeX и преобразует его в тип документа LaTeX , близкий к XML, и
- второй (постобработка) преобразует XML в один из стандартизированных форматов структурированного вывода.
В LaTeXML 0.8 добавлена функциональность демона, которая обеспечивает возможность многократного преобразования и простоту внедрения в веб-сервисы.
LaTeXML 0.8.7 был первой версией, использующей язык разметки MathML Core для математического синтаксиса, новый в MathML 4.
См. также [ править ]
Ссылки [ править ]
- ^ «Считыватели EPUB на базе Gecko и LaTeXML» . Архивировано из оригинала 22 августа 2014 г. Проверено 21 февраля 2020 г.
- ^ «Инструменты для преобразования LaTeX в XML» .
- ^ «Бесплатный техно-блог: LaTeXML» . Архивировано из оригинала 11 мая 2015 г. Проверено 11 февраля 2014 г.
- ^ Стамерйоханнс, Генрих; Кольхазе, Майкл; Гинев, Деян; Дэвид, Каталин; Миллер, Брюс (2010). Преобразование больших коллекций научных публикаций в XML (PDF) . Математика в информатике . Том. 3, нет. 3. Биркхойзер. стр. 299–307.
- ^ «Публикация ACL 2014 — Статьи в формате XML» .
- ^ Шефер, Ульрих; Читай, Джонатон; Опен, Стефан (2012). На пути к корпусу антологии ACL с логической структурой документов: обзор задачи ACL 2012 (PDF) . Специальный семинар ACL-2012, посвященный новому открытию 50 лет открытий. стр. 88–97.
- ^ «Информационный бюллетень Authorea — июль 2015 г.: Полный LaTeX, шаблоны и Эбола на Authorea» . Автореа . Проверено 18 августа 2018 г.
- ^ «Выпуск данных Gaia 2. Документация, выпуск 1.1» . gea.esac.esa.int . Проверено 18 августа 2018 г.
- ^ «Статьи arXiv как адаптивные веб-страницы» . arXiv . Проверено 23 февраля 2022 г.
- ^ «Обновление специальных возможностей: arXiv теперь предлагает статьи в формате HTML» . arXiv . Проверено 03 января 2024 г.
- ^ «Инструмент NIST упростит просмотр в Интернете сложных математических исследований» . Проверено 03 января 2024 г.
- ^ «LaTeXML: Локализация с помощью Babel» .
Внешние ссылки [ править ]
- Бесплатное программное обеспечение TeX
- Бесплатное математическое программное обеспечение
- Программное обеспечение, являющееся общественным достоянием, с исходным кодом
- МатематикаML
- Программное обеспечение TeX для Windows
- Программное обеспечение TeX для macOS
- Бесплатное программное обеспечение, написанное на Perl.