| PO4A.7(1) | User Contributed Perl Documentation | PO4A.7(1) |
po4a — набір інструментів для перекладу документації та інших матеріалів
po4a («PO for anything» або «PO для усього») спрощує супровід перекладу документації з використанням класичних інструментів gettext Основною перевагою po4a є відокремлення придатного до перекладу вмісту документа від його структури.
Це документ є вступом до документації з проєкту po4a. Акцент у ньому зроблено на відомостях для потенційних користувачів, які розглядають можливість використання цього інструмента і цікавляться тим, чому усе реалізовано саме таким чином.
Філософія вільного програмного забезпечення полягає у наданні доступу до технологій усім. Втім, ліцензування не є єдиною причиною: неперекладене вільне програмне забезпечення є недоступним для тих, хто не знає англійської. Для того, щоб зробити його цінним для усіх, слід докласти додаткових зусиль з перекладу.
Усе це добре розуміють у більшості проєктів — зараз усі вже переконані у тому, що перекладати слід усе. Втім, сам переклад є результатом величезних зусиль багатьох осіб, які ускладнюють невеличкі технічні труднощі.
На щастя, саме вільне програмне забезпечення має досить якісний інструментарій для перекладу, дякуючи чудовому набору інструментів gettext. У нас є інструменти для видобування рядків для перекладу з програми і представлення їх у стандартизованому форматі (який називають файлами PO або каталогами перекладу). З'явилася ціла екосистема інструментів, які допомагають перекладачам перекладати ці файли PO. Результат перекладу використовується gettext під час роботи програми для показу кінцевим користувачам перекладених повідомлень.
Якщо ж говорити про документацію, маємо дещо прикру картину. Спершу може здатися, що перекладати документацію простіше за саму програму, оскільки достатньо скопіювати файл документації і почати перекладати його вміст. Втім, якщо до початкового документа буде внесено зміни, стеження за ними може перетворитися на суцільний жах для перекладачів. Виконання цього завдання вручну є неприємною справою, у якій можна дуже просто помилитися.
Застарілі ж переклади часто є більшою проблемою, ніж неперекладена документація. Кінцевого користувача можна ввести в оману документацією, у якій описано поведінку застарілої версії програми. Крім того, користувачі перекладеної версії не можуть безпосередньо взаємодіяти із супровідниками, оскільки мають проблеми у спілкування англійською. До цього додається і те, що супровідник не може виправити проблему, оскільки не знає усі мови, якими перекладено документацію. Ці складнощі, часто викликані неналежним інструментарієм перекладу, можуть відлякати потенційних перекладачів, що робить ситуацію ще проблематичнішою.
Метою проєкту po4a є спрощення роботи для перекладачів документації. Зокрема, цей проєкт робить переклади документації придатними до супроводу.
Ідея полягає у повторному використанні і адаптації підходу gettext. Так само, як і з gettext для програм, текстові фрагменти видобуваються з початкових файлів і надаються перекладачам як каталоги перекладу PO. Перекладачі можуть скористатися класичними засобами gettext для стеження за виконанням завдань, співпраці та організації команд. Далі, po4a вставляє переклади безпосередньо до структури документації з метою створення перекладених початкових файлів, які можна обробляти і поширювати у той самий спосіб, у який обробляються і поширюються файли англійською. У документі-результаті усі неперекладені абзаци лишатимуться написаними англійською, отже кінцеві користувачі ніколи не побачать застарілих перекладів у документації.
Це автоматизує більшу частину нудної роботи із супроводу перекладу. Виявлення абзаців, які потребують оновлення стає дуже простим, а процес повністю автоматизується, якщо елементи просто перевпорядковуються без подальшого внесення змін. Також можна скористатися специфічними перевірками для зменшення ймовірності помилок у форматуванні, які можуть призвести до неможливості обробки документа.
Будь ласка, також ознайомтеся із розділом Поширені питання у цьому документі, щоб дізнатися більше про переваги і недоліки цього підходу.
У поточній версії цей підхід успішно реалізовано для декількох типів документів із текстовим форматуванням:
У модулі Locale::Po4a::Man(3pm) також передбачена підтримка формату mdoc, який використовується у сторінках підручника BSD (їх також доволі часто використовують у Linux).
Див. Locale::Po4a::AsciiDoc, щоб дізнатися більше.
Див. Locale::Po4a::Pod, щоб дізнатися більше.
У поточній версії передбачено підтримку лише DebianDoc і DocBook DTD, але додавання підтримки нових форматі є дуже простим. po4a можна навіть використовувати для невідомих DTD SGML без зміни коду, якщо надати потрібну інформацію за допомогою командного рядка. Див. Locale::Po4a::Sgml(3pm), щоб дізнатися більше.
Модуль Locale::Po4a::LaTeX(3pm) було перевірено на документації до Python, книзі і декількох презентаціях.
Цей формат є типовим для генераторів статичних сайтів, файлів README та інших систем документації. Див. Locale::Po4a::Text(3pm), щоб дізнатися більше.
У поточній версії po4a передбачено підтримку DocBook DTD (докладніше про це див. Locale::Po4a::Docbook(3pm)) та XHTML.
Див. Locale::Po4a::BibTex, щоб дізнатися більше.
Див. Locale::Po4a:Docbook, щоб дізнатися більше.
Див. Locale::Po4a:Guide, щоб дізнатися більше.
Див. Locale::Po4a::Wml, щоб дізнатися більше.
Див. Locale::Po4a::Yaml, щоб дізнатися більше.
Див. Locale::Po4a::RubyDoc, щоб дізнатися більше.
Див. Locale::Po4a:Halibut, щоб дізнатися більше.
Див. Locale::Po4a::Ini, щоб дізнатися більше.
Найпростішим способом використання цього інструмента у вашому проєкті є написання файла налаштувань для програми po4a із наступною роботою лише із цією програмою. Будь ласка, зверніться до документації у підручнику з po4a(1). Решту цього розділу присвячено подробицям для досвідчених користувачів po4a, які хочуть дізнатися більше про роботу програми.
Спочатку ознайомтеся із підручником з po4a(1), щоб дізнатися про базові принципи роботи po4a. Повертайтеся до цього докладного опису, якщо хочете дізнатися про майже усі подробиці.
На наведеній нижче схемі основний.документ — приклад назви документації, яку слід перекласти; XX.документ — відповідний перекладений документ мовою XX, а doc.XX.po — каталог перекладу для цього документа мовою XX. Автори документації, здебільшого мають перейматися файлом основний.документ (це може бути сторінка підручника (man), документ XML, файл AsciiDoc або подібний документ); перекладачі, здебільшого, працюють із файлом PO, а кінцеві користувачі бачать лише файл XX.документ.
Переходи із квадратними дужками, зокрема "[po4a оновлює po]", означають виконання програми po4a, а переходи із фігурними дужками, зокрема "{оновлення основний.документ}", означають внесення до файлів проєкту змін вручну.
основний.документ
|
V
+<-----<----+<-----<-----<--------+------->-------->-------+
: | | :
{переклад} | {оновлення основний.документ} :
: | | :
XX.документ | V V
(необов'язковий) | основний.документ ->------>---->+
: | (новий) |
V V | |
[po4a-gettextize] документ.XX.po>+ | |
| (старий) | | |
| ^ V V |
| | [po4a оновлює po] |
V | | V
переклад.pot ^ V |
| | документ.XX.po |
| | (неточний) |
{переклад} | | |
| ^ V V
| | {редагування вручну} |
| | | |
V | V V
документ.XX.po --->---->+<---<-документ.XX.po додаток основний.документ
(початковий) (актуальний) (необов'язковий)(актуальний)
: | | |
: V | |
+----->----->----->------> + | |
| | |
V V V
+------>-----+------<------+
|
V
[po4a оновлює переклади]
|
V
XX.документ
(актуальний)
Знову ж таки, ця схема надмірно складна. Зверніться до документації з po4a(1), щоб ознайомитися зі спрощеним оглядом.
У лівій частині показано як можна скористатися po4a-gettextize(1) для перетворення наявного проєкту перекладу до інфраструктури po4a. Цей скрипт працює із початковим документом та його перекладеним аналогом і намагається зібрати відповідний файл PO. Таке перетворення вручну є доволі марудним (подробиці наведено у документації до po4a-gettextize(1)), але таке перетворення потрібне лише один раз — для перетворення наявних перекладів. Якщо у вас немає ніяких перекладів для перетворення, ви можете забути про це і зосередитися на правій частині схеми.
У верхній частині праворуч зображено роботу автора початкового тексту (оновлення документації). У середній частині праворуч зображено послідовність автоматичних оновлень файлів перекладу. Новий тестовий матеріал видобувається з документа і порівнюється із наявним перекладом. Виявляються частини, які не змінилися, — для них використовується наявний переклад. Частини, які зазнали часткових змін також пов'язуються із попереднім перекладом, але із особливою позначкою, яка вказує на те, що переклад має бути оновлено. Новий або значно змінений матеріал лишається неперекладеним.
Then, the manual editing block depicts the action of the translators, that modify the PO files to provide translations to every original string and paragraph. This can be done using either a specific editor such as the GNOME Translation Editor, KDE's Lokalize or poedit, or using an online localization platform such as weblate or pootle. The translation result is a set of PO files, one per language. Please refer to the gettext documentation for more details.
У нижній частині схеми показано, як po4a створює перекладений початкових документ на основі документа основний.документ та каталогу перекладу документ.XX.po, який було оновлено перекладачами. Програма використовує структуру початкового документа, але замінює початковий вміст на перекладені блоки. Якщо потрібно, може бути використано додаток для вставляння певного додаткового тексту до перекладу. Такі додатки часто використовуються для додавання імені перекладача до остаточного документа. Подробиці наведено нижче.
Після виклику po4a оновлює файли перекладу та файли перекладеної документації автоматично.
Якщо ви починаєте на порожньому місці, вам слід просто написати файл налаштувань для po4a, і все. Програма створить відповідні шаблони для потрібних файлів, і ваші перекладачі зможуть перекласти проєкт рідною мовою. Будь ласка, зверніться до підручника з po4a(1), де наведено короткі відомості і подробиці.
Якщо у вас вже є переклади, тобто файли документації, які було перекладено вручну, ви можете інтегрувати ці дані до вашого робочого процесу po4a за допомогою po4a-gettextize. Це дещо марудне заняття (як його описано на сторінці підручника програми), але після перетворення вашого проєкту до робочого процесу po4a усі дані оновлюватимуться автоматично.
Після встановлення достатньо викликати po4a, щоб оновити як файл PO перекладу, так і перекладені документи. Ви можете передати "--no-translations" до po4a, щоб не оновлювати переклади (таким чином оновлюючи лише файли PO) або "--no-update", щоб не оновлювати файли PO (таким чином оновлюючи лише переклади). Це приблизно відповідає окремим скриптам po4a-updatepo і po4a-translate, які зараз не рекомендуються (див. «Чому окремі скрипти застаріли» у розділі поширених питань нижче).
Додавання нового тексту до перекладу є, ймовірно, єдиною дією, яку простіше виконувати, якщо ви перекладаєте файли вручну :). Додавання може знадобитися, якщо вам потрібно додати до перекладеного документа додатковий розділ, який не відповідає жодного з розділів у початковому документі. Класичним випадком є додавання подяк команді перекладачів та вставляння нотатки щодо того, як повідомляти про вади, які пов'язано із перекладом.
У інфраструктурі po4a вам слід вказати файли додатків, які концептуально можна розглядати як латки, які застосовуються до локалізованого документа після обробки. Кожен додаток має бути надано як окремий файл, формат якого, втім, значно відрізняється від формату класичних латок. Перший його рядок є рядком заголовка, який визначає позицію вставлення додатка (із, на жаль, доволі складним синтаксисом — див. нижче), а решту файла буде буквально вставлено у визначеній позиції.
Рядок заголовка має розпочинатися з рядка PO4A-HEADER:, за яким має бути вказано список відокремлених крапкою з комою полів ключ=значення.
Наприклад, у наведеному нижче заголовку оголошується додаток, який має бути вставлено наприкінці перекладу.
PO4A-HEADER: mode=eof
Все стає складнішим, якщо ви хочете додати додаткові дані всередину документа. У наведеному нижче заголовку оголошується додаток, який має бути вставлено після розділу XML, який у перекладі містить рядок "Про цей документ".
PO4A-HEADER: position=Про цей документ; mode=after; endboundary=</section>
На практиці, при спробі застосувати додаток po4a шукає перший рядок, який відповідає аргументу ключа "position" (аргументом може бути формальний вираз). Не забудьте, що po4a обробляє перекладений документ. Документацію перекладено українською, але ваш рядок може виглядати так, як вказано нижче, якщо додаток застосовується до французького перекладу документа.
PO4A-HEADER: position=À propos de ce document; mode=after; endboundary=</section>
Щойно аргумент ключа "position" буде знайдено у документі призначення, po4a виконає пошук наступного рядка після "position", який відповідає аргументу, заданому "endboundary". Додаток буде додано одразу після цього рядка (оскільки нами надано endboundary — межу поточного розділу).
Точно такого самого ефекту можна досягти із наведеним нижче заголовком, який є еквівалентним до вже використаного:
PO4A-HEADER: position=Про цей документ; mode=after; beginboundary=<section>
Тут po4a шукає перший рядок, який відповідає "<section>" після рядка "Про цей документ" у перекладі, і вставляє додаток до цього рядка, оскільки вказано beginboundary, тобто початкову межу наступного розділу. Отже, цей рядок заголовка вимагає від програми вставити додаток після розділу, що містить рядок "Про цей документ", і вказує po4a, що розділ починається з рядка, що містить теґ "<section>". Це еквівалентно до попереднього прикладу, оскільки насправді нам потрібно вставити цей додаток або після "</section>", або перед "<section>".
You can also set the insertion mode to the value "before", with a similar semantic: combining "mode=before" with an "endboundary" will put the addendum just after the matched boundary, that is the last potential boundary line before the "position". Combining "mode=before" with an "beginboundary" will put the addendum just before the matched boundary, that is the last potential boundary line before the "position".
Режим | Тип межі | Використана межа | Точка вставляння відносно межі ========|===============|==========================|======================================= 'before'| 'endboundary' | остання перед 'position' | Одразу після вибраної межі 'before'|'beginboundary'| остання перед 'position' | Одразу перед вибраною межею 'after' | 'endboundary' | перша після 'position' | Одразу після вибраної межі 'after' |'beginboundary'| перша після 'position' | Одразу перед вибраною межею 'eof' | (немає) | н/д | Кінець файла
Підказки і настанови щодо додатків
PO4A-HEADER: position=Про цей документ; mode=after; beginboundary=<section>
PO4A-HEADER: position=Про цей документ ; mode=after; beginboundary=<section>
Приклади додатків
.SH "AUTHORS"
Вам слід вибрати двокроковий підхід встановленням значення mode=after. Далі, вам слід звузити пошук до рядка після AUTHORS за допомогою параметра формального виразу position. Далі, вам потрібно встановити відповідність початку нового розділу (тобто, ^\.SH) за допомогою параметра формального виразу beginboundary. Тобто, слід зробити так:
PO4A-HEADER:mode=after;position=AUTHORS;beginboundary=\.SH
PO4A-HEADER:mode=after;position=Copyright Big Dude, 2004;beginboundary=^
PO4A-HEADER:mode=after;position=Про цей документ;beginboundary=FakePo4aBoundary
Докладніший приклад
Початковий документ (у форматуванні POD):
|=head1 NAME | |dummy - a dummy program | |=head1 AUTHOR | |me
Далі, наведений нижче додаток забезпечить додавання розділу (українською) щодо перекладачів наприкінці файла.
|PO4A-HEADER:mode=after;position=АВТОР;beginboundary=^=head | |=head1 ПЕРЕКЛАДАЧ | |я |
Щоб розташувати ваш додаток перед записом АВТОР, скористайтеся таким заголовком:
PO4A-HEADER:mode=after;position=ІМ'Я;beginboundary=^=head1
Це працює, оскільки наступний рядок відповідника beginboundary "/^=head1/" після розділу «NAME» (перекладеного як «ІМ'Я» українською) є розділ зі списком авторів. Отже, додаток буде розташовано між вказаними розділами. Зауважте, що якщо між розділами NAME і AUTHOR згодом буде додано ще якийсь розділ, po4a помилково додасть додаток перед новим розділом.
Щоб уникнути цього, ви можете досягти результату у інший спосіб за допомогою mode=before:
PO4A-HEADER:mode=before;position=^=head1 АВТОР
У цій главі наведено короткий огляд нутрощів po4a, який надасть вам впевненості, якщо ви захочете допомогти нам із супроводом та розвитком комплекту програм. Цей огляд також може допомогти вам зрозуміти, чому програма працює не так, як ви того сподівалися, та як усунути вашу проблему.
В основі проєкту po4a клас Locale::Po4a::TransTractor(3pm) є спільним предком для усіх обробників po4a. Ця дивна назва походить від того факту, що він водночас відповідає за переклад документа (translator) та видобування рядків (extractor).
Формально, він отримує документ для перекладу і файл PO з перекладами на вході і створює два потоки виведених даних: ще один файл PO (який є результатом видобування придатних до перекладу рядків із вхідного документа) та перекладений документ (тієї самої структури, що і вхідний, але із заміною усіх придатних до перекладу рядків на вміст вхідного файла PO). Ось графічне представлення обробки:
Вхідний документ --\ /---> Вихідний документ
\ TransTractor:: / (перекладений)
+-->-- parse() --------+
/ \
Вхідний PO --------/ \---> Вихідний PO
(видобутий)
Ця маленька часточка коду є ядром усієї архітектури po4a. Якщо ви надаєте вхідні дані та ігноруєте вихідний PO, ви отримуєте po4a-translate. Якщо натомість проігнорувати вихідний документ, ви отримаєте po4a-updatepo. po4a використовує перший TransTractor, щоб отримати оновлений вихідний файл POT (без урахування вихідних документів), викликає msgmerge -U, щоб оновити файли PO перекладу на диску, і будує другий TransTractor з цими оновленими файлами PO для оновлення вихідних документів. Коротше кажучи, po4a забезпечує універсальне рішення для оновлення того, що потрібно, за допомогою єдиного файла налаштувань.
po4a-gettextize також використовує два TransTractor-и, але у інший спосіб: вона створює один TransTractor для кожної мови, а потім створює новий файл PO, використовуючи msgid початкового документа як msgid, і msgid перекладеного документа як msgstr. Слід бути дуже уважним і переконатися, що рядки, зіставлені таким чином, дійсно збігаються, як описано у po4a-gettextize(1).
Усі обробники форматів po4a реалізовано на основі TransTractor. Деякі з них дуже прості, наприклад Text, Markdown і AsciiDoc. Вони завантажують рядки один за одним за допомогою TransTractor::shiftline(), накопичують дані абзаців або щось інше. Після повного аналізу рядка аналізатор використовує TransTractor::translate(), щоб (1) додати цей рядок до вихідного файла PO та (2) отримати переклад із вхідного файла PO. Потім аналізатор надсилає результат у вихідний файл за допомогою TransTractor::pushline().
Деякі інші аналізатори є більш складними, оскільки вони покладаються на зовнішній аналізатор для аналізу вхідного документа. Обробники Xml, HTML, SGML і Pod побудовані на основі обробників SAX. Вони оголошують зворотні виклики до таких подій, як «Я знайшов новий заголовок із таким вмістом», щоб оновити вихідний документ і вихідні файли POT відповідно до вхідних даних за допомогою TransTractor::translate() і "TransTractor::pushline ()". Синтаксичний аналізатор Yaml подібний, але відрізняється: він серіалізує структуру даних, створену обробником YAML::Tiny. Ось чому модуль Yaml po4a не може оголосити еталонні рядки: розташування кожного рядка у вхідному файлі не зберігається аналізатором, тому ми можемо надати лише "$назва_файла:1" як розташування рядка. SAX-орієнтовані обробники використовують змінні загального рівня та інші трюки, щоб зберегти назву файла та номери рядків посилань.
One specific issue arises from file encodings and BOM markers. Simple parsers can forget about this issue, that is handled by TransTractor::read() (used internally to get the lines of an input document), but the modules relying on an external parser must ensure that all files are read with an appropriate PerlIO decoding layer. The easiest is to open the file yourself, and provide an filehandle or directly the full string to your external parser. Check on Pod::read() and Pod::parse() for an example. The content read by the TransTractor is ignored, but a fresh filehandle is passed to the external parser. The important part is the "<:encoding($charset)" mode that is passed to the open() perl function.
Клас Locale::Po4a::Po(3pm) відповідає за завантаження та використання файлів PO і POT. Загалом, ви можете прочитати файл, додати записи, отримати переклади за допомогою методу gettext(), записати PO до файла. Додаткові функціональні можливості, такі як об’єднання файла PO з файлом POT або перевірка файла, передано до msgmerge і msgfmt відповідно.
Навіть якщо ви ніколи раніше не брали участі в жодному проєкті з відкритим кодом, ласкаво просимо: ми готові допомогти та наставити вас тут. Найкращий супровід po4a можуть надати лише його користувачі. Оскільки нам не вистачає розробників, ми намагаємося зробити проєкт якомога гостиннішим, покращуючи документацію та автоматичні тести, щоб ви були впевнені у своєму внеску до проєкту. Для отримання додаткової інформації зверніться до файла CONTRIBUTING.md.
Це лише частина списку проєктів, у яких використовується po4a для роботи з документацією. Якщо хочете додати ваш проєкт до списку, просто надішліть ваше прохання електронною поштою (або створіть запит щодо об'єднання у сховищі з кодом).
Цей проєкт надає інфраструктуру для перекладу багатьох сторінок підручника різними мовами. Результати інтегруються до декількох основних дистрибутивів (Arch Linux, Debian і похідні, Fedora).
Особисто автор вимовляє це як pouah <https://en.wiktionary.org/wiki/pouah>, — французький аналог нашого «пхе!» :) Можливо, в автора дивне почуття гумору :)
Справді, po4a-updatepo і po4a-translate застаріли, і перевагу слід надавати po4a. Причина полягає в тому, що хоча po4a можна використовувати як додаткову заміну для цих скриптів, маємо досить багато дубльованого коду. Окремі скрипти містять приблизно 150 рядків коду, тоді як програма po4a складається з 1200 рядків, тому ці рядки виконують додаткові завдання щодо загальних вбудованих функцій. Дублювання коду призводить до помилок, що виникають в обох версіях і потребують двох виправлень. Одним із прикладів такого дублювання є помилка №1022216 у Debian і проблема №442 у GitHub, які мали те саме виправлення, але одне у po4a, а інше — po4a-updatepo.
Зрештою, автор хотів би відмовитися від окремих скриптів і підтримувати лише одну версію цього коду. Звичайно, окремі сценарії більше не покращуватимуться, тому лише po4a отримає нові можливості. Зважаючи на це, вилучення скриптів не є нагальною потребою. Я планую зберігати окремі скрипти якомога довше і принаймні до 2030 року. Якщо ваш проєкт все ще використовуватиме po4a-updatepo та po4a-translate у 2030 році, у вас можуть виникнути проблеми.
Ми також можемо скасувати застарівання цих скриптів у певний момент, якщо рефакторинг зменшить дублювання коду до нуля. Якщо у вас є ідея (або краще: латка), будемо раді вашій допомозі.
Їх декілька. Нижче наведено неповний список. Існують плани щодо впровадження у декількох інших програмах.
Ця програма може працювати лише із форматом XML і лише з певним DTD. Мені не дуже подобається робота зі списками у ній, оскільки використання списків за певних умов призводить до створення величезних msgid. Якщо список дуже великий, перекладати його стає дуже складно.
Основною перевагою po4a над цими програмами є простора додавання додаткових даних (що важко або неможливо зробити у цих програмах) та можливість перетворення даних до стандартного формату gettext.
- https://docs.kde.org/stable5/uk/kdesdk/lokalize/project-view.html
- http://www.debian.org/intl/l10n/
Втім, не усе так безхмарно. У цього підходу також є недоліки, з якими доводиться мати справу.
Однією з моїх мрій є інтеграція po4a до Gtranslator або Lokalize. При відкритті файла документації програма автоматично б видобувала рядки для перекладу, а перекладений файл і файл po записувала б на диск. Якщо б нам вдалося створити модуль MS Word™ (принаймні модуль для RTF), такою комбінацією модуля з програмами для перекладу могли б користуватися навіть професійні перекладачі.
Denis Barbier <barbier,linuxfr.org> Martin Quinson (mquinson#debian.org)
| 2024-08-06 | perl v5.38.2 |