crower: (Default)
Жалуюсь.
В рамках проекта [personal profile] vitus_wagner по вычитке книги осознал, что для загрузки материала в mediawiki надо не совсем не то, что предоставляет finereader при "сохранении результата". Форматы есть всякие, но те, что дают разметку - это уже результат вёрстки с распознаванием. А для вычитки может понадобиться оригинал. Оригинал тоже предоставлен, но отдельно. И в исходном виде он имеет размер за три гига. Выгрузка в тексте - это результат распознавания без вёрстки. А для вычитки в медиавики нужен файл с исходными сканами, но подгруженным распознанным слоем, который движёк proofread подгрузит на страничку при первой вичитке страницы.
Значит что надо сделать?
Выгружаем из finereader-а в формате pdf. Это нам нужно для полного кайфа, так как там содержится не просто распознанный текст, но и разметка - где именно он на странице находится. Если честно, это нам нафиг потом не понадобится, но чисто для удовлетворения эстетического чувства, что всё сделано как положено, приятно.:)
С pdf работать не знаю как, но есть инструмент для работы с djvu. Там же есть конвертилка, запустив которую получаем djvu-формат.
Он нам нужен для извлечения текстового слоя в виде S-выражений:

(page 0 0 2600 3544
(line 552 2783 2186 3126
(word 552 2783 2186 3126 "LAMER"))
(line 953 2607 1743 2656
(word 953 2607 1134 2656 "Ouvrage")
(word 1154 2607 1287 2656 "publi\303\251")
(word 1311 2618 1400 2644 "sous")
(word 1422 2618 1460 2656 "la")
(word 1483 2618 1671 2656 "direction")
(word 1695 2618 1743 2656 "de"))
(line 914 2527 1793 2576
(word 914 2538 961 2575 "V.")
(word 988 2527 1286 2576 "Romanovsky,")
(word 1315 2538 1461 2576 "Claude")
(word 1483 2531 1793 2576 "Francis-Boeuf,"))
(line 1138 2447 1534 2495
(word 1138 2447 1305 2495 "Jacques")
(word 1342 2458 1534 2495 "Bourcart"))
(line 1185 673 1492 708
(word 1185 673 1348 707 "PARIS,")
(word 1399 678 1492 708 "1953")))


Следующий шаг — из исходных сканов надо получить те-же djvu.
Но сканы в png и такой конвертилки напрямую не попалось под руку, но есть другие.
К тому же есть сканы в color RGB, а есть в grayscale и один даже оказался почему-то в grya+alpha. Но последнее, думаю, просто недоразумение.
RGB переводим в jpg (например, тулзой convert от ImageMagick) и теперь c44 $src.jpg -slice 100 $dst.djvu
gray переводим (тоже convert) в pgm, а его, например, так: c44 $src.pgm -dpi 300 -percent 4 $dst.djvu
Параметры подглядел из своих старых записей и пока не внимательно не вникал зачем они и где сколько надо, на первое время они и не имеют решающего значния. В данном случае для серых сканов необходимо разрешение, достаточное для вычитки, а цветные так и вовсе не важны.
Проведя означенные операции со всеми сканами получаем постраничную djvu-кацию.
В них подгружаем текстовые слои, выуженные на предыдущем этапе из свёрстанного файнридером документа.
Далее собираем все страницы в мультибандл и "вуаля!" — можно загружать в mediawiki.
Я так и сделал. Файл, индекст, страница. Но в окне редактирования не обнаружил текста.
Расстроился. Что-то сделал не так? Но вроде эксперимент ставил, и подгруженный в документ текст извлекался.
Оказывается. У меня, вообще-то есть два mediawiki-сервера. И эксперимент я ставил на одном, а для вычитки загрузку собирался сделать на другом. И они разные. Там xenial, а там - precise. Но на последнем mediawiki как-то неудачно обновился, а на первом вслед за системой обновление прошло без особых проблем. В итоге на первом 1.29, а на втором - 1.25. Расширения ProofreadPage тоже разных версий. В пользу более старого, то что там специфичные элементы управления не сломались, а на новом их не видно.
Затаив дыхание заружаю файл туда где свежий софт — текстовый слой в наличии.
Значит, собрано всё верно.
А вот на обоих mediawiki кое-что сломалось. :)
crower: (Default)
Борьба увенчалась победой. Не сразу, и с какими-то дурацкими брыканиями.

У комодо стащил сертификат и бросил в /usr/share/ca-certificates/mozilla.
Вписал его в /etc/ca-certificates.conf.
Запустил update-ca-certificates — все, ок, говорит.
Запускаю wget — так же хрень.
Подсовываю сертификат напрямую — съедает и работает.
Зову на помощь strace — подсказывает, что wget ищет 8d28ae65.0.
Запускаю curl - та-же хрень. strace подсказывает, что curl ищет тот-же файл.
Делаю руками линк, на всякий случай апдейтилку — ок.
Запускаю wget — bingo!

В процессе бодания пытался и reconfigure делать, но в конце уже не трогал.
Вот и думаю — при очередном апдейте/апгрейде не потеряется ли эта хрень.
В записнушке пометку оставлю — в следующий раз полечу по-быстрому.
crower: (Default)
Отключение проверки сертификата — плохое решение и было всего лишь временным. Разобраться что там не так ещё предстоит.
Пока обнаружил, что среди установленных комодовских сертификатов есть только такие:

Subject: C=GB, ST=Greater Manchester, L=Salford, O=Comodo CA Limited, CN=AAA Certificate Services
Subject: C=GB, ST=Greater Manchester, L=Salford, O=COMODO CA Limited, CN=COMODO Certification Authority
Subject: C=GB, ST=Greater Manchester, L=Salford, O=COMODO CA Limited, CN=COMODO ECC Certification Authority
Subject: C=GB, ST=Greater Manchester, L=Salford, O=COMODO CA Limited, CN=COMODO RSA Certification Authority
Subject: C=GB, ST=Greater Manchester, L=Salford, O=Comodo CA Limited, CN=Secure Certificate Services
Subject: C=GB, ST=Greater Manchester, L=Salford, O=Comodo CA Limited, CN=Trusted Certificate Services

А сайт zniis в качестве центра авторизации кивает на:

/C=GB/ST=Greater Manchester/L=Salford/O=COMODO CA Limited/CN=COMODO RSA Domain Validation Secure Server CA

Что, наверняка, совсем не одно и то-же.
crower: (Crower)
Пара примеров как составлять фразы в доке есть, но сервисов-то сколько и каких?
Нарыл варианты фраз для девайса, которые могу понадобиться. Букмарчим для памяти:
ASGTB
6001,6051     Call duration
6002,6052     Price
6003,6053     Telephone number 1
6004,6054     Telephone number 2
6005,6055     List of telephone number 2
6006,6056     24 hour time 1 (hour and minute)
6007,6057     24 hour time 2 (hour and minute)
6008,6058     24 hour time 3 (hour and minute)
6009,6059     Number 1 (0 to 100)
6010,6060     Number 2 (0 to 100) 
6011,6061     Number 3 (0 to 100) 
6012,6062     Number 1 Digit by digit
6013,6063     Number 2 Digit by digit
6014,6064     Number 3 Digit by digit
6015,6065     List of number 1 and telephone number 2
6016,6066     List of 24 hour time 1
6017,6067     List of subscriber services
6018,6068     List of number 1 (0 to 100)

ASTB3
6019          Date
6020          American time hour and minute
6021          Feature status 
6022          Feature name.
6023          BG-extension
6024          BG-public prefix
6025          List of 24 hours time 1 and Number 1 (0 to 99)
6026          Relative day
6027          Date (Advanced Services)


Так понимаю, что нижнюю и верхнюю полусотни можно использовать для двуязычного варианта.
Второй пример, кстати, юзает 6021 для реализации лохотрона лотереи. :D
crower: (Crower)
Росссвязь опять чего-то у себя изменила.
Только месяц назад заменил скрипт на баше скриптом на perl, чтобы оптимизировать процесс — и на тебе: сюрприз. Ничего уже не работает.
Объясняю… )

UPD. С необновлёнными html отбой тревоги. Посыпаю голову пеплом — не вернул из отладочного режима скрипт и конвертился "кролик". Таким образом остаётся только проблема с 304 кодом (через прокси), а с прагмой no-cache отсутствует last-modified.
И, кстати, в html-варианте последнее поле тоже приведено в адрекватный вид город/район+субъект РФ.

Profile

crower: (Default)
crower

July 2017

S M T W T F S
      1
23 45678
910111213 1415
161718 19202122
23242526272829
3031     

Syndicate

RSS Atom

Style Credit

Expand Cut Tags

No cut tags
Page generated Jul. 22nd, 2017 12:36 pm
Powered by Dreamwidth Studios