Сервис Directum TextExtractor Service настраивается в секции appSettings конфигурационного файла web.config. Не рекомендуется изменять остальные секции файла, это может повлиять на работоспособность сервиса.
Структура секции:
<appSettings>
<add key="ExtractionQuality" value="{Качество извлечения текстового слоя}" />
<!--<add key="TempDocumentsLocation" value="{Путь к папке с временными документами}"/>-->
<add key="ClearTempDocumentsOlderThanHours" value="{Интервал очищения папки с временными документами}" />
<add key="AlwaysExtractTextFromPdf" value="{Всегда извлекать текстовый слой из PDF-документов}" />
<add key="NoTextPdfExtractionDpi" value="{Разрешение для извлечения текста из PDF-документов}" />
<add key="UseConvertedPdfFactPositions" value="{Учитывать поворот документов при получении
координат фактов}" />
<add key="PageClassifierWordsCount" value="{Количество слов для определения начала документа}" />
<add key="UseFixedForms" value="{Использовать жесткие формы документов}" />
<add key="DebugMode" value="{Включить режим отладки}" />
<add key="QueueConnection" value="{Строка подключения к RabbitMQ}"/>
<add key="ConsumerCount" value="{Количество одновременно обрабатываемых сообщений}"/>
<add key="ElasticApm:ServerUrls" value="{Адрес сервиса Elastic APM Service}"/>
<add key="ElasticApm:ServiceName" value="{Имя сервиса в Elastic APM Service}"/>
<add key="ElasticApm:LogLevel" value="{Уровень логирования библиотеки, которая отправляет информацию о сервисе в Elastic APM Service}"/>
<add key="ElasticApm:SpanFramesMinDuration" value="{Время обработки документа при возникновении ошибки, при котором в лог-файл записывается подробная информация о ней}"/>
<add key="ElasticApm:MetricsInterval" value="{Интервал сбора метрик}"/>
<add key="MessageTTL" value="{Время хранения сообщений в RabbitMQ}"/>
</appSettings>
appSettings – настройки сервиса:
• | ExtractionQuality. Качество извлечения текстового слоя. Возможные значения: |
• | fast. Высокая скорость извлечения, при этом снижается качество. |
• | quality. Высокое качество извлечения, при этом снижается скорость. |
Значение по умолчанию fast.
• | TempDocumentsLocation. Путь к папке с временными документами, которые создаются в процессе работы сервиса. Параметр используется, если установлено несколько сервисов извлечения текстового слоя, так как необходимо, чтобы все они использовали одну и ту же папку. По умолчанию параметр закомментирован. |
• | ClearTempDocumentsOlderThanHours. Интервал очищения папки с временными документами в часах. При перезапуске сервиса из временной папки удаляются документы, созданные ранее этого интервала. Укажите целое число больше нуля. Значение по умолчанию 72. |
• | AlwaysExtractTextFromPdf. Всегда извлекать текстовый слой из PDF-документов, даже если текстовый слой уже существует. Возможные значения: True, False. Значение по умолчанию True. |
• | NoTextPdfExtractionDpi. Разрешение, используемое для извлечения текста из PDF-документов без текстового слоя или из документов, у которых игнорируется существующий текстовый слой. Укажите целое число больше нуля. Значение по умолчанию 300. |
• | UseConvertedPdfFactPositions. Учитывать поворот документов при получении координат фактов. Возможные значения: True, False. Укажите значение False, если импортируются PDF-документы без предварительной обработки. Если импортируются обработанные PDF-документы, оставьте значение по умолчанию True. |
• | PageClassifierWordsCount. Количество слов на странице, которые используются для определения начала нового документа. Укажите целое число больше нуля. Значение по умолчанию 50. |
• | UseFixedForms. При обработке изображений применять жесткие формы документов, например, формы паспортов РФ. Возможные значения: True, False. Если нет необходимости в распознавании документов с жесткими формами, для ускорения обработки документов рекомендуется оставить значение по умолчанию False. |
• | DebugMode. Включить режим отладки для сохранения промежуточных результатов обработки изображений. Возможные значения: True, False. Если указано значение True, то во временной папке, указанной в параметре TempDocumentsLocation, создается папка debug, в которую сохраняются промежуточные результаты обработки изображений на каждом из этапов. Значение по умолчанию False. |
• | QueueConnection. Строка подключения к брокеру сообщений RabbitMQ в формате amqp://{Имя пользователя}:{Пароль}@{Адрес}:{Порт}/{Виртуальный хост}. |
• | ConsumerCount. Количество одновременно обрабатываемых запросов на сервисе. При значении 0 равно количеству ядер процессора. Значение по умолчанию 4. |
• | ElasticApm:ServerUrls. Адрес сервиса Elastic APM Service. |
• | ElasticApm:ServiceName. Имя, под которым сервис TextExtractor Service отображается в лог-файлах Elastic APM Service. Значение по умолчанию Text Extractor Service. |
• | ElasticApm:LogLevel. Уровень логирования библиотеки, которая отправляет в сервис Elastic APM Service информацию о запросах и метриках сервиса TextExtractor Service. Значение по умолчанию Error. |
• | ElasticApm:SpanFramesMinDuration. Если при обработке документа возникла ошибка и время обработки превышает значение параметра, в лог-файл записывается не только факт ошибки, но и подробная информация о ней. Значение по умолчанию 0ms, при котором запись в лог-файл отключена. |
• | ElasticApm:MetricsInterval. Интервал сбора метрик о состоянии памяти и CPU. Значение по умолчанию 0s, при котором метрики не собираются. |
• | MessageTTL. Время хранения сообщений об обработке документов в RabbitMQ в секундах. Значение по умолчанию 86400. |
Формирование лог-файлов сервиса настраивается в конфигурационном файле NLog.config в секции<targets>:
<target name="file" xsi:type="File" encoding="utf-8" fileName="logs/${shortdate}.log" >
где target name – путь до папки с лог-файлами.
Не рекомендуется изменять остальные параметры файла, это может повлиять на работоспособность сервиса.