Export textu z PDF s pomocí OCR technologie
Webová služba PdfToText umožňuje exportovat text z libovolného dokumentu ve formátu PDF, umožňuje také scanování textu z obrázků s pomocí OCR technologie. Metoda PdfToText2 umožňuje skenovat více sekcí v jednom PDF dokumentu.
Výkonnost OCR je závislá na několika faktorech, včetně použitých konverzních parametrů a hlavně hardware prostředků. |
Popis služby PdfToText včetně WSDL schématu a příklad požadavku a odpovědi pro SOAP 1.1 a SOAP 1.2 je umístěn na http://localhost/ltd/ltd.asmx?op=PdfToText a http://localhost/ltd/ltd.asmx?op=PdfToText2.
Parametr "localhost" je název používaný pro lokální počítač; namísto něj zapište jméno/IP adresu LTD serveru (dle nastavení v IIS). |
Požadavek
POST /ltd/ltd.asmx HTTP/1.1
Host: localhost
Content-Type: text/xml; charset=utf-8
Content-Length: length
SOAPAction: "http://software602.com/longtermdocs/PdfToText"
<?xml version="1.0" encoding="utf-8"?>
<soap:Envelope xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xmlns:xsd="http://www.w3.org/2001/XMLSchema" xmlns:soap="http://schemas.xmlsoap.org/soap/envelope/">
<soap:Body>
<PdfToText xmlns="http://software602.com/longtermdocs/">
<InputPDF>base64Binary</InputPDF>
<Pages>
<int>int</int>
<int>int</int>
</Pages>
<Flags>long</Flags>
<Params>string</Params>
<Lang>string</Lang>
</PdfToText>
</soap:Body>
</soap:Envelope>
<InputPDF>
[povinný element]
Vstup | Popis |
---|---|
Base64Binary |
Libovolný dokument ve formátu PDF v kódování Base64Binary. |
<Pages>
[nepovinný element]
Vstup | Popis |
---|---|
Int |
Čísla stránek, ze kterých se má vytěžovat text, indexovány od 1. Pro indexování od konce použijte záporné hodnoty, kde -1 odpovídá poslední stránce. Když není vyplněný, prohledává se celý dokument. |
<Flags>
[nepovinný element]
Vstup | Popis |
---|---|
Long |
Rozšiřující nastavení OCR Engine. Pokud stránka neobsahuje obrázek, nelze OCR použít. Pro nastavení možno využít jakékoli kombinace následujících hodnot:
|
<Params>
[nepovinný element]
Vstup | Popis |
---|---|
String |
Možno definovat jen část dokumentu pro OCR ve formátu: Coordinates=[x_val],[y_val],[width_val],[height_val] Příklad: Coordinates=50,50,200,200. |
<Lang>
[nepovinný element]
Vstup | Popis |
---|---|
String |
Jazyk, který se použije při konverzi pomocí OCR engine, hodně ovlivní kvalitu výsledného textu. Může být ve formátu:
Pro více jazyků kontaktujte naši podporu. |
V požadavku metody PdfToText2 je navíc element XML_Template:
|
Odpověď
HTTP/1.1 200 OK
Content-Type: text/xml; charset=utf-8
Content-Length: length
<?xml version="1.0" encoding="utf-8"?>
<soap:Envelope xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xmlns:xsd="http://www.w3.org/2001/XMLSchema" xmlns:soap="http://schemas.xmlsoap.org/soap/envelope/">
<soap:Body>
<PdfToTextResponse xmlns="http://software602.com/longtermdocs/">
<PdfToTextResult>int</PdfToTextResult>
<Text>string</Text>
<ErrorMessage>string</ErrorMessage>
</PdfToTextResponse>
</soap:Body>
</soap:Envelope>
<PdfToTextResult>
Návratová hodnota | Popis |
---|---|
Int |
Výsledek metody PdfToText. 0 = v pořádku. Jinak viz kapitola Návratové kódy. |
<Text>
Návratová hodnota | Popis |
---|---|
String |
Text vytěžený z PDF souboru. |
<ErrorMessage>
Návratová hodnota | Popis |
---|---|
String |
Pokud nastane problém, obsahuje popis problému (kde nastal, co nefungovalo). |