Com es pot accedir al text extret d'una imatge mitjançant l'API de Google Vision?

by Acadèmia EITCA / Dimecres, desembre 27 2023 / Publicat a Intel·ligència Artificial, API de Google Vision EITC/AI/GVAPI, Comprensió del text de les dades visuals, Detecció i extracció de text de l’escriptura a mà, Revisió de l'examen

Per accedir al text extret d'una imatge mitjançant l'API de Google Vision, podeu seguir una sèrie de passos que impliquen utilitzar les capacitats de reconeixement òptic de caràcters (OCR) de l'API. La tecnologia OCR de l'API de Google Vision permet la detecció i l'extracció de text d'imatges, inclosa l'escriptura a mà. Aquesta funcionalitat és especialment útil en aplicacions que requereixen l'anàlisi i la comprensió de la informació textual present a les dades visuals.

En primer lloc, heu de configurar l'entorn necessari per treballar amb l'API de Google Vision. Això implica crear un projecte a Google Cloud Console, habilitar l'API Vision i obtenir les credencials d'autenticació necessàries, com ara una clau d'API o una clau de compte de servei.

Un cop configurat el vostre entorn, podeu utilitzar el mètode `asyncBatchAnnotateFiles` de l'API de Vision per realitzar OCR en un fitxer d'imatge. Aquest mètode us permet passar una llista de fitxers d'imatge per processar i rebre els resultats de manera asíncrona. Alternativament, podeu utilitzar el mètode `asyncBatchAnnotateImages` per processar una llista d'imatges directament.

Per extreure text d'una imatge, heu de crear una instància de l'objecte "AnnotateImageRequest" i especificar les característiques desitjades. En aquest cas, establiríeu la funció `TEXT_DETECTION` per indicar que voleu extreure text de la imatge. També podeu especificar paràmetres addicionals, com ara la pista d'idioma, per millorar la precisió de l'OCR.

A continuació, heu de codificar el fitxer d'imatge en una cadena codificada en base64 i crear una instància de l'objecte "Imatge" utilitzant les dades d'imatge codificades. Aquest objecte "Imatge" s'hauria d'afegir a l'objecte "AnnotateImageRequest" creat anteriorment.

Després de configurar la sol·licitud, podeu enviar-la a l'API de Vision mitjançant el mètode "batchAnnotateImages" o "batchAnnotateFiles", depenent de l'enfocament que hàgiu triat. L'API processarà la imatge i retornarà una resposta que conté el text extret.

Per accedir al text extret de la resposta, podeu iterar sobre el camp `textAnnotations` de l'objecte `AnnotateImageResponse`. Aquest camp conté una llista d'objectes "EntityAnnotation", cadascun representant un element de text detectat a la imatge. El camp "descripció" de cada objecte "EntityAnnotation" conté el text extret.

Aquí teniu un fragment de codi d'exemple en Python que mostra com accedir al text extret d'una imatge mitjançant l'API de Google Vision:

python
from google.cloud import vision

def extract_text_from_image(image_path):
    client = vision.ImageAnnotatorClient()

    with open(image_path, 'rb') as image_file:
        content = image_file.read()

    image = vision.Image(content=content)

    request = vision.AnnotateImageRequest(
        image=image,
        features=[{'type': vision.Feature.Type.TEXT_DETECTION}]
    )

    response = client.batch_annotate_images(requests=[request])

    for annotation in response.responses[0].text_annotations:
        extracted_text = annotation.description
        print(extracted_text)

# Usage
extract_text_from_image('path_to_image.jpg')

En aquest exemple, la funció `extract_text_from_image` pren el camí d'accés a un fitxer d'imatge com a entrada i utilitza la biblioteca de client de Google Cloud Vision per enviar una sol·licitud a l'API de Vision. A continuació, s'imprimeix el text extret.

Per accedir al text extret d'una imatge mitjançant l'API de Google Vision, heu de configurar l'entorn, crear un objecte "AnnotateImageRequest" amb les funcions desitjades, codificar el fitxer d'imatge, enviar la sol·licitud a l'API i recuperar el text extret. de la resposta. Les capacitats d'OCR de l'API Vision permeten la detecció i l'extracció de text d'imatges, inclosa l'escriptura a mà.

Altres preguntes i respostes recents sobre Detecció i extracció de text de l’escriptura a mà:

Més preguntes i respostes:

Etiquetat sota: Intel·ligència Artificial, API de Google Cloud Vision, Processament d'imatge, OCR, Reconeixement òptic de caràcters, Extracció de text

Acadèmia EITCA

Com es pot accedir al text extret d'una imatge mitjançant l'API de Google Vision?

Altres preguntes i respostes recents sobre Detecció i extracció de text de l’escriptura a mà:

Més preguntes i respostes:

EITCA Academy forma part del marc europeu de certificació informàtica

Elegibilitat per a la subvenció EITCA Academy 80% EITCI DSJC

Acadèmia EITCA

INICIU LA sessió del vostre compte mitjançant el vostre nom d’USUARI O L’ADREÇA DE CORREU E-MAIL

He oblidat els vostres detalls?

CREAR UN COMPTE

Com es pot accedir al text extret d'una imatge mitjançant l'API de Google Vision?

Altres preguntes i respostes recents sobre Detecció i extracció de text de l’escriptura a mà:

Més preguntes i respostes:

Elegibilitat per a la subvenció EITCA Academy 80% EITCI DSJC