Per accedir al text extret d'una imatge mitjançant l'API de Google Vision, podeu seguir una sèrie de passos que impliquen utilitzar les capacitats de reconeixement òptic de caràcters (OCR) de l'API. La tecnologia OCR de l'API de Google Vision permet la detecció i l'extracció de text d'imatges, inclosa l'escriptura a mà. Aquesta funcionalitat és especialment útil en aplicacions que requereixen l'anàlisi i la comprensió de la informació textual present a les dades visuals.
En primer lloc, heu de configurar l'entorn necessari per treballar amb l'API de Google Vision. Això implica crear un projecte a Google Cloud Console, habilitar l'API Vision i obtenir les credencials d'autenticació necessàries, com ara una clau d'API o una clau de compte de servei.
Un cop configurat el vostre entorn, podeu utilitzar el mètode `asyncBatchAnnotateFiles` de l'API de Vision per realitzar OCR en un fitxer d'imatge. Aquest mètode us permet passar una llista de fitxers d'imatge per processar i rebre els resultats de manera asíncrona. Alternativament, podeu utilitzar el mètode `asyncBatchAnnotateImages` per processar una llista d'imatges directament.
Per extreure text d'una imatge, heu de crear una instància de l'objecte "AnnotateImageRequest" i especificar les característiques desitjades. En aquest cas, establiríeu la funció `TEXT_DETECTION` per indicar que voleu extreure text de la imatge. També podeu especificar paràmetres addicionals, com ara la pista d'idioma, per millorar la precisió de l'OCR.
A continuació, heu de codificar el fitxer d'imatge en una cadena codificada en base64 i crear una instància de l'objecte "Imatge" utilitzant les dades d'imatge codificades. Aquest objecte "Imatge" s'hauria d'afegir a l'objecte "AnnotateImageRequest" creat anteriorment.
Després de configurar la sol·licitud, podeu enviar-la a l'API de Vision mitjançant el mètode "batchAnnotateImages" o "batchAnnotateFiles", depenent de l'enfocament que hàgiu triat. L'API processarà la imatge i retornarà una resposta que conté el text extret.
Per accedir al text extret de la resposta, podeu iterar sobre el camp `textAnnotations` de l'objecte `AnnotateImageResponse`. Aquest camp conté una llista d'objectes "EntityAnnotation", cadascun representant un element de text detectat a la imatge. El camp "descripció" de cada objecte "EntityAnnotation" conté el text extret.
Aquí teniu un fragment de codi d'exemple en Python que mostra com accedir al text extret d'una imatge mitjançant l'API de Google Vision:
python from google.cloud import vision def extract_text_from_image(image_path): client = vision.ImageAnnotatorClient() with open(image_path, 'rb') as image_file: content = image_file.read() image = vision.Image(content=content) request = vision.AnnotateImageRequest( image=image, features=[{'type': vision.Feature.Type.TEXT_DETECTION}] ) response = client.batch_annotate_images(requests=[request]) for annotation in response.responses[0].text_annotations: extracted_text = annotation.description print(extracted_text) # Usage extract_text_from_image('path_to_image.jpg')
En aquest exemple, la funció `extract_text_from_image` pren el camí d'accés a un fitxer d'imatge com a entrada i utilitza la biblioteca de client de Google Cloud Vision per enviar una sol·licitud a l'API de Vision. A continuació, s'imprimeix el text extret.
Per accedir al text extret d'una imatge mitjançant l'API de Google Vision, heu de configurar l'entorn, crear un objecte "AnnotateImageRequest" amb les funcions desitjades, codificar el fitxer d'imatge, enviar la sol·licitud a l'API i recuperar el text extret. de la resposta. Les capacitats d'OCR de l'API Vision permeten la detecció i l'extracció de text d'imatges, inclosa l'escriptura a mà.
Altres preguntes i respostes recents sobre Detecció i extracció de text de l’escriptura a mà:
- Quines limitacions poden sorgir en extreure text de documents complexos mitjançant l'API de Google Vision?
- Quina és la importància dels nivells de confiança en la interpretació del text de l'API de Google Vision?
- Com pot l'API de Google Vision reconèixer i extreure amb precisió el text de les notes escrites a mà?
- Quins són els reptes a l'hora de detectar i extreure text d'imatges escrites a mà?
- Google Vision pot reconèixer l'escriptura a mà?