[프로젝트] json 형식을 txt로 변환해서 translate 실행

728x90

지금까지 한 거

transcribe - 버킷에 영상을 올리면 람다 함수로 transcribe를 자동으로 실행해 텍스트로 변환해서 버킷에 결과를 넣어줌

translate - 되는 거 확인

오늘 한 거

transcribe가 완료가 된 json 형식의 파일에서 transcripts 부분(문장 부분만)만 추출해서 txt 파일에 저장해서 translate 돌리기

앞으로 할 거 (?)

람다로 s3 버킷에 접근해 파일을 읽어서 json -> txt로 변환 되는지 확인. 그리고 람다로 변환된 파일을 s3 버킷에 올릴 수 있는 지를 확인

translate를 자동으로 하는 건 어려울 듯

환경은 vs code

파이썬 버전은 3.9.6

코드는 json 형식의 파일에서 원하는 부분만 추출해서 txt 파일에 저장하는 것

from importlib.resources import contents
import json

#json 파일을 열기
with open("test-trans12.json", "r", encoding="utf8") as f:
    contents = f.read()
    json_data = json.loads(contents)

#print(json_data['results']['transcripts'][0]['transcript'])

result = json_data['results']['transcripts'][0]['transcript'] #텍스트(문장) 부분만 읽기

print(result)

file = open("test.txt", "w") #텍스트 파일에 저장
file.write(result)
file.close()

위와 같은 형식의 json 파일에서 저 transcript 부분만 추출하기 위해서 json_data[배열]을 저런 식으로 쓴 것

그렇게 해야 "{'transcript': "AWS is the world's most c,... in every imaginable use case."} 이런식으로 안 나오고 딱 문장만 추출된다

그래서 txt 파일을 열어보면 저렇게 생겼다 오예

이걸 이제 수동으로 버킷에 올려서 translate를 실행해봄

이게 input bucket/test-txt-folder/ 안에 위치함

translate 실행 화면

translate 결과 파일이 output 버킷에 잘 저장됨

output 버킷에 번역된 결과 파일이 잘 저장된 것을 확인할 수 있다

번역된 txt 파일

잘 되었다 호호

이제 람다로 버킷의 transcribe된 파일을 가지고 와서 json->txt 변환하고, 다시 버킷에 올리는 걸 찾으면 되겠다

오늘 끗-

'AWS > PROJECT' 카테고리의 다른 글

AWS IoT Greengrass 구성요소로 기계학습 추론 수행하기 (0)	2022.12.13
AWS Lambda로 S3 버킷에 있는 파일의 형식 바꾸기 (0)	2022.09.19
[프로젝트] AWS Translate 사용 방법 (2)	2022.08.20
[Project] AWS Transcribe를 이용해 자막 파일 만들기 (0)	2022.08.09
윈도우에 AWS CLI 설치하기 (0)	2022.08.09

ClouD

[프로젝트] json 형식을 txt로 변환해서 translate 실행

'AWS > PROJECT' 카테고리의 다른 글

티스토리툴바

[프로젝트] json 형식을 txt로 변환해서 translate 실행

'AWS > PROJECT' 카테고리의 다른 글

'AWS/PROJECT' Related Articles

티스토리툴바