지금까지 한 거
transcribe - 버킷에 영상을 올리면 람다 함수로 transcribe를 자동으로 실행해 텍스트로 변환해서 버킷에 결과를 넣어줌
translate - 되는 거 확인
오늘 한 거
transcribe가 완료가 된 json 형식의 파일에서 transcripts 부분(문장 부분만)만 추출해서 txt 파일에 저장해서 translate 돌리기
앞으로 할 거 (?)
람다로 s3 버킷에 접근해 파일을 읽어서 json -> txt로 변환 되는지 확인. 그리고 람다로 변환된 파일을 s3 버킷에 올릴 수 있는 지를 확인
translate를 자동으로 하는 건 어려울 듯
환경은 vs code
파이썬 버전은 3.9.6
코드는 json 형식의 파일에서 원하는 부분만 추출해서 txt 파일에 저장하는 것
from importlib.resources import contents
import json
#json 파일을 열기
with open("test-trans12.json", "r", encoding="utf8") as f:
contents = f.read()
json_data = json.loads(contents)
#print(json_data['results']['transcripts'][0]['transcript'])
result = json_data['results']['transcripts'][0]['transcript'] #텍스트(문장) 부분만 읽기
print(result)
file = open("test.txt", "w") #텍스트 파일에 저장
file.write(result)
file.close()
위와 같은 형식의 json 파일에서 저 transcript 부분만 추출하기 위해서 json_data[배열]을 저런 식으로 쓴 것
그렇게 해야 "{'transcript': "AWS is the world's most c,... in every imaginable use case."} 이런식으로 안 나오고 딱 문장만 추출된다
그래서 txt 파일을 열어보면 저렇게 생겼다 오예
이걸 이제 수동으로 버킷에 올려서 translate를 실행해봄
이게 input bucket/test-txt-folder/ 안에 위치함
translate 실행 화면
translate 결과 파일이 output 버킷에 잘 저장됨
output 버킷에 번역된 결과 파일이 잘 저장된 것을 확인할 수 있다
번역된 txt 파일
잘 되었다 호호
이제 람다로 버킷의 transcribe된 파일을 가지고 와서 json->txt 변환하고, 다시 버킷에 올리는 걸 찾으면 되겠다
오늘 끗-
관련자료
https://jsikim1.tistory.com/221
https://dojang.io/mod/page/view.php?id=2325
'AWS > PROJECT' 카테고리의 다른 글
EC2 인스턴스가 인터넷 연결이 되지 않을 때... (0) | 2022.12.23 |
---|---|
AWS IoT Greengrass 구성요소로 기계학습 추론 수행하기 (0) | 2022.12.13 |
AWS Lambda로 S3 버킷에 있는 파일의 형식 바꾸기 (0) | 2022.09.19 |
[프로젝트] AWS Translate 사용 방법 (0) | 2022.08.20 |
[Project] AWS Transcribe를 이용해 자막 파일 만들기 (0) | 2022.08.09 |