본문 바로가기

AWS/PROJECT

[프로젝트] json 형식을 txt로 변환해서 translate 실행

728x90

지금까지 한 거

transcribe - 버킷에 영상을 올리면 람다 함수로 transcribe를 자동으로 실행해 텍스트로 변환해서 버킷에 결과를 넣어줌

translate - 되는 거 확인

 

오늘 한 거

transcribe가 완료가 된 json 형식의 파일에서 transcripts 부분(문장 부분만)만 추출해서 txt 파일에 저장해서 translate 돌리기

 

앞으로 할 거 (?)

람다로 s3 버킷에 접근해 파일을 읽어서 json -> txt로 변환 되는지 확인. 그리고 람다로 변환된 파일을 s3 버킷에 올릴 수 있는 지를 확인

translate를 자동으로 하는 건 어려울 듯

 


환경은 vs code

파이썬 버전은 3.9.6

 

코드는 json 형식의 파일에서 원하는 부분만 추출해서 txt 파일에 저장하는 것

from importlib.resources import contents
import json

#json 파일을 열기
with open("test-trans12.json", "r", encoding="utf8") as f:
    contents = f.read()
    json_data = json.loads(contents)

#print(json_data['results']['transcripts'][0]['transcript'])

result = json_data['results']['transcripts'][0]['transcript'] #텍스트(문장) 부분만 읽기

print(result)

file = open("test.txt", "w") #텍스트 파일에 저장
file.write(result)
file.close()

 

위와 같은 형식의 json 파일에서 저 transcript 부분만 추출하기 위해서 json_data[배열]을 저런 식으로 쓴 것

그렇게 해야 "{'transcript': "AWS is the world's most c,... in every imaginable use case."} 이런식으로 안 나오고 딱 문장만 추출된다

 

그래서 txt 파일을 열어보면 저렇게 생겼다 오예

 

이걸 이제 수동으로 버킷에 올려서 translate를 실행해봄

 

이게 input bucket/test-txt-folder/ 안에 위치함

변환한 txt 파일이 버킷 내의 폴더에 위치

 

translate 실행 화면

아니 어디서부터 어디까지 가려야할지 모르겠네

translate 결과 파일이 output 버킷에 잘 저장됨

 

output 버킷에 번역된 결과 파일이 잘 저장된 것을 확인할 수 있다

 

번역된 txt 파일

잘 보이게 하려고 줄 바꿈 좀 함

잘 되었다 호호

 

이제 람다로 버킷의 transcribe된 파일을 가지고 와서 json->txt 변환하고, 다시 버킷에 올리는 걸 찾으면 되겠다

 

오늘 끗-

 

관련자료

https://jsikim1.tistory.com/221

 

Python JSON file 다루는 방법 (json 파일 읽기, 쓰기, 수정 하는 방법)

Python JSON file 다루는 방법 (json 파일 읽기, 쓰기, 수정 하는 방법) Python 에서 json 파일을 읽고, 쓰고, 수정하는 방법을 알려드리도록 하겠습니다. JSON 파일 쓰는 방법 - json.dump() import j..

jsikim1.tistory.com

https://dojang.io/mod/page/view.php?id=2325 

 

파이썬 코딩 도장: 27.1 파일에 문자열 쓰기, 읽기

Unit 27. 파일 사용하기 프로그래밍에서 중요한 축을 차지하는 부분이 파일 처리입니다. 이번에는 파일에서 문자열을 읽고 쓰는 방법과 파이썬 객체를 파일에 읽고 쓰는 방법을 알아보겠습니다. 2

dojang.io

 

728x90