목차
WHISPER 란?
openAI에서 공개한 인공지능 모델로 음성을 텍스트로 변환하는 기술입니다.
자막을 만들 때 조금 더 편하고 빠르게 작업을 할 수 있는 것이죠.
무료로 공개했으며, github에 코드가 등록되어 있어 누구나 사용가능합니다.
이 프로그램을 사용하여 개인 STT기능을 제약 없이 사용하실 수 있습니다.
· 설치방법
일단 설치에 필요한 파일을 준비해야 합니다.
설치 파일을 모두 준비하셨으면 설치를 시작합니다.
· GIT 설치
GIT 설치 시 따로 설정해야 하는 것은 없습니다.
그냥 다음 다음을 눌러 설치하시면 됩니다.
GIT 설치 후 CMD 창에서 설치하고 싶은 폴더를 만들고 (mkdir) 명령어를 입력합니다. git clone https://github.com/jhj0517/Whisper-WebUI.git
· 파이썬 3.10.xx 설치
- 설치 처음 설정화면에 V
Add python.exe to PATH 체크 잊지 않고 해 주시면 됩니다.
· ffmpeg 설정
다운로드한 압축 파일은 C드라이브 최상단에 압축 풀기
압축 압축을 푼다음 환경변수 설정.
PC 검색창에 "고급 시스템 설정 보기" 입력하여
아래 이미지와 같은 설정창에서 설정하시면 되겠습니다.
그럼 이제 모든 기본 설정은 완료되었습니다.
· WHISPER 설치
폴더 안에 있는 install.bat 파일을 과감하게 더블클릭 합니다.
설치되는 시간은 대락 5분에서 10분 내외로 소요됩니다.
설치 후 프로그램을 실행하실 때는 start-webui.bat 파일을 사용하시면 됩니다.
· 마무리
http://127.0.0.1:7860 주소창에 입력하시면 아래 이미지와 같은 화면을 보실 수 있습니다.
처음 프로그램을 사용하면 Model 다운로드하는 과정이 있기 때문에 조금 시간이 걸립니다.
· 사용팁
Size | Parameters | English-only model | Multilingual model | Required VRAM | Relative speed |
tiny | 39 M | tiny.en | tiny | ~1 GB | ~32x |
base | 74 M | base.en | base | ~1 GB | ~16x |
small | 244 M | ssmall.en | small | ~2 GB | ~6x |
medium | 769 M | medium.en | medium | ~5 GB | ~2x |
large | 1550 M | N/A | large | ~10 GB | 1x |
일단은 모델별로 필요한 사양은 다음과 같습니다.
파라미터 값이 작을수록 속도가 빠르고 VRAM 메모리 사용량도 적습니다.
사용해 본 결과 영어, 한국어 자막은 85~95% 잘 나오는 것 같습니다.
일본어의 경우 조금 아쉬운 결과가 있지만 그래도 나쁘지 않은 결과를 얻으실 수 있을듯합니다.
'AI창작' 카테고리의 다른 글
귀여운 유니콘 캐릭터 AI로 만들기 애니메이션 (0) | 2023.08.03 |
---|---|
AI로 만든 잡지 스타일 컨셉 디자인 제작 (0) | 2023.08.03 |
골프 실사 모델 Stable Diffusion AI 룩북 (0) | 2023.08.03 |
AI 그림 생성 Automatic 오토매틱(webui 버전) 설치 및 사용법 (0) | 2023.07.28 |
스테이블 디퓨전 최신모델 Stable Diffusion XL 1.0 공개! (0) | 2023.07.28 |
WEBUI로 만든 AI 실사 그림... 조만간 영화까지!? (0) | 2023.06.26 |