목차

    반응형

    WHISPER 란?

    WHISPER WEBUI 설치

    openAI에서 공개한 인공지능 모델로 음성을 텍스트로 변환하는 기술입니다.

    자막을 만들 때 조금 더 편하고 빠르게 작업을 할 수 있는 것이죠.

    무료로 공개했으며, github에 코드가 등록되어 있어 누구나 사용가능합니다.

     

    GitHub - openai/whisper: Robust Speech Recognition via Large-Scale Weak Supervision

    Robust Speech Recognition via Large-Scale Weak Supervision - GitHub - openai/whisper: Robust Speech Recognition via Large-Scale Weak Supervision

    github.com

    이 프로그램을 사용하여 개인 STT기능을 제약 없이 사용하실 수 있습니다.

    · 설치방법

    일단 설치에 필요한 파일을 준비해야 합니다.

    1. Whisper WebUI 설치파일
    2. GIT
    3. 파이썬 3.10.xx
    4. ffmpeg release essentials

    설치 파일을 모두 준비하셨으면 설치를 시작합니다.

    · GIT 설치

    GIT 설치 시 따로 설정해야 하는 것은 없습니다.

    그냥 다음 다음을 눌러 설치하시면 됩니다.

    GIT 설치 후 CMD 창에서 설치하고 싶은 폴더를 만들고 (mkdir) 명령어를 입력합니다. git clone https://github.com/jhj0517/Whisper-WebUI.git

    · 파이썬 3.10.xx 설치

    파이썬 3.10.xx 설치

    - 설치 처음 설정화면에 V Add python.exe to PATH 체크 잊지 않고 해 주시면 됩니다.

    · ffmpeg 설정

    다운로드한 압축 파일은 C드라이브 최상단에 압축 풀기

    ffmpeg 환경변수 설정

    압축 압축을 푼다음 환경변수 설정.
    PC 검색창에 "고급 시스템 설정 보기" 입력하여
    아래 이미지와 같은 설정창에서 설정하시면 되겠습니다.

    ffmpeg 환경변수 설정
    ffmpeg 환경변수 설정
    ffmpeg 환경변수 설정

    그럼 이제 모든 기본 설정은 완료되었습니다.

    · WHISPER 설치

    폴더 안에 있는 install.bat 파일을 과감하게 더블클릭 합니다.

    설치되는 시간은 대락 5분에서 10분 내외로 소요됩니다.
    설치 후 프로그램을 실행하실 때는 start-webui.bat 파일을 사용하시면 됩니다.

    · 마무리

    http://127.0.0.1:7860 주소창에 입력하시면 아래 이미지와 같은 화면을 보실 수 있습니다.

    WHISPER WEBUI 설치

    처음 프로그램을 사용하면 Model 다운로드하는 과정이 있기 때문에 조금 시간이 걸립니다.

    · 사용팁

    Size Parameters English-only model Multilingual model Required VRAM Relative speed
    tiny 39 M tiny.en tiny ~1 GB ~32x
    base 74 M base.en base ~1 GB ~16x
    small 244 M ssmall.en small ~2 GB ~6x
    medium 769 M medium.en medium ~5 GB ~2x
    large 1550 M N/A large ~10 GB 1x

    일단은 모델별로 필요한 사양은 다음과 같습니다.

    파라미터 값이 작을수록 속도가 빠르고 VRAM 메모리 사용량도 적습니다.

    사용해 본 결과 영어, 한국어 자막은 85~95% 잘 나오는 것 같습니다.

    일본어의 경우 조금 아쉬운 결과가 있지만 그래도 나쁘지 않은 결과를 얻으실 수 있을듯합니다.

    반응형
    모아씨는 여러분들의 방문으로 운영됩니다. 감사합니다.