키보드여 안녕? Wispr Flow, 음성 기술로 업무 혁신을 꿈꾸다
오랫동안 존재해 온 음성-텍스트 변환 기술은 여전히 키보드의 아성을 넘지 못하고 있습니다. 부정확한 인식률, 사무실에서의 어색함 등 여러 이유가 존재하죠. 하지만 8,100만 달러의 투자 유치와 7억 달러의 기업 가치를 인정받은 스타트업 Wispr은 이 판도를 바꾸고자 합니다. 그들의 야심찬 솔루션, ‘Flow’를 소개합니다.
Flow: 음성으로 모든 앱을 지배하다
Wispr Flow는 데스크톱, 모바일 앱을 가리지 않고 음성을 텍스트로 변환해주는 도구입니다. Slack, Gmail은 물론 ChatGPT와 같은 AI 어시스턴트에서도 활용 가능하죠. 단순 변환에 그치지 않고, 불필요한 단어나 오타를 자동으로 수정해줍니다. Wispr은 자사의 "음성 우선 모델" 덕분에 다른 음성 인식 도구보다 정확도가 높다고 주장합니다. 이 모델은 실제 사람들의 말하기 방식을 학습하여 텍스트 변환, 포맷팅, 의도 파악을 종합적으로 수행합니다.
오픈 소스와 독자 기술의 만남
텍스트 편집에는 오픈 소스 Llama 3.1 모델과 OpenAI 등의 독점 모델을 결합했습니다. Wispr CEO 타나이 코타리에 따르면, Flow는 낮은 볼륨의 음성도 감지할 수 있어 개방형 사무실에서 소통할 때 발생할 수 있는 불편함을 해소할 수 있습니다. 실제로 Wispr은 매주 약 125개의 신규 고객을 확보하며 법률팀, 영업팀, 엔지니어링팀 등 다양한 분야에서 활용되고 있습니다.
타이핑 시간 단축, 생산성 향상
Wispr Flow 사용 후 사람들은 평균적으로 하루 타이핑 시간을 5시간에서 3시간으로 줄이는 효과를 경험한다고 합니다. 5개월 후에는 사용자 컴퓨터 활동의 72%가 키보드가 아닌 Flow를 통해 이루어진다는 결과도 있습니다. 많은 사용자들이 AI 도구와 함께 Flow를 처음 접하고, 점차 Slack, 이메일 등 모든 업무에 활용하게 된다고 합니다.
다양한 활용 사례
Yahoo의 법률 책임자는 Flow를 사용하여 법률 서류 초안을 작성하고 Google Docs 및 Word에 주석을 달았습니다. Ramp의 분석팀은 모든 엔지니어링 워크플로우와 문서 작성에 활용하고 있습니다. 사이버 보안 회사 Upwind에서는 현장 영업팀이 CRM 노트에 더 상세한 정보를 기록하게 되면서 영업팀 전체로 확산되었습니다.
사무실에서 말하는 것에 대한 거부감, 이제는?
과거에는 사무실에서 소리 내어 말하는 것에 대한 거부감이 음성 도구 도입의 걸림돌이 되었습니다. 하지만 Wispr은 ROI(투자 수익률) 관점에서 접근합니다. 행동 변화의 비용보다 얻는 가치가 크다면 충분히 시도해 볼 만하다는 것이죠. 실제로 많은 사용자들이 "아하!" 모먼트를 경험하며 Flow의 편리함에 빠져들고 있습니다.
정확도, 프라이버시, 그리고 미래
Wispr은 경쟁사들이 95%의 단어 정확도를 자랑하지만, 이는 모든 문장에 오류가 있을 가능성이 있다는 의미라고 지적합니다. Flow는 사용자가 메시지를 변경 없이 보낼 수 있는 비율을 측정하며, 높은 정확도를 유지합니다. 또한, 문맥을 파악하여 사용자가 선호하는 방식으로 텍스트를 작성하고, 이전 대화 스타일을 반영하는 등 차별화된 기능을 제공합니다.
사용자 데이터 프라이버시 보호에도 힘쓰고 있습니다. Wispr은 모든 사용자에게 데이터 보존 없이 제품을 사용할 수 있는 "프라이버시 모드"를 제공합니다. 기업 고객에게는 조직 전체에 프라이버시 모드를 활성화하도록 지원하여 엄격한 보안 요구 사항을 충족할 수 있도록 돕고 있습니다.
음성 인터페이스, 더 나아가 행동까지?
Wispr의 궁극적인 목표는 기술과의 상호작용을 친구와 대화하는 것처럼 자연스럽게 만드는 것입니다. 앞으로 5~10년 안에 음성 인터페이스는 단순히 말을 텍스트로 변환하는 것을 넘어 사용자를 위해 다양한 작업을 수행하는 "Wispr Actions"로 진화할 것입니다. Wispr은 음성 기술이 사람들의 삶을 긍정적으로 변화시킬 수 있다고 믿으며, 그 미래를 만들어가기 위해 노력하고 있습니다.