인공지능 스피커, 과연 이게 필요한가?

카카오미니, 네이버의 웨이버, 아마존의 에코 등 인공지능 스피커들이 난리다. 정확히 인공지능 스피커라는 용어가 맞는지도 모르겠지만, 개인적으로는 솔직히 왜 이게 필요한지를 모르겠다. 일단 기능자체는 거의 모든것들이 현재의 스마트폰에서 되는것이다. 노래를 찾아서 재생하거나, 길을 찾거나, 집에 있는 하드웨어를 제어하거나 등등. 좀 더 나은점이라면 음성인식 + 서비스가 하나로 결합된 상태라고 볼 수 있을것이다. 아이폰의 시리나 삼성의 벅스비에 구글이나 네이버의 서비스들이 합쳐진 형태라고 볼 수 있다. 스마트폰에서는 네이버앱에 들어가거나 해야하는 번거로움이 있지만 스피커에 그냥 말하면 된다는 것이다.

개인적인 이유에서 일수도 있지만, 별로라고 생각하는 몇가지 이유가 있다.

  • 프라이버시 : 일단 스피커라는 점에서 내가 말하는 내용과 듣는 내용을 나 외에 공간에 같이 있는 사람이 듣게 된다. 굳이 스피커라는 매체를 쓰면서까지 그렇게 할 필요가 있을까 싶다. 결국은 뭔가를 찾고 정보를 알기 위함일텐데 말이다.
  • 지역적 한계성 : 스마트폰은 사실 요즘은 집안에서든 집밖에서든 항상 내가 들고 다니는 퍼스널게이트웨이의 기기가 되었다. 그렇지만, 스피커는 들고 다니기엔 불편하다. 예를들어, 거실에 스피커가 있는데 방안에서 노래를 틀어달라고 하면 틀어질까? 그럴바엔 차라리 거실에 있는 블루투스 스피커에 연결하고, 스마트폰에서 음성인식을 통해서 트는게 낫지 않을까? 하드웨어 제어적인 측면에서도 스피커라는 기기가 가지는 지역적 한계는 하드웨어 제어를 집 안에 특정공간에서 할 수 밖에 없다는 애기밖엔 안된다. 이런 한계와 반대로 최근에 IPTV 업체에서 리모콘에 음성인식 기능을 통해서 해서 티비를 제어하도록 하는 방법이 오히려 더 낫다는 생각이 든다.
  • 검색의 용이성 : 인공지능 스피커의 여러가지 기능들이 있겠지만 크게 하드웨어 제어와 검색을 통한 정보의 획득을 들 수 있을것 같은데, 후자에 대해서 검색결과를 음성으로 듣는 것이 나은가에 대한 의문이 든다. 아주 단순한 검색(날씨나 주식같은)게 아니라면 현재의 검색은 사실 네이버나 구글에 나온 결과(data)들을 사람이 보고 판단을 해서 적정한 정보(information)를 취득하는 과정이라고 생각한다. 예를 들어 맛집을 검색한다고 생각해보면, ‘판교 맛집’ 이라고 검색을 하면 광고결과들도 보고 여러 블로그들을 보고 어떤 곳이 맛집인지 사람이 스스로 판단을 하게 된다. 그런데 인공지능 스피커가 과연 그 일을 할 수 있을까? 사람이 검색을 하고 결과를 손으로 스크롤하면서 눈으로 확인하면서 유용한 정보인지를 판단하는것만큼 빠를까 하는 생각이든다.

지금 어떻게 보면 말로하고 대답해주고 공간내에 있는 다른 기기들과 연결 된다는 점에서 좋게(?) 보일수 있겠지만, 개인적으로는 스마트폰에 있는 음성인식과 speech API 들이 더 많은 서비스업체들이 사용할 수 있도록 구성 및 오픈이 되어야 하고 그 안에서 음성인식을 통해서 들어온 사용자 입력이 여러가지 서비스들과 연계가 되면서 동작을 하는것이 궁극적인 발전 방향이 아닌가 하는 생각이 든다.

인공지능, 머신러닝의 발전으로 검색의 용이성은 사람의 뇌가 정보라고 판단하는 것을 판단할 수 있도록 발전 할수 있을것이다. 그리고 음성인식은 사용하면 할 수록 더 좋아질 것이다. 그럼에도 불구하고 프라이버시 문제와 지역적 한계성을 스피커라는 매체의 특성상 여전히 남아 있는 문제라는 생각이 든다. 그리고 많은 업체들이 이 문제들을 어떻게 극복해 나갈것인지도 궁금하다.