僕が生きていく世界

人と少しだけ違うかもしれない考え方や視点、ぐるぐると考えるのが好きです。 あくまで、僕個人の考え方です。 みんながみんな、違う考えを持っていていい。 いろんなコメントも、お待ちしてますよ。

音声ファイルを自動で文字起こししてくれるスマホアプリ『Notta』で文字起こしの常識が変わる?【PR記事】

現代の技術の進歩ってものすごいよね……。

一昔前は誤認識ばかりで使い物にならなかった「音声入力」も、今や7〜8割の精度で正しく聞き取ってくれる。

テキストをわざわざキーボードで打たなくても、しゃべって入力するほうが早くて正確、という時代がいよいよ来るかもしれないね。

さて、僕自身はキーボードで入力したい派だけど、最近ツイキャスとかSPOONとかで、ラジオのように「しゃべって配信」する楽しさに目覚めたので、音声を自動で文字起こししてくれる優秀なアプリはないものかと探してみたところ、Googleのプレイストアで「Notta」というのを見つけたので早速試してみることに(僕はAndroidユーザーだけど、iOS版もあるみたい)。

試しに、ツイキャスで配信してyoutubeにもあげた「第一回 煉's Radio」の音声を取り出して文字起こししてみたら、想像以上に使いやすくてびっくり。

そのことをツイッターで呟いたら、なんとNottaを運営する公式さんから「PR記事を書いてくれませんか?」というご依頼を頂いたので二つ返事でオッケーしました。僕自身がいいと思ったものは、広めたいもんね。

 

というわけで、ちょっと気合を入れて「スマホアプリNottaの使用レビュー」書いてみます。よろしければお付き合いください。

notta.app.link

 

自分の声を録音したmp3ファイルを文字起こししてみる

さて、まずは僕がそもそもやりたかったことを実際にやってみて、その使用感を伝えていこうと思います。

やりたいこと、というのは、Youtubeに上げた自分がしゃべっている動画から音声ファイル(mp3)を取り出し、それを文字起こししたテキストを修正して文字で読める記事にするということ。

さすがに、いっさい手を入れないで済むとは思っていないけど、修正の手間が楽であればあるほどいいのは当然のこと。

このアプリがどれほど「使い物になるか」、それによってはライターさんの仕事が劇的に変わる可能性もあるよね。

さて、まずはアプリをインストールして立ち上げる。ちなみに、Nottaは月額850円(Androidの場合)の有料プランもあるけど、無料プランでも月に120分(有料だと3000分)までの音声の文字起こしができるので、プロのライター以外はだいたいこれで十分かも。

f:id:fuduki_ren:20200820140025j:plain

アプリの画面はこんな感じ。めっちゃシンプル……というかちょっとシンプルすぎ?

説明がなさすぎて、逆に何をしていいかわからなくなってしまうレベル。

とはいえ、落ち着いて考えれば右下のマイクのマークが「録音開始」で、右上のフォルダに矢印がついたマークが「ファイルインポート」だろうな、というのはわかる。

というわけで僕は、ファイルのインポートを選択してみる。

f:id:fuduki_ren:20200820140350j:plain

Androidユーザーなら見慣れたファイル選択画面が出てきた。

ここでスマホの中、あるいはGoogleドライブにあるmp3ファイルを選択して、「日本語で文字起こし」を選択すれば文字起こし開始。特に難しいことはない。

ちなみに「日本語で」とあるとおり、実はこの文字起こし104もの言語に対応しているらしい。そもそもこのNottaをつくっているLangogoという会社は、音声翻訳機をつくっているところだね。なるほど、翻訳機の音声認識技術を応用しているというわけだな。これは期待できる。

この「文字起こし」にはさすがにかなり時間がかかるだろう、とのんびり待っていたら、驚くほど早く終了した。30分の音声を、10分かからずテキスト化。えっすごい!(この辺はスマホの性能にもよるかもしれない)

ちなみに僕がしゃべっている配信は、30分で9700字相当らしい。こういうのが一瞬でわかるのもなかなかいいな。

 

f:id:fuduki_ren:20200820165358p:plain 

そして、音声ファイルから自動文字起こししたばかりのまっさらなテキストがこれ。

どうです? 結構正確じゃない?

もちろん、手を入れなきゃいけないところは多少あるけど、台本無しでしゃべっている僕のたどたどしさを考えるとここまで正確に文字起こししてくれるのは想像以上だ(「キーワード」がわりと意味不明なのはご愛嬌)。

テキストがただずらっと並んでいるわけじゃなくて、数十秒ごとに区切って、演劇の台本みたいにしてくれるのも、修正するときにはとても便利。

ちなみにこの時間の表示は「タイムスタンプを隠す」っていうのをタップすればぜんぶいっぺんに消せるので、最終のテキストを作成するときにはなかったことにできる。

 

で、この元テキストに手を入れて、読んで面白い記事にしたいということなのだけど、「音声を聞きながらテキストを直していく」ということに関してこのアプリ、とても優秀だ。

www.youtube.com

この動画を見てもらえるとわかるけど、なんと、再生ボタンを押すと、もとの音声が流れながら、その部分のテキストがカラオケの画面みたいに強調表示されるのだ。

文字起こしという作業をしたことがある人は、これがどれほど便利かよく分かると思う。

しかもさらにさらに、テキストを指でタップすると、そのテキストに対応した部分の音声が流れるという機能まである。誤認識を書き直さなきゃなんないけど、何を言っているか聞き取りづらい、というときに何度でも何度でもその部分をタップして聞き直すことができちゃう。

なにこれ、至れり尽くせりじゃん。僕、このアプリを使って文字起こしのアルバイトでも受けようかしら……。

 

そんなわけで、Nottaで自動文字起こししたテキスト9700字(音声30分)を修正して記事にするのにどれくらい時間がかかるか、チャレンジしてみます!

……

……

……

はい、完成版はこれ。

 

note.com

  

 30分のテキストを修正して、ここまで読めるようにするのにかかったのはおよそ90分。(まぁ、僕は文章を書くのが早いほうなので(それで食べているわけだし)、みんながこれくらい、というわけではないだろうけど)

いや、これはすごい!

普通はそもそも30分の音声を聞きながら最低限の文字にするだけでも3時間はかかるよね。そこから読んでわかるように修正して、だいぶ早い人でも5時間くらいかな……。

ちなみに僕の作業環境は、スマホでそのまま修正するのではなく(そんなにフリック入力は得意ではないので)、最初にテキストファイルにエクスポートしておいて文章はノートPC上で修正。

そのときに、Nottaアプリを起動したスマホを脇においておいて、音声とテキストを突き合わせながら直していく、という感じ。

実はNottaはWebブラウザバージョンもあるスマホのUIには対応していないのでPC専用)。しかもスマホクラウド同期していて、スマホで録音した音声をPCで聴いたり、文字起こししたテキストをエクスポートしたりして作業するのにとても便利。

このWebブラウザアプリでそのまま文字を修正することも可能だけど、文字編集モードにすると音声とテキストの同期表示ができない、等を考えると「どうしても間違っている部分だけをほんの僅か修正して元のテキストをほぼそのまま使う」というのを想定した機能みたい。

というわけでプロの物書きや文章にこだわる人は、テキストにエキスポートして普段遣いのテキストエディタで修正していくのがおすすめ。

 

ここからはちょっと残念な部分なんだけど、Webブラウザ版と同期できる、とかそういう機能はスマホアプリをインストールしただけじゃ見つけづらくて(というかほぼ発見不可能)、裏ワザっぽい感じになっちゃってるのはもったいない。

スマホアプリはシンプルすぎて、画面からはせっかくたくさんある(らしい)機能のほとんどが見つけられない。

ここは今後のサポート強化に期待。

 

「リアルタイム文字起こし」で会議や会話を文字にしてみる

さて、「僕の求めていた使い方」は上記の通り「録音した音声ファイルを文字起こし」なのだけど、多くの人にとっては「一度録音して音声ファイルにして〜」というのは二度手間だよね。

このアプリも、本来の使い方としては「レコーダーアプリの役割をしつつ、そのままテキスト化してくれる」というものだろう。

なので、それこそ音声翻訳機のノウハウを十二分に活かした「リアルタイム文字起こし」ってやつもちょっと試してみよう。

 

協力は、僕のおくさんのあすみちゃん。実際のインタビューみたいな感じで、ふたりでしゃべっているのを録音しつつリアルタイム文字起こししてみよう。

さっきのやつが僕ひとりの声の文字起こしだったので、複数の人の声をどう認識してくれるかも気になるしね。

 というわけで、5分ほどしゃべったものを文字起こししてできた文章を録画してみたので、まずは見てくださいな。

www.youtube.com

このテキストは「録音ボタンを押して、普通にふたりでしゃべったのをスマホのマイク(追加設備全くなし)で録音して、停止ボタンを押しただけ」で、本当にいっさい手を入れていない。

ちなみに「リアルタイム文字起こし」は文字通りリアルタイムでどんどん文字が表示されていくのだけど、その精度はここまではよくなくて(テレビ中継とかでたまにある、リアルタイム字幕と同じくらい)、録音停止ボタンを押した瞬間に「AI自動校正」がかかってこのテキストになる。

 ちなみに録音の際は、あえてリアルなシチュエーションにするためにざっくばらんに話している。たとえば相手の言葉にかぶせて同時に話したりしている部分があったりして、そういうところはやっぱり文字起こしの精度が下がる。あと、喋りながら考えているから、必ずしも歯切れよく話してはいない。

たとえば文字起こしを意識して話すときには順番に話す(相手の言葉に被せない)ようにしたり、ある程度、台本をつくってある講演だったりする場合は、もう少し精度が上がりそうだ。

 

さて、これを見て、みなさんの感想はどうですかね?

確かに、これだけでバッチリとまではいかないし、もう少し、かゆいところに手が届いてほしい、という部分はある。

たとえば、二人の声の違いを認識して印をつけてくれたりしたらいいなぁ、とか。

語尾が小さくなるような話し方だと、そこを全然認識してくれなくなっちゃうので、もう少し聞き取ってほしいなぁ、とか。

そのあたりは今後の課題として、だけどそれでもこの精度はなかなかすごい、と思う。

固有名詞とかは苦手だけど、ひとまとまりの文章とかはそのままで読める。たとえばさっきの録音した文章で言うと、

 

日本語に敬語というものがなかったらどうかなって思ったんですよ。はい。例えばコンビニとか駅員さんとか

接客の人とかってお客さんが偉そうでも、丁寧な言葉遣いとかややsick【うやうやしく】話さなきゃいけない感じがすごい上下関係をさらに強めているんじゃないかなあと思う

【中略】

片方が敬語を使うっていうところかなんかすごい、その上下関係を強めていって、それがなかったらもっと

そういう接客とかも会社とかの上下関係、先輩後輩とかも

もうちょっと風通しごい【風通しのいい】フレンドリーな社会になるんじゃないかな。

(【】内以外は文字起こしテキストそのまま)

 

このへんなんかは、手を入れなくてもほぼ通じる文章になっている。

これは、仕事の仕方が変わりそうだよ!

 

というわけで、僕の結論。

  • まだ荒削りな部分もあるけれど(特にアプリそのものの使いやすさ等)、メインとなる「音声の文字起こし」の機能は非常に優秀。
  • 「話したことを録音して、文字起こしする」または「録音した音声ファイルをインポートして文字起こしする」という、一番シンプルかつ重要な機能に関して言えば、本当にスマホ1つでできるし、使い方も非常にかんたん。
  • 音声の再生とテキストのハイライト表示の機能は、神!! テキストの修正が格段に楽になる。

こんな高機能なアプリが、無料で月120分まで使えるというのは、文字起こしの革命と言ってもいいかも!

有料会員でも月850円だから、今後の機能改善への応援の意味を込めて払ってもいいと僕は思いました。

おすすめのアプリです!

 

notta.app.link