■連載/石野純也のガチレビュー
会議の議事録を作成したり、メモ代わりの録音をテキスト化したりと、ビジネスシーンで“文字起こし”をする機会は意外と多い。筆者のように取材をなりわいにしていると、その頻度はさらに上がる。テキスト化されていないと、キーワード検索ができず、後から必要な録音データを探すのも面倒だ。そんな作業を自動化するためのツールとして登場したのが、ソースネクストの「AutoMemo」だ。同モデルの後継機にあたる「AutoMemo S」が、2022年1月に登場する。
このボイスレコーダーは録音したデータを、クラウド上で文字に起こしてくれるのが最大の特徴。元々録音したデータはすべてスマホ上で確認する形だったが、後継機のAutoMemo Sは液晶を備え、単体で音声の再生やテキスト化された文字の確認ができるようになった。2021年12月にはクラウド上のテキスト化エンジンも刷新されており、初代AutoMemoだけでなく、AutoMemo でも、その恩恵を受けられるようになった。
スマホとの連携が必須だったAutoMemoから一転して多機能になったAutoMemo Sだが、使い勝手や文字起こしの実用上の精度はどうか。発売に先立ち、実機を試用することができたので、その実力をチェックしていこう。
音声データをクラウドでテキスト化できる「AutoMemo S」
スマホにも見えるが、操作体系はボイスレコーダーらしいシンプルさ
シンプルなスティック状のボイスレコーダーだったAutoMemoに対し、AutoMemo Sはどことなく初代iPodをほうふつとさせるデザインになった。ディスプレイの下に大きめのセンサーキーが配置されているためだ。ホワイトのボディとシルバーのフレームで構成されたボディも、iPodを思い出した理由かもしれない。初代AutoMemoよりサイズは大きくなっているものの、スマホよりは小さく、手のひらにすっぽり収まる。
画面が搭載され、iPodやスマホのような見た目になったが、サイズはコンパクトで手のひらに収まる
一般的なボイスレコーダーよりは大型だが、それはディスプレイが搭載されているためで、筆者には許容範囲。88gと軽く、ポケットに入れてもかさばらない。見た目がスマホに近いデバイスになったが、操作性のシンプルさは健在。側面のキーで画面を点灯させたあと、前面に搭載されているセンサーキーをタップするだけで録音が始まる。スマホのような複雑さはなく、録音に特化したデバイスならではの操作性と言えるだろう。
画面がついた状態で本体前面のキーをタップすると、すぐに録音が始まる
ただ、見た目やボタンの配置がスマホに近いせいか、録音用のボタンをホームボタンと間違えてタップしてしまうことがあった。AutoMemo Sにはいわゆるホーム画面はなく、センサーキーをタップするとすぐに録音が始まる。AutoMemo Sで表示できるのは、主に録音したデータの一覧を表示している画面と、設定メニューの2つだけ。にも関わらず、スマホのクセでついついタップしてしまうため、慣れは必要になりそうだ。
録音を終了する際には、もう一度センサーキーをタップすればOK。事前にWi-Fiに接続しておくと、録音終了後に音声データが自動的にクラウドに送られ、テキスト化された後、結果が画面に表示される。初代AutoMemoでは、このプロセスにスマホとの連携が必要だったが、AutoMemo Sではこれら一連の操作をすべて単体で行える。音声の再生も可能で、スマホを開く必要がなく、取り回しがしやすい点は評価できる。
もう一度センサーキーをタップして、画面で「OK」を選ぶと録音を終わらせることが可能。操作体系はシンプルだ
スマホとの接続が不要になり、アカウントやWi-Fiなどの初期設定もスムーズになった。細かな点では、初代AutoMemoが非対応だった5GHz帯のWi-Fiにも対応しているのもうれしいポイント。筆者は自宅や事務所のWi-Fiを、電波干渉の少ない5GHz帯だけで運用している。そのため、初代AutoMemoは、ネットワーク接続用に別途スマホのテザリングを利用する必要があった。AutoMemo Sではその作業が不要になっただけでなく、ディスプレイがあるため、新規のアクセスポイントにも簡単に接続できる。
各種設定をする際にもスマホは不要。より簡単に操作できるようになった
ディスプレイは2.83インチで、最新のスマホと比べると小さいが、テキスト化された文字を確認するだけなら十分。ただし、しっかり読みたい時には、スマホのアプリからアクセスした方がいいだろう。PC用のアプリが用意されていないのは残念だが、テキストファイルとしてスマホからメールを送るといったことは可能だ。2.83インチというサイズゆえに、キーボードはやや打ちづらいが、Wi-Fi設定時などに出番が限定されるため、あまり気にする必要はなさそうだ。
認識したテキストはそのまま使える? 文字起こしの精度をチェック
では、肝心の文字起こしの精度はどうか。2020年12月に刷新されたエンジンのおかげで、取りこぼしは非常に少なくなった。以前のAutoMemoは、特定の会話がバッサリ抜けてしまうことがあった。特に質疑応答のように、複数の話者が入れ替わり話すようなシーンに弱かった印象を受ける。送られてきたテキストを見て、思いのほか短いと思った時は、たいていどこかがバッサリ抜け落ちていた。新エンジンでは、そのようなトラブルが少なくなり、とりあえず文字にしようと努力している跡が見える。
精度も上がっており、送られてきたテキストを読むだけでもある程度内容をつかむことが可能になった。例えば、以下はある記者会見で筆者が実際にした質問をテキスト化したもの。句読点の入り方がおかしかったり、固有名詞である筆者の名前がきちんと変換されていなかったりと、読解のための工夫は必要になるが、質問の内容はきちんと読み取れる。
筆者が目の前で話しかけた内容は、比較的高い精度で文字になった。ただし、誤った文字になっている部分もあり、完ぺきではない
上記は、目の前にAutoMemoを置き、直接自分の声を吹き込んだ場合だが、オンライン会議などのスピーカー越しの音声でも、きちんとテキスト化できる。逆に、反響の大きなホールで行われるプレゼンや発表会のような環境は苦手な場面と言えるかもしれない。取りこぼしや誤認識が多くなり、初見では理解しづらいテキストが上がってくる。
オンライン発表会の音声をiPadで出力して、テキスト化したところ。発表の概要程度なら、文字を読むだけでわかる
反響の大きい場所での音声は、誤変換が目立った。録音する環境によって認識精度は大きく変わるようだ
精度は、話し方にも左右される。例えば、アナウンサーのように活舌のいい人が滑らかに読み上げた原稿は、ほぼ完ぺきに近いテキストに仕上がることが多い。一方で、複数人で雑談しているケースは、誤認識が増えてくる。文法が適当で口語に近いやり取りをするようなケースでは、結果をあまり期待しすぎない方がいい。その意味で、クラウド側のエンジンにもまだまだ改善の余地はある。
AutoMemo Sで起こしたテキストをそのまま使おうと思っていた人には、少々残念な結果かもしれない。文字起こしの結果を見れば、内容はわかるものの、文章としては不正確な部分も多く、人間の手による書き直しは必要になる。そもそも日本語の場合、口語と文語の開きが大きいため、AutoMemo Sで起こしたテキストをそのまま文章として使うのは難しい。いくら最新のデバイスといっても、過度な期待は禁物だ。
内容はわかるものの、これをそのまま文字起こしとして使うのは厳しい。「えー」や「あー」などのつなぎ言葉も、そのまま文字になってしまっている
真価を発揮するのはキーワード検索や頭出し、モバイル通信対応も期待
一方で、音声だけの既存のボイスレコーダーから大きく改善される部分もある。検索機能は、その1つだ。音声ファイルだけだとキーワード検索はできないが、テキスト化されていればそれが可能になる。一般的なボイスレコーダーの場合、ファイル名などを手掛かりに必要なデータを探すことになるが、そのような整理がいらなくなるため、手間がかからない。聞きたい音声をすぐに探し出せるのは、テキスト化のメリットだ。
テキストベースでの検索が可能になるため、必要な音声データをすぐに探し出すことができる
必要な場所をすぐに頭出しできるようになるのも、検索の恩恵と言えるだろう。専門用語などのキーワードがしっかり変換されていれば、その場所をすぐに探すことができる。文字起こしを手動でやっている場合や、重要なパートだけを音声で再確認したい時などには非常に便利。記憶やメモを頼りに、必要な音声を探し出すより手間を大幅に減らすことが可能だ。AutoMemo Sの場合、音声と文字起こしされたテキストが連動しているため、こうした作業が簡単にできる。
文字起こししたテキストを検索して、必要な部分だけを聞き直すことができる。音声だけのボイスレコーダーでは不可能だったことだ
ディスプレイが搭載されたAutoMemo Sの場合、単体で検索や頭出しができるのも便利だ。音声の録音や確認がこれ1台で完結するのは、AutoMemo Sの魅力。初代AutoMemoとは違い、スマホを取り出す煩わしさがなくなった。もっとも、検索の場合、キーボードのサイズが小さかったり、タッチパネルの応答速度がイマイチだったりと欠点もあり、スマホの方が素早く操作できる。AutoMemo Sとスマホは、シーンに応じて使い分けるのがお勧めだ。
スピーカーを搭載しているため、単体で録音した音声を聞くことができる。これは、初代AutoMemoとの大きな違いだ
ディスプレイが搭載されて、使い勝手が大きく上がった印象のAutoMemo Sだが、残念なのはネットワーク接続にWi-Fiが必要なところ。出先で録音したデータをテキスト化したい際にWi-Fi環境がなければ、スマホのテザリングが必要になる。自宅や事務所などのWi-Fi環境がある場所に戻れば、ファイルは自動でアップロードされるが、それではすぐに確認ができない。スピーカーがつき、音声データを録音してすぐに再生できるようになったのは初代AutoMemoからの大きな進化だが、回線の問題は依然として残る。
同じソースネクストのPOCKETALKにモバイルネットワーク対応版があることを考えると、やはりAutoMemo Sにも同様の機能がほしくなってくる。通信料も以前より下がっているため、モバイルネットワーク対応のニーズは増えているはずだ。モバイルネットワークに対応していれば、音声をリアルタイムでテキスト化することも可能になるはずだ。実現すれば、聞き取りを補助するアイテムにもなるため、後継機での対応や派生機の登場に期待したい。
【石野's ジャッジメント】
質感 ★★★
持ちやすさ ★★★★
ディスプレイ性能 ★★★
UI ★★★★
連携&ネットワーク ★★★
バッテリーもち ★★★★
*採点は各項目5点満点で判定
取材・文/石野純也
慶應義塾大学卒業後、宝島社に入社。独立後はケータイジャーナリスト/ライターとして幅広い媒体で活躍。『ケータイチルドレン』(ソフトバンク新書)、『1時間でわかるらくらくホン』(毎日新聞社)など著書多数。
からの記事と詳細 ( 使ってみてわかったクラウド上のエンジンで文字起こしする「AutoMemo S」の実用性| - @DIME )
https://ift.tt/3KjHYUZ
No comments:
Post a Comment