音声認識 > ドラゴンスピーチ 全般    
  > 音声認識で テープ起こし はできる?

音声認識全般 音声認識辞書 ニュース 文書管理 英会話 マイク スカイプ アイテム パソコン
アーカイブ 6月 5月 4月 3月 2月  広告欄 1 2 3  サイトマップ

2005年05月25日

音声認識で テープ起こし はできる?



Office フリーソフトウェア

ポイント
・登録(トレーニング)した人の声でないと認識できない
・自分の声でも会話で人に話した声は認識できない

 ドラゴンスピーチでは、「ICレコーダーの文字起こしもカンタン」と謳われていますが、そういう用途でうっかり買っちゃうと、使えないソフトだと誤解を生みそうにおもいますので、音声認識ソフトとボイスレコーダーを使用しての、利用可能な範囲について私の意見を書きたいと思います。

 理想的には誰の声でもレーニンなしで音声認識できて、インタビューやシンポジウムなど録音したファイルやマイク入力をリアルタイムで文字化できればいいのですが、そのような機能は今のところ、ドラゴンスピーチのみならず、どの音声認識ソフトでもありません。
 ドラゴンスピーチのパッケージやホームページには、「事前にドラゴンスピーチに登録されていない音声や、会議など2名以上の話者の録音を文字化することはできません。」 とは書いていますが、登録(トレーニング)した自分の声なら、人と話したときの会話でも認識できるのか、どの程度早口でも認識できるのか、といった説明はされていないです。
 今度、認識率を掲載しますが、人に話すように会話調でしゃべってみた声を認識させてみましたが、認識率は50%以下といった感じで、修正するよりキーボードで打ち直した方が、速いだろうと思う位で実用は到底無理そうでした。ICレコーダーやPocketPCなどで録音した録音ファイルの音声認識できる「音声の文字化」機能もありますが、この機能を利用するには、きっちりと発音した声でないと認識できませんし、録音では、周囲の雑音が多い、録音品質が悪い、といった影響もありますから、それを無理に認識させても、まともに認識できないという結果になると思います。また、議事録作成システムなるものが発売されましたが、値段もネックですが、それ以前に、会話ともなると、認識率は普通のディクテーションと比べて著しく低下することは避けられないと思います。

 ですから、音声認識ソフトをテープ起こしで活用するには、ドラゴンスピーチのホームページのQ&Aにある通り、普通の音声入力と同じように、録音したテープを聞いて「復唱」するという方法をとらざるを得ないのが現状です。
 ただこの方法でも、1〜10%程度は、誤認識が発生しますのでそれを修正するのに時間がかかります。しかも会話文で誤認識が多いだろうと考えると、リアルタイム(テープの録音時間と同じ時間)で復唱しながら修正するというのは、録音の間のあきかたにもよると思いますが、ほぼ不可能だろうと思います。
 それと、復唱というのも、結構簡単ではないと思います。ニュースを聞きながら、リアルタイムで同じ言葉を正確に話すことを試してみましたが、私はできませんでした。会議では、もうすこし、テンポが遅いかもしれませんが、それでも、なかなか簡単ではないと思います。

 リアルタイムは無理だとして、普通の方法で録音テープを聞いてキーボードで入力する(通常のテープおこし)方法と比べて、音声入力で時間的に短く作業をするのは、会話の内容によっては可能だと思います。でも結局は、テープを止めたり巻き戻したりは必要じゃないかなぁと思います。
 テープ起こしをするには、音声の再生操作を足でできるようにする、フットスイッチを利用するのは良い方法みたいです。ゲーム用のジョイパッドを改造してフットスイッチを取り付けられるようにした方法を説明したホームページがありましたのでご紹介します。JoyToKeyというフリーソフトは大変便利です。私もゲーム用のコントローラーを改造して利用して音声入力の補助操作に利用しています。

テープ起こし フットスイッチ制作 PC_foot
音声認識で テープ起こし はできる? へのトラックバック
http://trackback.blogsys.jp/livedoor/ninsiki/19342158
この記事へのコメント
はじめまして。

私の目指すは、これですが、商品のスタンスが「書き言葉」を発声するソフトのようです。

「話し言葉」でないので、如何に正しく、速く認識できるかに掛かっているのですが、認識の焦点が原文の読み違いに当てられているのです。
話し言葉には、台本じゃないのですから、原文はありません。あるのは原音です。

原音たる言い違い(正しく発音する事・正しい用語を発音すること)が焦点されていません。いや逆で、原音たるが正しいのです。

それに、重なって反訳書の読み違いが加わるのです。
反訳業者に掛け合ってきましたが、返事なしが多いです。引き受ければ、反訳者の思想の疎通が大変です。結局、自分が編集です。

このようなソフトは22世紀になっても無いでしょうが、本当に反訳書を作成するのは、大変辛いです。現時点、どうしたらよいか、少しずつ研究しませんか?
Posted by 清河の煌き at 2005年07月13日 23:27
コメントありがとうございます。

音声認識ソフトが原音たるで
そのまま文字化してくれればすばらしいのですが、
「今日の認識率:低い」でも書いたように、
話し言葉は全く使用不能なレベルだと思います。

外注にまわすと、用語や人名などの理解不十分が多いので、
読み違いが多いということになるのだと思います。

予算と権限があれば、反訳専門に内部の人を一人配置して、
テープを聞かせるだけでなくて、その場にも立ち会ってもらった上で、
作成してもらうと品質が高くなるのではないでしょうか。

普通は、そんな費用もかけられないですし、
結局、発言者か参加者が自ら作業するしかない、
という残念な結論しか私には思いつかないです。
Posted by hiro at 2005年07月15日 22:21
認識さん、こんばんは。お返事ありがとうございます。暑中お見舞い申し上げます。

この開発自体欧米でした。杉本優さんのブログから得た情報です。秘書が反訳するを目的として録音するそうです。
それは、ですから「書き言葉」を前提しているというのです。これじゃ、「話し言葉」との相違点を研究開発してないな、と思います。
また、こちらから得た*ンタックスが合成音声を一見しました。これがペイできるレベルになったことを考え合わせました。つまり、「書き言葉」を音声化しているのであって、「話し言葉」に変換しているのではない、というものです。(続)


(すみません)文字制限何字までですか。どこをクリックしたら分るのかなかなか分りません。
Posted by 清河の煌き at 2005年07月17日 22:20
>反訳専門に内部の人を一人配置して、
テープを聞かせるだけでなくて、その場にも立ち会ってもらった上で、作成してもらうと品質が高くなるのではないでしょうか。

これは、私の場合、簡単にはメモ程度に背景や前提経緯は反訳者にご連絡します。
この点、次のURLの趣旨も認識さんの通りです。それまで、尋問中は速記者がタイピングして、その方が反訳してたのでしょう。
http://sokkikan.coco.co.jp/sihou/yousei1.htm

さて、用語は専門もありますので、いわゆるその変換ミスは、仕方ないです。業界用語や隠語(例えば、「マルタイ」:刑事事件の加害対象者)また、固有名詞がそうです。その前後の文節変換も連動しても多少しょうがないと割り切っています。
Posted by 清河の煌き at 2005年07月22日 13:02
すみません、お返事遅くなりました。
文字制限はちょっとわかりません。ヘルプ見ても書いてなかったもんで。スクロールさせないで入力できる程度の様ですが。

音声認識でも、意外と話し言葉は豊富に収録されています。
(書き言葉よりは不完全ですが)
本当に会話した感じで音声認識させると散々な結果になりますが、
一人だけの声で丁寧に発音しなおせば、
話し言葉でも、意外とうまく認識されます。
http://blog.livedoor.jp/ninsiki/archives/19853552.html
Posted by hiro at 2005年07月24日 21:39
問題は、むしろ、話し言葉の話し方が、言葉になってない音を発したり、
音声認識するには不明瞭すぎる話し方になっているからという感じがします。
それも、含めて話し言葉だと言うことも出来ますが。

用語不足の問題は、単語が収録されていたとしても、
使用頻度が少ない単語だと解釈されるのか、
出て欲しい単語が一発で出てくれないことが多いです。
日本語は同音語がたくさんありますし、
業界向け辞書とかが充実しないと厳しい気がします。
Posted by hiro at 2005年07月24日 21:40
おはようございます。

字数制限の関係で、こうして見ました。
御査収下さい。
Posted by 清河の煌き at 2005年07月26日 09:29
置換はワードで一括で全角や半角に統一してくれる機能がありますので、さほど問題にならないと思います。ただし、ドラゴンスピーチの場合は漢字混じりで数字を入れられる設定がありますが、この場合に必ずしも希望の表記にならない場合があります。
専門家でないのでわかりませんが、話し言葉での音声認識の認識率の問題は、辞書に単語が無い場合や言語モデル(隣り合うべき単語の隣接確率の情報)が不十分な場合(話し言葉にしかない現象も含む)は認識が著しく困難であることと、単音単位での認識が難しいことがあげられると思います。
それよりも大きな問題として、話し言葉にしかない現象として独特なのは、話す速度が乱れたり語尾等が不明瞭な場合が多いので、音を区別できない発音が多いことだと思います。
Posted by hiro at 2005年08月04日 19:54
校正の必要性について
音声認識では、認識ミスによって、キーボード入力では絶対にしないような誤字脱字が多く発生しがちです。結局、キーボード入力の場合以上に入念な確認を要することになり、時間がかかってしまいます。
人手によるテープ起こしでも、本人でしかわからない語句や内容とかで、とんちんかんな原稿になってしまう場合は多いでしょうから、当然確認は必要でしょうね。
音声認識ソフトなどにも付属しますが、音声合成の読み上げ機能があります。不正確なところもありますが、耳で聞いて確認することも出来ますので、ながら確認作業というのも可能かもしれません。
Posted by hiro at 2005年08月04日 19:58
今、MS-IMEでのキーボード入力ですが、「むずかしい」、「むつかしい」、は変換出来るのに、「むづかしい」は出来ないんですね。
「ひづけ」は出来るのに、「ひつけ」が出来ないですね。現在はほとんどの場合「ひづけ」と言いますが、本来はたぶん「ひつけ」ですよね。この辺の辞書の根拠がよくわからないなぁ。
Posted by hiro at 2005年08月04日 20:02
ご多用中お返事ありがとうございました。

>それよりも大きな問題として、・・・音を区別できない発音が多いことだと思います。

そうです、そうです。音速の変化も誤認しないで貰いたいです。

>音声合成の読み上げ機能があります。・・・ながら確認作業というのも可能かもしれません。

いいヒントありがとうございました。

>「ひづけ」は出来るのに、・・・この辺の辞書の根拠がよくわからないなぁ。

仰る通りです!わからないです。

【お願い】認識さん。
ソフトを試用してみたくなりました。バージョン6でもよいですから、プロフェッショナル使わないかな〜がありましたら、譲って戴けませんか。お友達にでも聞いて戴けると更に喜びます。価格はご相談します。
Posted by 清河の煌き at 2005年08月04日 22:48
お返事遅くなりました。すみません。
私の持っている、ドラゴンスピーチはプロ版ではないですし、
ノート用とデスクトップ用両方で使っているので、
お譲りできるソフトは持っていないです。すみません。
Posted by hiro at 2005年08月25日 21:14
本日買いました。プロ版でないのを。

いよいよ実質トークになりそうです。
このままでは、コメント頁はカテ違いですね?どこに行きましょか?


スペース「 」の入れ方をご存知でしたら、お願いします。
Posted by 清河の煌き at 2005年08月26日 20:11
またまたお返事遅くてすみません。
ブログのコメント機能は不便ですし、掲示板がなくて申し訳ないのですが、こちらに書いていただいてかまいませんよ。適当に目立つ所でもいいですし。
それほど沢山の書き込みは無いと思うので、今後コメントが増えてくれば考えますが、当面現状のままにしようと思っています。

ドラゴンスピーチ購入おめでとうございます。
スペースは、「全角スペース」か「半角スペース」です。
Posted by hiro at 2005年09月05日 22:51
こんばんは。お返事は、お時間ある時にでも結構ですので、お気遣いなく。

認識さんが言われてた「人とソフト自身の相互理解で成り立つ商品です。」とは、至言です。実感してます。
子供を育てているみたいです。(^^ゞ
困ったり、イライラしたり、怒ったり、宥めたり、そして喜んだり、死苦ハ苦です。

また、ご指導ありがとうございました。
・・・買った直後に、新製品が出ましたんですってね。(@_@)
今回は、これにて。
Posted by 清河の煌き at 2005年09月13日 22:23
 



前のページ

       デジタルカメラ搭載のICレコーダー ICD-CX50



次のページ

       ScanSnap FI-5110EOX3 アマゾン



ランキングナビ






サイト内検索



ドラゴンスピーチ 全般
音声認識で テープ起こし はできる?

ドラゴンスピーチ 前の記事音声認識ソフト ドラゴンスピーチドラゴンスピーチ 次の記事