荒木　雅弘　著　講談社『イラストで学ぶ　音声認識』の紹介

今回は、

荒木　雅弘　著　講談社

『イラストで学ぶ　音声認識』

の紹介です。

イラストで学ぶ音声認識 (KS情報科学専門書)

作者: 荒木雅弘
出版社/メーカー: 講談社
発売日: 2015/01/24
メディア: 単行本（ソフトカバー）
この商品を含むブログを見る

この本はカラーの図を使っているので、見やすいです。

章も14章あって細かく分かれています。

音声学の内容から音声に認識(音響モデル、言語モデルなど)、意味の解析など幅広く書いてあります。

幅広く深く書いてあると思います。

イラストで分かりやすいですが、少し学んだ方向けだと思います。

簡単な仕組みとしては、音声の認識→処理→出力

のパターンですが、認識してからどのように出力するかが、

ポイントですね。

目次を講談社のページから引用しておきます。

第1章　はじめに
　1.1　音声認識とは
　1.2　音声認識の歴史
　1.3　どこで役立つのか
　1.4　何が難しいのか
　1.5　本書のねらい
　1.6　まとめ

第2章　音声とは
　2.1　音声の科学
　2.2　どうやって声を作るか　―調音音声学
　2.3　声の正体とは　―音響音声学
　2.4　どうやって声を聴き取るか　―聴覚音声学
　2.5　まとめ

第3章　統計的パターン認識
　3.1　パターン認識とは
　3.2　統計的パターン認識の考え方
　3.3　生成モデルの学習
　3.4　識別モデルの学習
　3.5　統計的音声認識の概要
　3.6　まとめ

第4章　有限状態オートマトン
　4.1　有限状態オートマトンとは
　4.2　有限状態オートマトンが表現する言語
　4.3　さまざまな有限状態オートマトン
　4.4　有限状態オートマトンの性質
　4.5　まとめ

第5章　音声からの特徴抽出
　5.1　特徴抽出の手順
　5.2　音声信号のディジタル化
　5.3　人の聴覚をまねて　―スペクトル分析
　5.4　もうひと工夫　―ケプストラム分析
　5.5　雑音の除去
　5.6　まとめ

第6章　音声の認識：基本的な音響モデル
　6.1　音響モデルの単位
　6.2　隠れマルコフモデルとは
　6.3　隠れマルコフモデルの確率計算
　6.4　状態系列の推定
　6.5　パラメータの学習
　6.6　まとめ

第7章　音声の認識：高度な音響モデル
　7.1　実際の音響モデル
　7.2　識別的学習
　7.3　深層学習
　7.4　まとめ

第8章　音声の認識：言語モデル
　8.1　文法記述による言語モデル
　8.2　統計的言語モデルの考え方
　8.3　統計的言語モデルの作り方
　8.4　まとめ

第9章　音声の認識：探索アルゴリズム
　9.1　音響モデルと言語モデルのギャップを埋める
　9.2　状態空間の探索
　9.3　木構造化辞書で無駄を省く
　9.4　ビームサーチで絞り込む
　9.5　マルチパス探索で精度を上げる
　9.6　まとめ

第10章　音声の認識：WFST の演算
　10.1　WFST の合成演算
　10.2　決定化
　10.3　重み移動
　10.4　最小化
　10.5　まとめ

第11章　音声の認識：WFST による音声認識
　11.1　WFST への変換
　11.2　音響モデルをWFST に変換する
　11.3　発音辞書をWFST に変換する
　11.4　言語モデルをWFST に変換する
　11.5　WFST の探索
　11.6　まとめ

第12章　意味・意図の解析
　12.1　意味表現とは
　12.2　規則による意味解析処理
　12.3　統計的な意味解析処理
　12.4　スマートフォンでの音声サービス
　12.5　まとめ

第13章　音声対話システムの実現に向けて
　13.1　音声対話システムの開発方法論
　13.2　規則による対話管理
　13.3　対話管理への統計的アプローチ
　13.4　まとめ

第14章　おわりに
　14.1　音声分析ツールwavesurfer
　14.2　HMM 作成ツールHTK
　14.3　大語彙連続音声認識エンジンJulius
　14.4　バーチャルエージェント対話ツールMMDAgent
　14.5　さらに詳しく学ぶには

ほかにもいろいろな本が出ていますが、処理の部分をどのように書いているかで理解のしやすさが異なってきます。

この本は個人的にはわかりやすかったです。

受　付

☆下から好きな記事をお読みください☆

荒木　雅弘　著　講談社『イラストで学ぶ　音声認識』の紹介