GOTO Kazuaki Website

Speech Indexer

Speech Indexer はOpenAI社が開発した音声認識システム「Whisper」に基づく「音声・映像コーパス構築ツール」です。特に、Georgi Gerganov 氏が開発した Whisper.cpp を MinGW-w64 でコンパイルして利用しています。Whisper の詳細についてはOpenAIのサイトをご覧ください。

What's New

23/12/10: プロンプトの仕様と表記を修正 (機能の変更なし)。

23/12/02: 入力 WAV ファイルが Whisper 非対応だった場合を修正。Whisper の処理結果表示を残す仕様に修正。

23/10/10: プロンプト機能 (フィラー文字起こし) を追加。音声ファイル M4A に対応。

23/09/14: 構成ファイルの不具合を修正。

システム要件

OS：Microsoft Windows 10, 11

.NET Framework： 4.7.2 以降

※インストールされていない場合は「こちら」からランタイムをダウンロードしてください (.NET 6 以降は未検証です)。

解像度：960 * 640以上

Windows Media Player

インストール

Speech Indexer をダウンロードし、解凍してください。基本となるモデルファイル "ggml-base.bin" はプログラムに同梱していますが、必要に応じて「Hugging Face」からモデルファイルをダウンロードしてください。モデルサイズが大きければ精度は向上しますが、処理時間も増加します。ダウンロードしたモデルファイルは、"SpeechIndexer" フォルダ内の "Whisper.cpp" -> "models" フォルダ内にコピーして下さい。 ※同梱している "ggml-base.bin" では、日本語認識には精度が不十分かと思われます。最低でも small 以上をお勧めします。

ggml-tiny.bin (77.7MB)

ggml-base.bin (148MB) ※同梱しています

ggml-small.bin (488MB)

ggml-medium.bin (1.53GB)

ggml-large-v1.bin (3.09GB)

アンインストール

"SpecchIndexer" フォルダを削除してください。レジストリはいじってません。

対応フォーマット

音声ファイル：WAV, MP3, M4A

動画ファイル：MP4, MOV

利用したプログラム

Whisper:

see https://github.com/openai/whisper/blob/main/LICENSE

Whisper.cpp:

see https://github.com/ggerganov/whisper.cpp/blob/master/LICENSE

NAudio:

see https://github.com/naudio/NAudio/blob/master/license.txt

CsvHelper:

see https://github.com/JoshClose/CsvHelper/blob/master/LICENSE.txt

参照について

参照して頂ける場合は以下の様式をご使用ください。

・後藤一章. (2023). Speech Indexer (Version 0.xx) [Computer Software]. Retrieved from: https://www.setsunan.ac.jp/~corpus/SpeechIndexer.htm

・Goto, K. (2023). Speech Indexer (Version 0.xx) [Computer Software]. Retrieved from: https://www.setsunan.ac.jp/~corpus/SpeechIndexer_en.htm

文字起こし画面

(1)、(2)　文字起こしするファイルを選択します。

(1) の「ファイル」ボタンを押すと、以下のメニューが表示されます。

ファイルを追加：文字起こしするファイルを (2) に追加します。

ファイルを削除：(2) から選択しているファイルを削除します。

すべて削除：(2) のファイルをすべて削除します。

(3)　文字起こしの設定を行います。

モデル：使用するモデルファイルを選択します。

言語：文字起こしする言語を選択します。

出力フォーマット：TSV, CSV, TXT から出力フォーマットを指定します。TXTはタイムスタンプが付与されず、本ツールでの検索もできません。

セグメント長 (任意)：１セグメント（1行）に表示する文字列の長さを設定します。

プロンプト (任意)：フィラーを含めます (英語認識時のみ使用可)。"Prompt"フォルダの "Filler_ex.txt" を修正することでフィラーの編集が可能です。"Miscellaneous.txt" は自由にプロンプトを設定して下さい。プロンプトの詳細はOpenAIのマニュアルを参照して下さい。

(4)、(5)

文字起こし：文字起こしを開始します。途中経過が (5) に表示されます。

中止：実行中の文字起こしを中止します。

検索画面

(6), (8)　検索する文字起こしファイルを選択します。

(6) の「ファイル」ボタンを押すと、以下のメニューが表示されます。

ファイルを追加：検索するファイルを (7) に追加します。

ファイルを削除：(7) から選択しているファイルを削除します。

すべて削除：(7) のファイルをすべて削除します。

(7)　検索語を指定します。単語 (Word) か正規表現 (RegEX) を選択できます。

(9)　(8) のファイルをダブルクリックすると内容が表示されます。

(10)　検索語句を含むセグメントの「ファイル名」「開始時間」「終了時間」「テキスト」を表示します。ダブルクリックすると別ウィンドウで該当箇所を再生します。

メディア再生画面

(11)　再生中のメディアがWMPで表示されます。

(12)

Repeat: 現在再生中のセグメントをリピート再生します。

Edit Mode: 表示している文字起こしファイルの編集が可能になります。

(13)　現在再生しているセグメントの「ファイル名」「開始時間」「終了時間」「テキスト」を表示します。任意のセグメントをダブルクリックするとそのセグメントに移動します。

利用規約

後藤一章（以下「作者」）が、ウェブサイトにて公開しているプログラムを利用する方（以下「利用者」）には、本利用規約が適用されます。

（フリーウェア）

1　作者のウェブサイトにて公開している Speech Indexer（以下「本件ソフトウェア」）はフリーウェアとし、個人利用、教育研究利用、商用利用を問わず、無料で使用できます。

（著作権）

2　本件ソフトウェアの著作権は、作者に帰属します。

（禁止行為）

3　以下の行為を禁止します。

（1）本件ソフトウェアの販売やリース等によって第三者から対価を得ること

（2）本件ソフトウェアを使用し、第三者の知的財産権の侵害、または第三者の名誉や信用を毀損もしくは誹謗中傷する行為

（3）本件ソフトウェアのリバースエンジニアリング、逆コンパイルまたは逆アセンブル

（4）本件ソフトウェアの無断での再配布

（5）その他、作者に損害をもたらす行為

（プログラムの提供廃止）

4　作者は、本件ソフトウェアの提供を廃止することがあります。提供の廃止によって利用者に発生した損害について、作者は一切責任を負いません。

（免責）

5　本件ソフトウェアを使用すること、または、本件ソフトウェアを使用できなかったことに関して発生した損害について、作者は一切責任を負いません。また、本件ソフトウェアに不具合があった場合であっても、作者は修復の義務を負いません。

（利用規約の変更）

6　本規約は、作者が利用者に事前告知なく変更いたします。変更後の規約は、作者のウェブサイトに掲載されたときに効力を発生します。

以上

利用規約に同意する

更新履歴

Version 0.22 (2023/12) 不具合修正

Version 0.21 (2023/12) 不具合修正

Version 0.2 (2023/10) プロンプト機能追加

Version 0.11 (2023/09) 不具合修正

Version 0.1 (2023/09) 公開開始