記事一覧へ戻る
操作ハウツー

録音音声からノイズを除去する方法 (会議録音 / インタビュー)

会議録音やインタビュー音源のホワイトノイズ・ファンノイズを軽くする手順。スペクトル減算と高域フィルタの違い、過剰除去で起きるアーティファクトを解説します。

録音に必ず混ざる「環境ノイズ」

スマートフォンや USB マイクで録った会議音声・インタビュー・ポッドキャストには、ほぼ確実に環境ノイズが混ざります。よくあるのは、PC の冷却ファン音、空調 (エアコン / 換気扇) の連続音、隣の部屋から漏れてくる打鍵音、マイクアンプ自身が出すヒスノイズ (サー音)、Zoom の通話相手側の風切り音などです。本人は録音中に気にならなくても、後から聞き返すと耳障りで、文字起こしツール (Whisper、Notta、CLOVA など) の精度も明確に落ちます。

困るのは「録音 → 編集 → 配布」の中盤、編集段階です。ホワイトノイズが乗ったままポッドキャストとして公開すると視聴維持率に響きますし、会議録音を文字起こし会社に渡すときも音質が悪いと納期や精度に影響します。ここで「外部にアップロードせずにノイズを抑えたい」という需要があり、機械学習ベースの audio-repair と、しきい値ベースの audio-noise-gate の 2 系統がブラウザ完結でその役割を担います。

ブラウザだけでノイズを抑える手順

音声ノイズ除去ツール を開き、ノイズ混じりの音声ファイル (MP3 / WAV / M4A / AAC / FLAC / OGG / Opus) をドラッグ & ドロップします。読み込みが終わると自動で RNNoise の推論が走り、ファイルごとに「処理中」→「完了」と状態が遷移して、ノイズ抑制後の WAV ダウンロードボタンが現れます。複数ファイルを一括投入して、終わったものから順にダウンロードする運用が可能で、まとめて欲しい場合は「全件 ZIP」も使えます。

期待値は「ノイズが完全に消える」ではなく「現実的に小さくなる」です。空調の連続音やマイクのサーノイズ、軽いキータイプ音はかなりはっきりと下がりますが、突発的な大きな物音 (椅子を引く音、ドアを閉める音) や複数人の声が重なった領域は ML モデルでも残ります。話し声に近い帯域の音 (例: テレビ越しに聞こえる別の発話) はかえって不自然に削れることもあるので、用途に応じて元音源と聴き比べて採用するかを決める形になります。発話と発話の間に乗るサー音だけを切りたい、というシンプルなケースなら audio-noise-gate のほうが副作用が少なく済みます。

RNNoise とノイズゲート、それぞれの仕組み

audio-repair が裏で使っているのは、Xiph.org が開発した RNNoise という小さなリカレントニューラルネットワークです。音声を 48 kHz / モノラルにリサンプリングしたあと、10 ms (480 サンプル) のフレーム単位でモデルに通し、各帯域でどれだけノイズが乗っているかと発話確率 (VAD) を同時に推定して、サブバンドゲインを掛けることで「声を残しつつ背景を引き下げる」処理を行います。実装は WebAssembly でブラウザ内で完結し、サーバーへの音声送信は発生しません。古典的なスペクトル減算 (FFT で帯域ごとのノイズフロアを推定して引く) と違って、声と非声を学習で判別するため、過剰に削ったときに出やすい “metallic artefact” (musical noise) が出にくいのが利点です。

一方、audio-noise-gate は仕組みがまったく違います。Web Audio API の OfflineAudioContext 上で、信号レベルが事前指定したしきい値 (threshold) を下回ったときだけゲインを 0 (または減衰量分) に絞る、というシンプルなダイナミクス処理です。パラメータは threshold (-80 〜 0 dB)、attack (0 〜 100 ms)、hold (0 〜 500 ms)、release (10 〜 500 ms)、reduction (-100 〜 0 dB) の 5 つで、発話と発話の間 (= 信号が小さい区間) のサーノイズだけを切る、というシンプルな目的に対しては挙動が予測しやすくチューニングが効きます。「発話中に乗るノイズ自体」を引き下げたいなら audio-repair、「発話の合間の暗騒音」を消したいなら audio-noise-gate、という使い分けが自然です。

アップロード型ノイズ除去サービスとの違い

「音声 ノイズ除去 無料」で検索すると、音声ファイルをアップロードして数十秒待つと処理結果がダウンロードできる Web サービスが多数並びます。これらに送る音声は、会議録音なら会話の中身・社内人事・商談メモがそのまま、インタビュー収録なら取材対象の生声と発言内容が、ポッドキャストなら公開前の編集前素材が、まるごと事業者のサーバーに渡ります。利用規約には「アップロードした音声に対する非独占的なライセンスを当社に許諾する」「品質改善のためにモデル学習に使用する場合がある」という条項が入っていることも多く、削除を申し出ても CDN キャッシュやログから過去のデータがどう扱われたかまでは検証できません。

audio-repair はファイルを送る経路がコードに無い構造になっています。RNNoise の WebAssembly モジュールと音声デコード (Web Audio API の decodeAudioData) はすべてブラウザ内で完結し、生成された WAV は同じタブから <a download> で取り出すだけです。ソースは GitHub で公開しており、DevTools の Network タブを開いたまま処理を走らせれば、初回の WASM / モデル取得以外に音声ファイルが外へ出るリクエストが無いことを目視で確認できます。「相手が削除すると言っているから安心」ではなく「送る経路がそもそも無い」という別系統の保証です。