Мы используем файлы cookie.
Продолжая использовать сайт, вы даете свое согласие на работу с этими файлами.
アーティキュレートリー・シンセシス
Другие языки:

アーティキュレートリー・シンセシス

Подписчиков: 0, рейтинг: 0
調音音声合成: 合成音声と声道モデル
ドイツ語文 "Lea und Doreen mögen Bananen"Bananas by cactus cowboy.svg
(日本語訳: リーとドリーンはバナナが好き) を 子音+母音 調音結合モデルを使って
自然発話文の基本周波数音長から再現。

アーティキュレートリー・シンセシス (: articulatory synthesis)、調音合成 (ちょうおんごうせい) あるいは 調音音声合成 とは、人間の声道のモデルと そこで行なわれる調音プロセス (articulation) に基づいて音声合成を行なうための計算手法である。声道の形状は通常、といった調音器官の位置変更と関連した数多くの調音方法で制御できる。声道の表現を介した空気の流れのデジタル・シミュレーションで、音声が生成される。

機械式語り手

機械式「語り手」(talking heads) の製作の試みには長い歴史がある。オーリヤックのジェルベール (–1003)、アルベルトゥス・マグヌス (1198–1280)、ロジャー・ベーコン (1214–1294) らは皆、喋る頭 (speaking heads) を作ったと言われている (Wheatstone 1837)。しかしながら、歴史的に確認された音声合成の始まりは訳注: クリスティアン・クラッツェンシュタイン (1723–1795) とヴォルフガング・フォン・ケンペレン (1734–1804)であり、ケンペレンは1791年に研究報告を出版した。(Dudley & Tarnoczy (1950)も参照)

電子式声道

最初の電子式アナログ声道は、Dunn (1950)Stevens, Kasowski & Fant (1953)Fant (1960)のように静的なものだった。Rosen (1958)は動的な声道 (DAVO)を組み立て、後にDennis (1963)がコンピュータ制御を試みた。Dennis & et al. (1964))、比企 & et al. (1968))、Baxter & Strong (1969)らもアナログ声道ハードウェアについて説明している。

最初のコンピュータ・シミュレーションは、Kelly & Lochbaum (1962)が行なった; その後デジタルコンピュータによるシミュレーションを、例えば中田 & 光岡 (1965)松井 (1968)Mermelstein (1971))が行なった。本多, 井上 & 小川 (1968)アナログコンピュータによるシミュレーションを行なった。

Haskinsと前田のモデル

研究室の実験で定期的に使用される 最初のソフトウェアによる調音シンセサイザーは、1970年代半ばにHaskins LaboratoriesPhilip Rubin, Tom Baer, Paul Mermelstein により開発された。ASY (Articulatory Synthesis)として知られるこのシンセサイザーは、1960年代–1970年代にベル研究所Paul Mermelstein, Cecil Coker, およびその同僚らによって開発された声道モデルに基づく音声生成の計算モデルだった。もう一つの頻繁に使用された著名なモデルは、前田 眞治 (Shinji Maeda)による、の形状制御に因子ベースのアプローチ (factor-based approach) を使ったモデルである。

現代的なモデル

音声生成イメージング、調音制御モデリング、舌の生体力学モデリング の最近の進展は、調音合成が行われる方法に変化をもたらしている。 一例として、Philip Rubin, Mark Tiede,Louis Goldstein が設計したHaskins CASYモデル (Configurable Articulatory Synthesis)では、声道の縦断面を実際の核磁気共鳴画像(MRI)データと一致させており、MRIデータを声道の3次元モデルの構築に使用している。 フル3次元の調音合成モデルは Olov Engwallが説明している。 幾何学的に基づいた3次元調音スピーチ・シンセサイザーはPeter Birkholzにより開発されている。(VocalTracLab参照) ArtiSynthプロジェクトは、 ブリティッシュコロンビア大学Sidney Felsが率いており、人間の声道と上気道のための3次元生体力学モデリング・ツールキットを提供している。 などの調音器官の生体力学モデリングは、Reiner Wilhelms-Tricarico,Yohan PayanJean-Michel Gerard, 党 建武 (Jianwu Dang) と 本多 清志 (Kiyoshi Honda) など数多くの科学者によって開拓されている。

商用モデル

数少ない商用の調音スピーチ・シンセシス・システムの一つは、NeXTベースのシステムで、多数の独自研究が実施されていたカナダカルガリー大学のスピンオフ企業 Trillium Sound Researchにより開発・販売された。 1980年代後半スティーブ・ジョブスが設立し、1997年Apple Computerと合併した NeXTの様々な転生が消滅した後、TrilliumのソフトウェアはGNU General Public Licenseで公開され、Gnuspeechとして継続している。 1994年に最初に発売されたこのシステムは、René Carré"Distinctive Region Model" (DRM)で制御される、人間の口腔および鼻腔の導波路 (waveguide) モデルもしくは 伝送路アナログ(transmission-line analog) を使った(訳注: Tube Resonance Model (TRM))、フル調音ベースのテキスト読み上げ変換を提供する。

関連項目

脚注

参考文献

外部リンク



Новое сообщение