JP2008185805A - Technology for creating high quality synthesis voice - Google Patents
Technology for creating high quality synthesis voice Download PDFInfo
- Publication number
- JP2008185805A JP2008185805A JP2007019433A JP2007019433A JP2008185805A JP 2008185805 A JP2008185805 A JP 2008185805A JP 2007019433 A JP2007019433 A JP 2007019433A JP 2007019433 A JP2007019433 A JP 2007019433A JP 2008185805 A JP2008185805 A JP 2008185805A
- Authority
- JP
- Japan
- Prior art keywords
- notation
- phoneme
- text
- data
- unit
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/06—Elementary speech units used in speech synthesisers; Concatenation rules
- G10L13/07—Concatenation rules
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Machine Translation (AREA)
- Document Processing Apparatus (AREA)
Abstract
Description
本発明は、合成音声を生成する技術に関する。特に、本発明は、複数の音素片を接続して合成音声を生成する技術に関する。 The present invention relates to a technique for generating synthesized speech. In particular, the present invention relates to a technique for generating a synthesized speech by connecting a plurality of phonemes.
聞き手にとって自然な合成音声を生成することを目標として、従来、波形編集合成方式を採用した音声合成技術が用いられている。この方式では、音声合成装置が、人間である話者の音声を予め収録して音声波形データとしてデータベースに保存しておく。そして、その音声合成装置は、入力されたテキストに基づいて複数の音声波形データを読み出して接続することにより、合成音声を生成する。このような合成音声が聞き手にとって自然に聞こえるようにするためには、音声の周波数や音色が連続的に変化することが望ましい。例えば、音声波形データの接続部分で音声の周波数や音色が大きく変化してしまうと、その合成音声は不自然に聞こえてしまう。 Conventionally, a speech synthesis technique employing a waveform editing synthesis method has been used with the goal of generating a synthesized speech that is natural to the listener. In this method, a speech synthesizer records in advance the speech of a human speaker and stores it in a database as speech waveform data. Then, the speech synthesizer reads out a plurality of speech waveform data based on the input text and connects them to generate synthesized speech. In order for such a synthesized voice to be heard naturally by the listener, it is desirable that the frequency and tone color of the voice change continuously. For example, if the sound frequency or tone changes greatly at the connection portion of the sound waveform data, the synthesized sound will sound unnatural.
しかしながら、費用や時間の制約や、コンピュータの記憶容量や処理能力の制約のため、予め収録することのできる音声波形データの種類は限られている。このため、適切な音声波形データがデータベースに登録されておらず、代用の音声波形データを用いた結果接続部分で周波数等が大きく変化して、合成音声が不自然になってしまう場合がある。これは、入力されたテキストの表記内容が、音声波形データを生成するために予め収録した音声の内容と大きく異なっている場合に起こり易い。 However, the types of audio waveform data that can be recorded in advance are limited due to cost and time constraints, and the storage capacity and processing capability of computers. For this reason, appropriate speech waveform data is not registered in the database, and as a result of using the substitute speech waveform data, the frequency or the like changes greatly at the connection portion, and the synthesized speech may become unnatural. This is likely to occur when the notation content of the input text is significantly different from the speech content recorded in advance to generate speech waveform data.
参考技術文献として特許文献1および非特許文献1を挙げる。特許文献1に記載の音声出力装置は、書き言葉によって構成されたテキストを、話し言葉のテキストに変換したうえで読み上げることで、聞き手がその内容を理解し易くしている。しかしながら、この装置はテキストをその表現を変更するために変換するものであり、その変換は音声波形データの周波数変化などの情報とは無関係に行われる。従って、この変換によっては合成音声の品質を向上させることはできない。非特許文献1の技術は、表記が同一で発音の異なる音素片を予め記憶しておき、それらの中から、合成音声の品質が向上するように適切な音素片を選択するものである。しかしながら、そのような選択を試みてもなお適切な音素片が無ければ合成音声が不自然になってしまう。 Patent Document 1 and Non-Patent Document 1 are listed as reference technical documents. The voice output device described in Patent Document 1 makes it easy for the listener to understand the content by converting text composed of written words into spoken text and then reading it out. However, this apparatus converts text in order to change its expression, and the conversion is performed irrespective of information such as frequency change of speech waveform data. Therefore, the quality of the synthesized speech cannot be improved by this conversion. The technique of Non-Patent Document 1 stores phonemes having the same notation and different pronunciations in advance, and selecting appropriate phonemes so as to improve the quality of synthesized speech. However, even if such a selection is attempted, the synthesized speech becomes unnatural unless there is an appropriate phoneme segment.
そこで本発明は、上記の課題を解決することのできるシステム、方法およびプログラムを提供することを目的とする。この目的は特許請求の範囲における独立項に記載の特徴の組み合わせにより達成される。また従属項は本発明の更なる有利な具体例を規定する。 Therefore, an object of the present invention is to provide a system, a method, and a program that can solve the above-described problems. This object is achieved by a combination of features described in the independent claims. The dependent claims define further advantageous specific examples of the present invention.
上記課題を解決するために、本発明の第1の形態においては、合成音声を生成するシステムであって、各々が互いに異なる音素の音声を示す複数の音素片データを記憶する音素片記憶部と、テキストを入力し、入力したテキストの発音を示す各音素に対応する音素片データを音素片記憶部から読み出して接続し、テキストの合成音声を示す音声データを生成する合成部と、テキストの合成音声の不自然さを示す指標値を、音声データに基づいて算出する算出部と、複数の第1表記のそれぞれに対応付けて、当該第1表記の言い換えである第2表記を記憶する換言記憶部と、テキストの中から何れかの第1表記に一致する表記を検索して、検索された当該表記を当該第1表記に対応する第2表記に置換する置換部と、算出した指標値が予め定められた基準値より小さいことを条件に、生成された音声データを出力し、当該指標値が基準値以上であることを条件に、置換されたテキストについて音声データをさらに生成させるべく当該テキストを合成部に入力する判断部とを備えるシステムを提供する。また、当該システムにより合成音声を生成する方法、および、当該システムとして情報処理装置を機能させるプログラムを提供する。
なお、上記の発明の概要は、本発明の必要な特徴の全てを列挙したものではなく、これらの特徴群のサブコンビネーションもまた、発明となりうる。
In order to solve the above-described problem, in a first embodiment of the present invention, a system for generating synthesized speech, a phoneme unit storage unit that stores a plurality of phoneme unit data each indicating speech of different phonemes, and A text synthesizing unit that inputs text, reads out and connects phoneme data corresponding to each phoneme indicating the pronunciation of the input text from the phoneme storage unit, and generates voice data indicating a synthesized voice of the text; A paraphrase memory that stores a second notation that is a paraphrase of the first notation in association with a calculation unit that calculates an index value indicating unnaturalness of speech based on the speech data and each of the plurality of first notations. Part, a replacement part that searches the text for a notation that matches any first notation, and replaces the searched notation with a second notation corresponding to the first notation, and the calculated index value Predetermined The generated voice data is output on condition that the value is smaller than the reference value, and the text is synthesized to further generate voice data for the replaced text on condition that the index value is equal to or higher than the reference value. A system including a determination unit that inputs to a unit is provided. In addition, a method for generating synthesized speech by the system and a program for causing an information processing apparatus to function as the system are provided.
The above summary of the invention does not enumerate all the necessary features of the present invention, and sub-combinations of these feature groups can also be the invention.
以下、発明の実施の形態を通じて本発明を説明するが、以下の実施形態は特許請求の範囲にかかる発明を限定するものではなく、また実施形態の中で説明されている特徴の組み合わせの全てが発明の解決手段に必須であるとは限らない。 Hereinafter, the present invention will be described through embodiments of the invention. However, the following embodiments do not limit the invention according to the scope of claims, and all combinations of features described in the embodiments are included. It is not necessarily essential for the solution of the invention.
図1は、音声合成システム10およびそれに関連するデータの全体構成を示す。音声合成システム10は、複数の音素片データを記憶する音素片記憶部20を有する。これらの音素片データは、生成する目標とするべき合成音声を示す目標音声データから、そのデータを音素毎に分割することによって予め生成されるものである。この目標音声データは、例えばアナウンサーが原稿を読み上げた音声などを録音したものである。そして、音声合成システム10は、テキストを入力し、入力したこのテキストに対し、形態素解析や韻律モデルの適用などの処理を行って、そのテキストの読み上げ音声として生成するべき各音素の韻律や音色などのデータを生成する。そして、音声合成システム10は、生成したこれらの周波数などのデータに基づいて、音素片記憶部20から複数の音素片データを選択して読み出し、読み出したこれらの音素片データを接続する。接続された複数の音素片データは、利用者の承認を条件に、このテキストの合成音声を示す音声データとして出力される。
FIG. 1 shows the overall configuration of a
ここで、音素片記憶部20に記憶することのできる音素片データの種類は、費用や所要時間、あるいは、音声合成システム10の計算処理能力などの制約によって制限される。このため、音声合成システム10が、韻律モデルの適用などの処理の結果、各音素の発音として生成するべき周波数を求めても、その周波数の音素片データが音素片記憶部20に記憶されていない場合がある。この場合、音声合成システム10が不適切な音素片データを選択した結果、品質の低い合成音声が生成されてしまうおそれがある。これに対し本実施形態に係る音声合成システム10は、一旦生成した音声データが充分な品質を有していない場合には、テキストの表記をその意味を変更しない範囲内で変更することで、出力される合成音声の品質を向上することを目的とする。
Here, the type of phoneme piece data that can be stored in the phoneme
図2は、音素片記憶部20のデータ構造の一例を示す。音素片記憶部20は、各々が互いに異なる音素の音声を示す複数の音素片データを記憶する。具体的には、音素片記憶部20は、各々の音素について、当該音素の表記と、当該音素の音声波形データと、当該音素の音色データとを記憶している。一例として、音素片記憶部20は、「あ」という表記を有するある音素について、時間の経過に応じた基本周波数の変化を示す情報を音声波形データとして記憶する。ここで、音素の基本周波数とは、音素を構成する各周波数成分のうち最も音の大きい周波数成分をいう。また、音素片記憶部20は、同じ「あ」という表記を有するある音素について、基本周波数を含む複数の周波数成分のそれぞれについて、音声の大きさ又は強さを要素として示したベクトルデータを音色データとして記憶する。図2では説明の都合上、各音素の先頭部分および末尾部分における音色データを例示したが、実際には、音素片記憶部20は各周波数成分についてその大きさ又は強さの時間変化を示すデータを記憶している。
FIG. 2 shows an example of the data structure of the phoneme
このように、音素片記憶部20には各音素の音声波形データが記憶されているので、音声合成システム10はこれらの音声波形データを接続すれば、複数の音素を有する音声を生成することができる。なお、図2は音素片データの内容の一例を示したものであり、音素片記憶部20が記憶する音素片データのデータ構造やデータ形式はこの図に記載のものに限定されない。他の例として例えば、音素片記憶部20は、音素片データとして、音素の録音データ自体を記憶してもよいし、その録音データに対し所定の演算を行ったデータを記憶していてもよい。演算とは例えば離散コサイン変換などであり、これにより、録音データのうちの所望の周波数成分を参照できるので、基本周波数や音色の解析を可能とすることができる。
Thus, since the phoneme
図3は、音声合成システム10の機能構成を示す。音声合成システム10は、音素片記憶部20と、合成部310と、算出部320と、判断部330と、表示部335と、換言記憶部340と、置換部350と、出力部370とを有する。まず、これらの各部材とハードウェア資源との関係を述べる。音素片記憶部20および換言記憶部340は、たとえば、後述のRAM1020およびハードディスクドライブ1040などの記憶装置によって実現される。合成部310、算出部320、判断部330および置換部350は、インストールされたプログラムの指令によって後述のCPU1000の動作により実現される。表示部335は、後述のグラフィックコントローラ1075および表示装置1080の他、利用者からの入力を受け付けるためのポインティングデバイスやキーボードにより実現される。そして、370は、スピーカや入出力チップ1070により実現される。
FIG. 3 shows a functional configuration of the
音素片記憶部20は、上述のように、複数の音素片データを記憶している。合成部310は、テキストを外部から入力し、入力したこのテキストの発音を示す各音素に対応する音素片データを音素片記憶部20から読み出して接続する。具体的には、まず、合成部310は、このテキストに対し形態素解析を行って、このテキストに含まれる語句の境界、および、各語句の品詞を検出する。そして、合成部310は、各語句の読み方について予め記憶しているデータに基づいて、このテキストを読み上げたときに各音素をどのような周波数の音声で、かつ、どのような音色で発音するべきかを求める。そして、合成部310は、この周波数および音色に近い音素片データをそれぞれ音素片記憶部20から読み出して接続し、このテキストの合成音声を示す音声データとして算出部320に出力する。
The phoneme
算出部320は、このテキストの合成音声の不自然さを示す指標値を、合成部310から受け取った音声データに基づいて算出する。この指標値は、例えば、音声データに含まれる第1の音素片データおよびこの第1の音素片データに接続する第2の音素片データの境界における、この第1の音素片データおよびこの第2の音素片データの間の発音の相違度を示すものである。そして発音の相違度とは、音色や基本周波数の相違度である。即ちこの相違度が大きいほど、音声の周波数などが突然に変化するので、合成音声は聞き手にとって不自然に感じられる。
The
判断部330は、算出したこの指標値が予め定められた基準値より小さいか否かを判断する。判断部330は、この指標値が基準値以上であることを条件に、テキスト中の表記を置換させて置換したそのテキストについて音声データをさらに生成させるべく、置換部350に指示する。一方、判断部330は、指標値が基準値より小さいことを条件に、表示部335は、この音声データを生成する対象となったテキストを利用者に表示して、このテキストに基づいて合成音声を生成してよいかどうかを利用者に問合せる表示を行う。このテキストは、外部から入力したテキストそのものである場合もあるし、置換部350によって何度かの置換処理が行われた結果として生成されたテキストである場合もある。
The
判断部330は、承認する入力を受けたことを条件として、生成されたこの音声データを出力部370に出力する。これを受けて、出力部370は、音声データに基づいて合成音声を生成し、利用者に出力する。一方、置換部350は、指標値が基準値以上の場合に判断部330から指示を受けて処理を開始する。換言記憶部340は、複数の第1表記のそれぞれに対応付けて、当該第1表記の言い換えである第2表記を記憶している。そして、置換部350は、判断部330から指示を受けると、まず、前回に音声合成の対象となったテキストを合成部310から取得する。次に、置換部350は、そのテキストの中から何れかの第1表記に一致する表記を検索する。検索されたことを条件に、置換部350は、検索された当該表記を当該第1表記に対応する第2表記に置換する。表記が置換されたテキストは、合成部310に入力されて、そのテキストに基づいてさらに音声データが生成される。
The
図4は、合成部310の機能構成を示す。合成部310は、語句記憶部400と、語句検索部410と、音素片検索部420とを有する。そして、合成部310は、n−gramモデルとして知られている手法によりテキストの読み方を生成したうえで、それに基づき音声データを生成する。具体的には、まず、語句記憶部400は、予め登録された複数の語句のそれぞれについて、当該語句の読み方を当該語句の表記に対応付けて記憶する。表記とは、語句を構成する文字列であり、読み方とは、たとえば発音を示す記号、アクセントを示す記号またはアクセント型などである。語句記憶部400は、同一の表記について複数の互いに異なる読み方を対応付けて記憶してもよい。そしてその場合、語句記憶部400は、それぞれの読み方についてその読み方で読まれる確率値をさらに記憶している。
FIG. 4 shows a functional configuration of the
詳細には、語句記憶部400は、予め定められた数の語句の組合せ(たとえばbi−gramモデルでは2つの語句の組合せ)ごとに、その組合せの語句がそれぞれの読み方の組合せで読まれる確率値を記憶している。たとえば、「僕の」という単一の語句について第1音節にアクセントがある確率値と、第2音節にアクセントがある確率値とを記憶するだけではなく、「僕の」が「近くの」という語句と連続して表記されたときに、この連続する語句の組合せについて、第1音節にアクセントがある確率値、および、第2音節にアクセントがある確率値がそれぞれ記憶される。そしてこれとは別に、「僕の」という単語が「近くの」ではない他の語句と連続して表記されたときに、やはりこの連続する語句の組合せについて、各音節にアクセントがある確率値がそれぞれ記憶される。
In detail, the
ここに記憶される表記、読み方および確率値の情報は、予め録音された目標音声データを音声認識したうえで、語句の組合せ毎に読み方の組合せが出現する頻度をカウントすることによって生成される。即ち、目標音声データ中で高頻度に現れる語句および読み方の組合せについては高い確率値が記憶される。なお、音声合成の精度をさらに高めるべく、音素片記憶部20は、語句の品詞の情報をさらに記憶していることが望ましい。品詞の情報も、目標音声データを音声認識することによって生成されてもよいし、音声認識されたテキストデータに対し人手によって付与されてもよい。
The information on the notation, how to read and the probability value stored here is generated by recognizing previously recorded target speech data and counting the frequency with which the combination of readings appears for each combination of phrases. That is, high probability values are stored for combinations of words and readings that appear frequently in the target speech data. In order to further improve the accuracy of speech synthesis, it is desirable that the phoneme
語句検索部410は、入力したテキストに含まれる各々の語句と表記が一致する語句を語句記憶部400から検索し、検索したそれぞれの語句に対応する読み方を語句記憶部400から読み出して接続することにより、テキストの読み方を生成する。たとえばbi−gramモデルでは、語句検索部410は、入力したテキストを先頭から走査して、連続する2つの語句の組合せごとに、その組合せの語句と一致する語句の組合せを語句記憶部400から検索する。そして、語句検索部410は、検索された語句の組合せに対応する読み方の組合せをそれに対応する確率値と共に語句記憶部400から読み出す。このようにして、語句検索部410は、テキストの先頭から末尾に向かって語句の組合せ毎に複数の確率値を検索してゆく。
The
たとえば、テキストが語句A、BおよびCをこの順で含む場合、語句AおよびBの組合せについて、読み方として、a1およびb1の組合せ(確率値p1)、a2およびb1の組み合わせ(確率値p2)、a1およびb2の組合せ(確率値p3)、並びに、a2およびb2の組み合わせ(確率値p4)が検索される。同様に、語句BおよびCの組合せについて、読み方として、b1およびc1の組合せ(確率値p5)、b1およびc2の組合せ(確率値p6)、b2およびc1の組合せ(確率値p7)、ならびに、b2およびc2の組合せ(確率値p8)が検索される。そして、語句検索部410は、語句の各組合せについての確率値の積が最大となる読み方の組合せを選択して、テキストの読み方として音素片検索部420に出力する。この例では、p1×p5、p1×p7、p2×p5、p2×p7、p3×p6、p3×p8、p4×p6、および、p4×p8がそれぞれ算出されて、そのうちの最大値に対応する読み方の組合せが出力される。
For example, when the text includes the phrases A, B, and C in this order, as to how to read the combinations of the phrases A and B, a combination of a1 and b1 (probability value p1), a combination of a2 and b1 (probability value p2), A combination of a1 and b2 (probability value p3) and a combination of a2 and b2 (probability value p4) are searched. Similarly, for the combinations of words B and C, the readings are b1 and c1 combination (probability value p5), b1 and c2 combination (probability value p6), b2 and c1 combination (probability value p7), and b2 And the combination of c2 (probability value p8) is searched. Then, the
次に、音素片検索部420は、生成した読み方に基づいて各音素について目標となる韻律および音色を求め、それに最も近い音素片データをそれぞれ音素片記憶部20から検索して読み出し、読み出した複数の音素片データを接続することにより音声データを生成して、算出部320に対し出力する。たとえば、音素片検索部420は、生成した読み方において、アクセントが、音節毎にLHHHLLHのように連続する場合において(Lはアクセントが低く、Hはアクセントが高いことを示す)、このようなアクセントの高低を滑らかに表現するように、各音素の韻律を算出する。韻律とは、たとえば、基本周波数の変化、音の長さ、および、音量によって表される。基本周波数の算出は、あらかじめアナウンサーが録音した音声データから統計的に学習しておいた基本周波数モデルを用いる。基本周波数モデルによって各音素の基本周波数の目標値が、アクセントの環境、品詞、文の長さなどに応じて求めることができる。ここではアクセントから基本周波数を求める処理の一例を述べたが、発音から音色や継続時間長や音量を求める処理も同様に、予め統計的に学習したルールに基づき求めることができる。このように、アクセントや発音に基づいて各音素の韻律および音色を定める技術については、韻律または音色を予測する技術として従来公知であるから更に詳細な説明を省略する。
Next, the phoneme
図5は、換言記憶部340のデータ構造の一例を示す。換言記憶部340は、複数の第1表記のそれぞれに対応付けて、その第1表記の言い換えである第2表記を記憶している。さらに、換言記憶部340は、第1表記およびそれに対応する第2表記の組のそれぞれに対応付けて、その第1表記およびその第2表記の間の意味の近似度を記憶している。たとえば、換言記憶部340は、第1表記「僕の」をその言い換えである第2表記「私の」に対応付けて記憶し、これらの表記の組に対応付けてその近似度「65%」を更に記憶する。近似度とは、このようにたとえば百分率で表され、表記を換言記憶部340に登録した作業者によって入力されたものであってもよいし、この言い換えを用いた置換処理の結果として利用者にその置換が承認された確率に基づき算出されてもよい。
FIG. 5 shows an example of the data structure of the paraphrase
換言記憶部340に登録された表記の数が多くなると、互いに等しい複数の第1表記が、互いに異なる複数の第2表記に対応付けて記憶される場合がある。即ち、置換部350が、入力したテキストと換言記憶部340の第1表記とを比較した結果、そのテキスト中の表記が複数の第1表記のそれぞれに一致する場合がある。この場合、置換部350は、テキスト中のその表記を、当該複数の第1表記のうち近似度の最も高い第1表記に対応する第2表記により置換する。このように、表記に対応付けて記憶した近似度は、置換先とするべき表記を選択する指針として用いることができる。
When the number of expressions registered in the paraphrase
さらに、換言記憶部340が記憶する第2表記は、目標音声データの内容を示すテキストに含まれる語句の表記であることが望ましい。目標音声データの内容を示すテキストとは、たとえば、目標音声データがテキストの読み上げ音声を示す場合におけるそのテキストである。また、目標音声データが自由発声に係るものである場合には、その目標音声データを音声認識した結果を示すテキストであってもよいし、その目標音声データの内容を人手でテキストに記録したものであってもよい。これにより、置換先の語句表記は目標音声データにおいて用いられたものとなり、置換後のテキストについて出力される合成音声をより一層自然なものとすることができる。
Furthermore, it is desirable that the second notation stored in the paraphrase
更にこれに加えて、置換部350は、テキスト中の第1表記に対応する複数の第2表記が検索される場合に、そのそれぞれについて、当該第2表記により置換したテキストと、目標音声データの内容を示すテキストとの間の距離を計算してもよい。距離とは、テキストの表現の傾向や内容の傾向が近いかどうかを示す指標値として知られている概念で、既存の手法により算出することができる。そしてこの場合、置換部350は、当該距離が最も短いテキストを置換後のテキストとして選択する。このような手法によっても、置換後のテキストに基づく音声をできるだけ目標音声に近づけることができる。
In addition to this, when a plurality of second notations corresponding to the first notation in the text are searched, the
図6は、語句記憶部400のデータ構造の一例を示す。語句記憶部400は、語句データ600と、発音データ610と、アクセントデータ620と、品詞データ630とを相互に対応付けて記憶している。語句データ600は、複数の語句のそれぞれについてその語句の表記を示している。図6の例で語句データ600は、「大阪」、「府」、「在住」、「の」、「方」、「に」、「限」、「り」、「ま」および「す」のそれぞれを語句の表記として含む。また、発音データ610およびアクセントデータ620は、複数の語句のそれぞれについてその語句の読み方を示している。発音データ610は読み方のうち発音を示し、アクセントデータ620は読み方のうちアクセントを含む。発音は、たとえば、アルファベットなどを用いた表音記号によって表される。アクセントは、高い(H)または低い(L)という音声の相対的な高低関係を音素毎に配列したものである。また、アクセントデータ620は、音素毎の相対的な高低関係の組合せを番号により識別するアクセント型を含んでよい。また、語句記憶部400は、品詞データ630として示したように、各語句の品詞を記憶してもよい。品詞とは、文法上厳密な意味での品詞ではなく、音声合成や解析に適した拡張的な品詞を含む。たとえば、語句の末尾を構成する末尾詞などを含んでよい。
FIG. 6 shows an example of the data structure of the
図6には、これらの各種のデータと対比して、これらのデータに基づき語句検索部410により生成される音声波形データを図中央に示した。即ち、語句検索部410は、「大阪府在住の方に限ります」というテキストを入力すると、上記n−gramモデルを用いた手法によって、各音素の相対的な高低関係(LまたはH)、および、各音素の発音(アルファベットを用いた表音記号)を求める。すると、音素片検索部420は、各音素の相対的な高低関係を反映しつつも、利用者にとって不自然に聞こえないように滑らかに変化する基本周波数を生成する。このようにして生成された基本周波数の一例を図6中央に示す。基本周波数がこのように変化すれば理想的であるが、周波数の値が全く一致するような音素片データを音素片記憶部20から検索できない場合もあり、その結果として合成音声が不自然に聞こえてしまう場合もある。これに対し、既に説明してきたように、音声合成システム10によれば、テキスト自体をその意味を変えない範囲で変更することで、検索可能な音素片データを有効に使用して、合成音声の品質を向上することができる。
In FIG. 6, the speech waveform data generated by the
図7は、音声合成システム10によって合成音声が生成される処理の流れを示す。合成部310は、テキストを外部から入力し、入力したこのテキストの発音を示す各音素に対応する音素片データを音素片記憶部20から読み出して接続する(S700)。具体的には、まず、合成部310は、このテキストに対し形態素解析を行って、このテキストに含まれる語句の境界、および、各語句の品詞を検出する。そして、合成部310は、各語句の読み方について語句記憶部400に予め記憶しているデータに基づいて、このテキストを読み上げたときに各音素をどのような周波数の音声で、かつ、どのような音色で発音するべきかを求める。そして、合成部310は、この周波数および音色に近い音素片データをそれぞれ音素片記憶部20から読み出して接続し、このテキストの合成音声を示す音声データとして算出部320に出力する。
FIG. 7 shows the flow of processing in which synthesized speech is generated by the
算出部320は、このテキストの合成音声の不自然さを示す指標値を、合成部310から受け取った音声データに基づいて算出する(S710)。その一例を述べる。指標値は、音素片データの接続境界における音声の相違度と、テキストの読み方に基づく各音素の音声、および、音素片検索部420により検索された音素片データの間の音声の相違度とに基づき算出される。以下、順に説明する。
The
(1)接続境界における相違度
算出部320は、音声データに含まれる音素片データの接続境界のそれぞれについて、当該接続境界における基本周波数の相違度および音色の相違度を算出する。基本周波数の相違度とは基本周波数の差分値であってもよいし、基本周波数の変化の割合であってもよい。音色の相違度とは、境界前における音色を示すベクトルと、境界後における音色を示すベクトルとの間の距離である。たとえば、境界前における音声波形データを離散コサイン変換して得られるベクトルと、境界後における音声波形データを離散コサイン変換して得られるベクトルとの間の、ケプストラム空間におけるユークリッド距離であってよい。そして、算出部320は、各接続境界における相違度を合計する。
(1) Dissimilarity at Connection Boundary The
但し、算出部320は、音素片データの接続境界でpやtなどの無声子音が発音される場合には、その接続境界における相違度を0と判断する。これは、無声子音の前後では音色や基本周波数が大きく変化しても、聞き手は違和感を感じにくいからである。同様の理由で、算出部320は、音素片データの接続境界に読点が含まれる場合には、その接続境界における相違度を0と判断する。
However, when an unvoiced consonant such as p or t is generated at the connection boundary of the phoneme piece data, the
(2)読み方に基づく音声と、音素片データの音声との相違度
算出部320は、音声データに含まれる音素片データのそれぞれについて、その音素片データの韻律、および、その音素の読み方に基づき定められた韻律を比較する。韻律は、基本周波数を示す音声波形データによって定められてもよい。たとえば、算出部320は、各音声波形データの周波数の合計又は平均を比較してもよい。そしてその差分値が相違度として算出される。これに代えて、又は、これに加えて、算出部320は、各音素片データの音色を示すベクトルデータ、および、各音素の読み方に基づき定められたベクトルデータを比較する。そして、算出部320は、音素の先頭又は末尾の音色について、ベクトルデータ間の距離を相違度として算出する。これに加えて、算出部320は、音素の発音の長さを用いてもよい。たとえば、語句検索部410は、読み方に基づいて各音素の発音の長さとして望ましい値を算出する。これに対し、音素片検索部420は、この長さに最も近い長さの発音を示す音素片データを検索する。この場合、算出部320は、これらの発音の長さの差分を相違度として算出する。
(2) The degree of difference between the speech based on the reading and the speech of the phoneme data is calculated based on the prosody of the phoneme data and the reading of the phoneme for each phoneme data included in the speech data. Compare the determined prosody. The prosody may be determined by speech waveform data indicating the fundamental frequency. For example, the
算出部320は、以上のように算出した相違度をそのまま合計して指標値としてもよいし、重み付けして合計して指標値としてもよい。また、算出部320は、所定の評価関数に各相違度を入力したうえで、その出力を指標値としてもよい。即ち、この指標値は、接続境界における音声の相違と、読み方に基づく音声と音素片データに基づく音声との相違とを示すものであればよい。
判断部330は、このようにして算出した指標値が、予め定められた基準値以上かどうかを判断する(S720)。基準値以上であれば(S720:YES)、置換部350は、テキストと換言記憶部340とを比較して、テキストの中から何れかの第1表記に一致する表記を検索する(S730)。そして、置換部350は、検索された表記を、その第1表記に対応する第2表記により置換する。
The calculating
The
置換部350は、テキスト中の全ての語句を置換の候補として第1表記と比較してもよいが、その一部を比較の対象としてもよい。好ましくは、置換部350は、テキスト中の一部の文については、第1表記が検索されても置換の対象としない。たとえば、置換部350は、固有名詞又は数詞の少なくとも何れか一方を含む文については、表記を置換せず、固有名詞および数詞の何れも含まない文について、第1表記と一致する表記を検索する。数詞や固有名詞を含む文は意味の厳密性が要求される場合が多いので、このような文を避けることで意味を大きく変更してしまうことを防ぐことができる。
The
置換部350は、処理を更に効率化するべく、テキストの中で置換の候補となる特定の部分のみを第1表記と比較してもよい。たとえば、置換部350は、テキストを先頭から順に順次走査して、そのテキストの中の、連続して表記される予め定められた数の語句の組合せを順次選択してゆく。テキストに語句A、B、C、DおよびEが含まれていて、当該予め定められた数が3であれば、置換部350は、ABC、BCDおよびCDEをこの順に選択する。そして、置換部350は、選択した当該組合せに対応する合成音声の不自然さを示す指標値を算出する。
The
具体的には、置換部350は、語句の組合せ毎に、当該組合せに含まれる音素の各接続境界における音声の相違度を合計する。そして、置換部350は、当該組合せに含まれる接続境界の数でその合計値を割り算することにより、接続境界あたりの相違度の平均値を求める。また、置換部350は、当該組合せに含まれる各音素における合成音声、および、読み方に基づく音声の相違度を合計して、当該組合せに含まれる音素の数で割り算することにより、音素あたりの相違度の平均値を求める。そして、置換部350は、接続境界あたりの相違度の平均値、および、音素あたりの相違度の平均値の合計を指標値として算出する。そして、置換部350は、算出した指標値が最も大きい組み合わせに含まれる語句について、当該語句の表記に一致する第1表記を換言記憶部340から検索する。たとえば、ABC、BCDおよびCDEのうちBCDの指標値が最も大きければ、置換部350はBCDを選択して、BCDの中から第1表記と一致する語句を検索する。
これにより、最も不自然な箇所の近傍を優先して置換の対象とすることができ、置換処理を全体として効率化できる。
Specifically, for each combination of phrases,
As a result, the vicinity of the most unnatural part can be given priority for replacement, and the replacement process can be made more efficient as a whole.
続いて、判断部330は、置換されたテキストについて音声データを更に生成させるべく、当該テキストを合成部310に入力してS700に処理を戻す。一方、指標値が基準値未満であることを条件に(S720:NO)、表示部335は、表記が置換されたこのテキストを利用者に表示する(S740)。そして、判断部330は、表示した当該テキストに対し置換を承認する入力を受けたかどうかを判断する(S750)。置換を承認する入力を受けたことを条件に(S750:YES)、判断部330は、表記が置換されたこのテキストに基づく音声データを出力する(S770)。一方、置換を承認しないことを示す入力を受けたことを条件に(S750:NO)、判断部330は、指標値の大きさに関わらず、置換前のテキストに基づく音声データを出力する(S760)。これを受けて出力部370は合成音声を出力する。
Subsequently, the
図8は、音声合成システム10によって合成音声が生成される過程で順次生成されるテキストの具体例を示す。テキスト1は「僕のそばの窓のデフロスタをつけてくれよ。」というテキストである。このテキストに基づき合成部310により音声データを生成しても、合成音声は不自然であり、指標値も基準値(たとえば0.55)より高い。「デフロスタ」を「デフロスター」に置換することにより、テキスト2が生成される。テキスト2でもなお指標値が基準値より高いので、「そば」が「近く」に置換されてテキスト3が生成される。以降同様に、「僕の」が「私の」に置換され、「くれよ」が「ちょうだい」に置換され、「ちょうだい」が「ください」に置換されて、テキスト6が生成される。最後の置換のように、一旦置換された語句が再度置換されてもよい。
FIG. 8 shows a specific example of text sequentially generated in the process of generating synthesized speech by the
テキスト6でもなお指標値が基準値より高いので、「窓の」が「窓の、」に置換される。このように、置換元又は置換先(即ち上記の第1表記又は第2表記)は読点を含んでもよい。また、「デフロスター」は「デフォッガー」に置換される。この結果生成されたテキスト8は、指標値が基準値未満となる。このため、出力部370はこのテキスト8に基づく合成音声を出力する。
Since the index value is still higher than the reference value in the
図9は、音声合成システム10として機能する情報処理装置500のハードウェア構成の一例を示す。情報処理装置500は、ホストコントローラ1082により相互に接続されるCPU1000、RAM1020、及びグラフィックコントローラ1075を有するCPU周辺部と、入出力コントローラ1084によりホストコントローラ1082に接続される通信インターフェイス1030、ハードディスクドライブ1040、及びCD−ROMドライブ1060を有する入出力部と、入出力コントローラ1084に接続されるROM1010、フレキシブルディスクドライブ1050、及び入出力チップ1070を有するレガシー入出力部とを備える。
FIG. 9 shows an example of the hardware configuration of the
ホストコントローラ1082は、RAM1020と、高い転送レートでRAM1020をアクセスするCPU1000及びグラフィックコントローラ1075とを接続する。CPU1000は、ROM1010及びRAM1020に格納されたプログラムに基づいて動作し、各部の制御を行う。グラフィックコントローラ1075は、CPU1000等がRAM1020内に設けたフレームバッファ上に生成する画像データを取得し、表示装置1080上に表示させる。これに代えて、グラフィックコントローラ1075は、CPU1000等が生成する画像データを格納するフレームバッファを、内部に含んでもよい。
The
入出力コントローラ1084は、ホストコントローラ1082と、比較的高速な入出力装置である通信インターフェイス1030、ハードディスクドライブ1040、及びCD−ROMドライブ1060を接続する。通信インターフェイス1030は、ネットワークを介して外部の装置と通信する。ハードディスクドライブ1040は、情報処理装置500が使用するプログラム及びデータを格納する。CD−ROMドライブ1060は、CD−ROM1095からプログラム又はデータを読み取り、RAM1020又はハードディスクドライブ1040に提供する。
The input /
また、入出力コントローラ1084には、ROM1010と、フレキシブルディスクドライブ1050や入出力チップ1070等の比較的低速な入出力装置とが接続される。ROM1010は、情報処理装置500の起動時にCPU1000が実行するブートプログラムや、情報処理装置500のハードウェアに依存するプログラム等を格納する。フレキシブルディスクドライブ1050は、フレキシブルディスク1090からプログラム又はデータを読み取り、入出力チップ1070を介してRAM1020またはハードディスクドライブ1040に提供する。入出力チップ1070は、フレキシブルディスク1090や、例えばパラレルポート、シリアルポート、キーボードポート、マウスポート等を介して各種の入出力装置を接続する。
The input /
情報処理装置500に提供されるプログラムは、フレキシブルディスク1090、CD−ROM1095、又はICカード等の記録媒体に格納されて利用者によって提供される。プログラムは、入出力チップ1070及び/又は入出力コントローラ1084を介して、記録媒体から読み出され情報処理装置500にインストールされて実行される。プログラムが情報処理装置500等に働きかけて行わせる動作は、図1から図8において説明した音声合成システム10における動作と同一であるから、説明を省略する。
A program provided to the
以上に示したプログラムは、外部の記憶媒体に格納されてもよい。記憶媒体としては、フレキシブルディスク1090、CD−ROM1095の他に、DVDやPD等の光学記録媒体、MD等の光磁気記録媒体、テープ媒体、ICカード等の半導体メモリ等を用いることができる。また、専用通信ネットワークやインターネットに接続されたサーバシステムに設けたハードディスク又はRAM等の記憶装置を記録媒体として使用し、ネットワークを介してプログラムを情報処理装置500に提供してもよい。
The program shown above may be stored in an external storage medium. As the storage medium, in addition to the
このように、本実施形態に係る音声合成システム10によれば、意味を大きく変えない範囲内でテキスト中の表記を順次変更してゆくことで、音素片の結合がより自然になるテキスト表記を探し出し、合成音声の品質を高めることができる。これにより、音素の結合や周波数の変更といった音響処理によっては品質に限界がある場合であっても、更に高品質な音声を生成することができる。音質は、音素の接続境界における音声の相違度などを用いることで、精度良く評価される。これにより、置換するべきか否かの判断や、置換するべき箇所の判断を正確に行うことができる。
As described above, according to the
以上、本発明を実施の形態を用いて説明したが、本発明の技術的範囲は上記実施の形態に記載の範囲には限定されない。上記実施の形態に、多様な変更または改良を加えることのできることが当業者にとって明らかである。その様な変更または改良を加えた形態も本発明の技術的範囲に含まれ得ることが、特許請求の範囲の記載から明らかである。 As mentioned above, although this invention was demonstrated using embodiment, the technical scope of this invention is not limited to the range as described in the said embodiment. It will be apparent to those skilled in the art that various modifications or improvements can be added to the above embodiment. It is apparent from the scope of the claims that the embodiments added with such changes or improvements can be included in the technical scope of the present invention.
10 音声合成システム
20 音素片記憶部
310 合成部
320 算出部
330 判断部
335 表示部
340 換言記憶部
350 置換部
370 出力部
400 語句記憶部
410 語句検索部
420 音素片検索部
500 情報処理装置
600 語句データ
610 発音データ
620 アクセントデータ
630 品詞データ
10
Claims (12)
各々が互いに異なる音素の音声を示す複数の音素片データを記憶する音素片記憶部と、
テキストを入力し、入力した前記テキストの発音を示す各音素に対応する音素片データを前記音素片記憶部から読み出して接続し、前記テキストの合成音声を示す音声データを生成する合成部と、
前記テキストの合成音声の不自然さを示す指標値を、前記音声データに基づいて算出する算出部と、
複数の第1表記のそれぞれに対応付けて、当該第1表記の言い換えである第2表記を記憶する換言記憶部と、
前記テキストの中から何れかの前記第1表記に一致する表記を検索して、検索された当該表記を当該第1表記に対応する前記第2表記に置換する置換部と、
算出した前記指標値が予め定められた基準値より小さいことを条件に、生成された前記音声データを出力し、当該指標値が前記基準値以上であることを条件に、置換された前記テキストについて音声データをさらに生成させるべく当該テキストを前記合成部に入力する判断部と
を備えるシステム。 A system for generating synthesized speech,
A phoneme piece storage unit for storing a plurality of phoneme piece data each representing speech of a different phoneme;
A synthesizing unit for inputting text, connecting phoneme data corresponding to each phoneme indicating the pronunciation of the input text from the phoneme storage unit, and generating speech data indicating synthesized speech of the text;
A calculation unit that calculates an index value indicating unnaturalness of the synthesized speech of the text based on the speech data;
A paraphrase storage unit that stores a second notation that is a paraphrase of the first notation in association with each of the plurality of first notations;
A replacement unit that searches the text for a notation that matches any of the first notations, and replaces the searched notation with the second notation corresponding to the first notation;
The generated text data is output on the condition that the calculated index value is smaller than a predetermined reference value, and the replaced text on the condition that the index value is not less than the reference value A determination unit that inputs the text to the synthesis unit to further generate voice data.
請求項1に記載のシステム。 The calculation unit includes the first phoneme piece data and the second phoneme piece data at a boundary between the first phoneme piece data included in the voice data and the second phoneme piece data connected to the first phoneme piece data. The system according to claim 1, wherein a difference in pronunciation between phoneme piece data is calculated as the index value.
前記算出部は、前記第1の音素片データおよび前記第2の音素片データの境界における、前記第1の音素片データおよび前記第2の音素片データの間の基本周波数および音色の相違度を、前記指標値として算出する
請求項2に記載のシステム。 The phoneme storage unit stores, as the phoneme piece data, data indicating a fundamental frequency and a tone color of speech for each phoneme,
The calculation unit calculates a difference in fundamental frequency and tone color between the first phoneme piece data and the second phoneme piece data at a boundary between the first phoneme piece data and the second phoneme piece data. The system according to claim 2, wherein the system is calculated as the index value.
複数の語句のそれぞれについて、当該語句の読み方を当該語句の表記に対応付けて記憶する語句記憶部と、
入力した前記テキストに含まれる各々の語句と表記が一致する語句を前記語句記憶部から検索し、検索したそれぞれの語句に対応する読み方を前記語句記憶部から読み出して接続することにより、前記テキストの読み方を生成する語句検索部と、
生成した前記読み方に基づいて定まる各音素の韻律に最も近い音素片データをそれぞれ前記音素片記憶部から検索して読み出し、読み出した複数の前記音素片データを接続することにより前記音声データを生成する音素片検索部と
を有し、
前記算出部は、生成した前記読み方に基づいて定まる各音素の韻律と、当該各音素に対応してそれぞれ検索した音素片データが示す韻律との差分を、前記指標値として算出する
請求項1に記載のシステム。 The synthesis unit is
For each of the plurality of phrases, a phrase storage unit that stores how to read the phrase in association with the notation of the phrase;
By searching the phrase storage unit for a phrase whose notation matches with each phrase included in the input text, and reading and connecting from the phrase storage unit the reading corresponding to each searched phrase, A phrase search unit for generating readings;
The phoneme piece data closest to the prosody of each phoneme determined based on the generated reading is retrieved from the phoneme piece storage unit, and the voice data is generated by connecting the read phoneme piece data. Phoneme segment search section and
The calculation unit calculates, as the index value, a difference between a prosody of each phoneme determined based on the generated reading and a prosody indicated by phoneme piece data searched corresponding to each phoneme. The described system.
複数の語句のそれぞれについて、当該語句の読み方を当該語句の表記に対応付けて記憶する語句記憶部と、
入力した前記テキストに含まれる各々の語句と表記が一致する語句を前記語句記憶部から検索し、検索したそれぞれの語句に対応する読み方を前記語句記憶部から読み出して接続することにより、前記テキストの読み方を生成する語句検索部と、
生成した前記読み方に基づいて定まる各音素の音色に最も近い音素片データをそれぞれ前記音素片記憶部から検索して読み出し、読み出した複数の前記音素片データを接続することにより前記音声データを生成する音素片検索部と
を有し、
前記算出部は、生成した前記読み方に基づいて定まる各音素の音色と、当該各音素に対応してそれぞれ検索した音素片データが示す音色との差分を、前記指標値として算出する
請求項1に記載のシステム。 The synthesis unit is
For each of the plurality of phrases, a phrase storage unit that stores how to read the phrase in association with the notation of the phrase;
By searching the phrase storage unit for a phrase whose notation matches with each phrase included in the input text, and reading and connecting from the phrase storage unit the reading corresponding to each searched phrase, A phrase search unit for generating readings;
The phoneme piece data closest to the timbre of each phoneme determined based on the generated reading is retrieved from the phoneme piece storage unit, and the voice data is generated by connecting the read phoneme piece data. Phoneme segment search section and
The calculation unit calculates, as the index value, a difference between a timbre of each phoneme determined based on the generated reading and a timbre indicated by phoneme piece data respectively retrieved corresponding to the phoneme. The described system.
前記換言記憶部は、複数の前記第2表記のそれぞれとして、前記目標音声データの内容を示すテキストに含まれる語句の表記を記憶しており、
前記置換部は、入力した前記テキストのうち第1表記に一致する表記を、前記目標音声データの内容を示す前記テキストに含まれる語句の表記である第2表記に置換する
請求項1に記載のシステム。 The phoneme storage unit acquires in advance target speech data that is speech data indicating a synthesized speech to be generated and generates a plurality of phoneme segment data indicating speech of a plurality of phonemes included in the target speech data. Generated and stored in advance,
The paraphrase storage unit stores, as each of the plurality of second notations, a notation of a phrase included in the text indicating the content of the target speech data,
The replacement unit replaces a notation that matches the first notation in the input text with a second notation that is a notation of a phrase included in the text indicating the content of the target speech data. system.
請求項1に記載のシステム。 The replacement unit calculates an index value indicating the unnaturalness of the synthesized speech corresponding to each combination of a predetermined number of words written in succession in the input text. The wording included in the combination having the largest calculated index value is searched for the first notation that matches the notation of the word from the paraphrase storage unit, and the notation of the word is replaced with the second notation. The system according to 1.
前記置換部は、入力した前記テキストの中の表記が複数の第1表記のそれぞれに一致したことを条件に、一致した当該表記を、当該複数の第1表記のうち前記近似度の最も高い第1表記に対応する第2表記により置換する
請求項1に記載のシステム。 The paraphrase storage unit further stores a degree of approximation of meaning between the first notation and the second notation in association with each of the first notation and the second notation set which is a paraphrase of the first notation. And
The replacement unit replaces the matching notation with the highest degree of approximation among the plurality of first notations on the condition that the notation in the input text matches each of the plurality of first notations. The system according to claim 1, wherein replacement is performed by a second notation corresponding to one notation.
請求項1に記載のシステム。 The replacement unit does not replace the notation for a sentence that includes at least one of a proper noun or a numeral in the input text, and matches the first notation for a sentence that does not include either a proper noun or a numeral. The system according to claim 1, wherein the notation to be searched is replaced with a second notation corresponding to the first notation.
前記判断部は、表示した当該テキストに対し置換を承認する入力を受けたことをさらに条件として、表記が置換された当該テキストに基づく音声データを出力し、当該置換を承認しない入力を受けたことを条件に、前記指標値に関わらず置換前の当該テキストに基づく音声データを出力する
請求項1に記載のシステム。 Further comprising a display unit for displaying to the user the text whose notation has been replaced on the condition that the notation has been replaced by the replacing unit;
The determination unit outputs voice data based on the text in which the notation is replaced, and further receives an input that does not approve the replacement, on condition that the input to approve replacement is received for the displayed text. The system according to claim 1, wherein audio data based on the text before replacement is output regardless of the index value.
各々が互いに異なる音素の音声を示す複数の音素片データを記憶することと、
テキストを入力し、入力した前記テキストの発音を示す各音素に対応する音素片データを記憶した音素片データの中から読み出して接続し、前記テキストの合成音声を示す音声データを生成することと、
前記テキストの合成音声の不自然さを示す指標値を、前記音声データに基づいて算出することと、
複数の第1表記のそれぞれに対応付けて、当該第1表記の言い換えである第2表記を記憶することと、
前記テキストの中から何れかの前記第1表記に一致する表記を検索して、検索された当該表記を当該第1表記に対応する前記第2表記に置換することと、
算出した前記指標値が予め定められた基準値より小さいことを条件に、生成された前記音声データを出力し、当該指標値が前記基準値以上であることを条件に、置換された前記テキストについて音声データをさらに生成させるべく当該テキストの合成音声をさらに生成させることと
を備える方法。 A method for generating synthesized speech,
Storing a plurality of phoneme pieces data each representing a different phoneme speech;
Inputting text, reading and connecting from the phoneme piece data storing the phoneme piece data corresponding to each phoneme indicating the pronunciation of the input text, and generating voice data showing the synthesized voice of the text;
Calculating an index value indicating unnaturalness of the synthesized speech of the text based on the speech data;
Storing a second notation that is a paraphrase of the first notation in association with each of the plurality of first notations;
Searching the text for a notation that matches any of the first notations, and replacing the searched notation with the second notation corresponding to the first notation;
The generated text data is output on the condition that the calculated index value is smaller than a predetermined reference value, and the replaced text on the condition that the index value is equal to or greater than the reference value Generating further synthesized speech of the text to further generate speech data.
前記情報処理装置を、
各々が互いに異なる音素の音声を示す複数の音素片データを記憶する音素片記憶部と、
テキストを入力し、入力した前記テキストの発音を示す各音素に対応する音素片データを前記音素片記憶部から読み出して接続し、前記テキストの合成音声を示す音声データを生成する合成部と、
前記テキストの合成音声の不自然さを示す指標値を、前記音声データに基づいて算出する算出部と、
複数の第1表記のそれぞれに対応付けて、当該第1表記の言い換えである第2表記を記憶する換言記憶部と、
前記テキストの中から何れかの前記第1表記に一致する表記を検索して、検索された当該表記を当該第1表記に対応する前記第2表記に置換する置換部と、
算出した前記指標値が予め定められた基準値より小さいことを条件に、生成された前記音声データを出力し、当該指標値が前記基準値以上であることを条件に、置換された前記テキストについて音声データをさらに生成させるべく当該テキストを前記合成部に入力する判断部と
して機能させるプログラム。 A program for causing an information processing device to function as a system for generating synthesized speech,
The information processing apparatus;
A phoneme piece storage unit for storing a plurality of phoneme piece data each representing speech of a different phoneme;
A synthesizing unit for inputting text, connecting phoneme data corresponding to each phoneme indicating the pronunciation of the input text from the phoneme storage unit, and generating speech data indicating synthesized speech of the text;
A calculation unit that calculates an index value indicating unnaturalness of the synthesized speech of the text based on the speech data;
A paraphrase storage unit that stores a second notation that is a paraphrase of the first notation in association with each of the plurality of first notations;
A replacement unit that searches the text for a notation that matches any of the first notations, and replaces the searched notation with the second notation corresponding to the first notation;
The generated text data is output on the condition that the calculated index value is smaller than a predetermined reference value, and the replaced text on the condition that the index value is equal to or greater than the reference value A program that functions as a determination unit that inputs the text to the synthesis unit to further generate voice data.
Priority Applications (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2007019433A JP2008185805A (en) | 2007-01-30 | 2007-01-30 | Technology for creating high quality synthesis voice |
CN2008100037617A CN101236743B (en) | 2007-01-30 | 2008-01-22 | System and method for generating high quality speech |
US12/022,333 US8015011B2 (en) | 2007-01-30 | 2008-01-30 | Generating objectively evaluated sufficiently natural synthetic speech from text by using selective paraphrases |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2007019433A JP2008185805A (en) | 2007-01-30 | 2007-01-30 | Technology for creating high quality synthesis voice |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2008185805A true JP2008185805A (en) | 2008-08-14 |
Family
ID=39668963
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2007019433A Pending JP2008185805A (en) | 2007-01-30 | 2007-01-30 | Technology for creating high quality synthesis voice |
Country Status (3)
Country | Link |
---|---|
US (1) | US8015011B2 (en) |
JP (1) | JP2008185805A (en) |
CN (1) | CN101236743B (en) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8650034B2 (en) | 2009-02-16 | 2014-02-11 | Kabushiki Kaisha Toshiba | Speech processing device, speech processing method, and computer program product for speech processing |
Families Citing this family (219)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8645137B2 (en) | 2000-03-16 | 2014-02-04 | Apple Inc. | Fast, language-independent method for user authentication by voice |
US8677377B2 (en) | 2005-09-08 | 2014-03-18 | Apple Inc. | Method and apparatus for building an intelligent automated assistant |
US9318108B2 (en) | 2010-01-18 | 2016-04-19 | Apple Inc. | Intelligent automated assistant |
US20080167876A1 (en) * | 2007-01-04 | 2008-07-10 | International Business Machines Corporation | Methods and computer program products for providing paraphrasing in a text-to-speech system |
US8977255B2 (en) | 2007-04-03 | 2015-03-10 | Apple Inc. | Method and system for operating a multi-function portable electronic device using voice-activation |
JP5238205B2 (en) * | 2007-09-07 | 2013-07-17 | ニュアンス コミュニケーションズ,インコーポレイテッド | Speech synthesis system, program and method |
US8583438B2 (en) * | 2007-09-20 | 2013-11-12 | Microsoft Corporation | Unnatural prosody detection in speech synthesis |
US10002189B2 (en) | 2007-12-20 | 2018-06-19 | Apple Inc. | Method and apparatus for searching using an active ontology |
US9330720B2 (en) | 2008-01-03 | 2016-05-03 | Apple Inc. | Methods and apparatus for altering audio output signals |
US8996376B2 (en) | 2008-04-05 | 2015-03-31 | Apple Inc. | Intelligent text-to-speech conversion |
US10496753B2 (en) | 2010-01-18 | 2019-12-03 | Apple Inc. | Automatically adapting user interfaces for hands-free interaction |
US20100030549A1 (en) | 2008-07-31 | 2010-02-04 | Lee Michael M | Mobile device having human language translation capability with positional feedback |
US8676904B2 (en) | 2008-10-02 | 2014-03-18 | Apple Inc. | Electronic devices with voice command and contextual data processing capabilities |
US9959870B2 (en) | 2008-12-11 | 2018-05-01 | Apple Inc. | Speech recognition involving a mobile device |
JP5269668B2 (en) * | 2009-03-25 | 2013-08-21 | 株式会社東芝 | Speech synthesis apparatus, program, and method |
JP5300975B2 (en) * | 2009-04-15 | 2013-09-25 | 株式会社東芝 | Speech synthesis apparatus, method and program |
US10706373B2 (en) | 2011-06-03 | 2020-07-07 | Apple Inc. | Performing actions associated with task items that represent tasks to perform |
US9858925B2 (en) | 2009-06-05 | 2018-01-02 | Apple Inc. | Using context information to facilitate processing of commands in a virtual assistant |
US10241644B2 (en) | 2011-06-03 | 2019-03-26 | Apple Inc. | Actionable reminder entries |
US10241752B2 (en) | 2011-09-30 | 2019-03-26 | Apple Inc. | Interface for a virtual digital assistant |
US9431006B2 (en) | 2009-07-02 | 2016-08-30 | Apple Inc. | Methods and apparatuses for automatic speech recognition |
US8706497B2 (en) * | 2009-12-28 | 2014-04-22 | Mitsubishi Electric Corporation | Speech signal restoration device and speech signal restoration method |
WO2011080597A1 (en) * | 2010-01-04 | 2011-07-07 | Kabushiki Kaisha Toshiba | Method and apparatus for synthesizing a speech with information |
US10553209B2 (en) | 2010-01-18 | 2020-02-04 | Apple Inc. | Systems and methods for hands-free notification summaries |
US10276170B2 (en) | 2010-01-18 | 2019-04-30 | Apple Inc. | Intelligent automated assistant |
US10679605B2 (en) | 2010-01-18 | 2020-06-09 | Apple Inc. | Hands-free list-reading by intelligent automated assistant |
US10705794B2 (en) | 2010-01-18 | 2020-07-07 | Apple Inc. | Automatically adapting user interfaces for hands-free interaction |
DE202011111062U1 (en) | 2010-01-25 | 2019-02-19 | Newvaluexchange Ltd. | Device and system for a digital conversation management platform |
US8682667B2 (en) | 2010-02-25 | 2014-03-25 | Apple Inc. | User profiling for selecting user specific voice input processing information |
JP5296029B2 (en) * | 2010-09-15 | 2013-09-25 | 株式会社東芝 | Sentence presentation apparatus, sentence presentation method, and program |
US10762293B2 (en) | 2010-12-22 | 2020-09-01 | Apple Inc. | Using parts-of-speech tagging and named entity recognition for spelling correction |
US9286886B2 (en) * | 2011-01-24 | 2016-03-15 | Nuance Communications, Inc. | Methods and apparatus for predicting prosody in speech synthesis |
US8781836B2 (en) * | 2011-02-22 | 2014-07-15 | Apple Inc. | Hearing assistance system for providing consistent human speech |
US9262612B2 (en) | 2011-03-21 | 2016-02-16 | Apple Inc. | Device access using voice authentication |
US8767978B2 (en) | 2011-03-25 | 2014-07-01 | The Intellisis Corporation | System and method for processing sound signals implementing a spectral motion transform |
US10057736B2 (en) | 2011-06-03 | 2018-08-21 | Apple Inc. | Active transport based notifications |
US8620646B2 (en) | 2011-08-08 | 2013-12-31 | The Intellisis Corporation | System and method for tracking sound pitch across an audio signal using harmonic envelope |
US9183850B2 (en) | 2011-08-08 | 2015-11-10 | The Intellisis Corporation | System and method for tracking sound pitch across an audio signal |
US8548803B2 (en) * | 2011-08-08 | 2013-10-01 | The Intellisis Corporation | System and method of processing a sound signal including transforming the sound signal into a frequency-chirp domain |
US8994660B2 (en) | 2011-08-29 | 2015-03-31 | Apple Inc. | Text correction processing |
US20130080172A1 (en) * | 2011-09-22 | 2013-03-28 | General Motors Llc | Objective evaluation of synthesized speech attributes |
US10134385B2 (en) | 2012-03-02 | 2018-11-20 | Apple Inc. | Systems and methods for name pronunciation |
US9483461B2 (en) | 2012-03-06 | 2016-11-01 | Apple Inc. | Handling speech synthesis of content for multiple languages |
US9280610B2 (en) | 2012-05-14 | 2016-03-08 | Apple Inc. | Crowd sourcing information to fulfill user requests |
US10417037B2 (en) | 2012-05-15 | 2019-09-17 | Apple Inc. | Systems and methods for integrating third party services with a digital assistant |
US9721563B2 (en) | 2012-06-08 | 2017-08-01 | Apple Inc. | Name recognition system |
US9495129B2 (en) | 2012-06-29 | 2016-11-15 | Apple Inc. | Device, method, and user interface for voice-activated navigation and browsing of a document |
US9576574B2 (en) | 2012-09-10 | 2017-02-21 | Apple Inc. | Context-sensitive handling of interruptions by intelligent digital assistant |
US9547647B2 (en) | 2012-09-19 | 2017-01-17 | Apple Inc. | Voice-based media searching |
US9311913B2 (en) * | 2013-02-05 | 2016-04-12 | Nuance Communications, Inc. | Accuracy of text-to-speech synthesis |
CN104969289B (en) | 2013-02-07 | 2021-05-28 | 苹果公司 | Voice trigger of digital assistant |
US9368114B2 (en) | 2013-03-14 | 2016-06-14 | Apple Inc. | Context-sensitive handling of interruptions |
US10652394B2 (en) | 2013-03-14 | 2020-05-12 | Apple Inc. | System and method for processing voicemail |
CN105027197B (en) | 2013-03-15 | 2018-12-14 | 苹果公司 | Training at least partly voice command system |
US10748529B1 (en) | 2013-03-15 | 2020-08-18 | Apple Inc. | Voice activated device for use with a voice-based digital assistant |
WO2014144579A1 (en) | 2013-03-15 | 2014-09-18 | Apple Inc. | System and method for updating an adaptive speech recognition model |
US9582608B2 (en) | 2013-06-07 | 2017-02-28 | Apple Inc. | Unified ranking with entropy-weighted information for phrase-based semantic auto-completion |
WO2014197336A1 (en) | 2013-06-07 | 2014-12-11 | Apple Inc. | System and method for detecting errors in interactions with a voice-based digital assistant |
WO2014197334A2 (en) | 2013-06-07 | 2014-12-11 | Apple Inc. | System and method for user-specified pronunciation of words for speech synthesis and recognition |
WO2014197335A1 (en) | 2013-06-08 | 2014-12-11 | Apple Inc. | Interpreting and acting upon commands that involve sharing information with remote devices |
US10176167B2 (en) | 2013-06-09 | 2019-01-08 | Apple Inc. | System and method for inferring user intent from speech inputs |
CN110442699A (en) | 2013-06-09 | 2019-11-12 | 苹果公司 | Operate method, computer-readable medium, electronic equipment and the system of digital assistants |
JP2016521948A (en) | 2013-06-13 | 2016-07-25 | アップル インコーポレイテッド | System and method for emergency calls initiated by voice command |
US9741339B2 (en) * | 2013-06-28 | 2017-08-22 | Google Inc. | Data driven word pronunciation learning and scoring with crowd sourcing based on the word's phonemes pronunciation scores |
JP6163266B2 (en) | 2013-08-06 | 2017-07-12 | アップル インコーポレイテッド | Automatic activation of smart responses based on activation from remote devices |
JP6391925B2 (en) * | 2013-09-20 | 2018-09-19 | 株式会社東芝 | Spoken dialogue apparatus, method and program |
US10296160B2 (en) | 2013-12-06 | 2019-05-21 | Apple Inc. | Method for extracting salient dialog usage from live data |
CN106233373B (en) * | 2014-04-15 | 2017-07-07 | 三菱电机株式会社 | Information provider unit and information providing method |
US9620105B2 (en) | 2014-05-15 | 2017-04-11 | Apple Inc. | Analyzing audio input for efficient speech and music recognition |
US10592095B2 (en) | 2014-05-23 | 2020-03-17 | Apple Inc. | Instantaneous speaking of content on touch devices |
US9502031B2 (en) | 2014-05-27 | 2016-11-22 | Apple Inc. | Method for supporting dynamic grammars in WFST-based ASR |
US10170123B2 (en) | 2014-05-30 | 2019-01-01 | Apple Inc. | Intelligent assistant for home automation |
US9785630B2 (en) | 2014-05-30 | 2017-10-10 | Apple Inc. | Text prediction using combined word N-gram and unigram language models |
US9842101B2 (en) | 2014-05-30 | 2017-12-12 | Apple Inc. | Predictive conversion of language input |
US9430463B2 (en) | 2014-05-30 | 2016-08-30 | Apple Inc. | Exemplar-based natural language processing |
US9715875B2 (en) | 2014-05-30 | 2017-07-25 | Apple Inc. | Reducing the need for manual start/end-pointing and trigger phrases |
US9633004B2 (en) | 2014-05-30 | 2017-04-25 | Apple Inc. | Better resolution when referencing to concepts |
US10289433B2 (en) | 2014-05-30 | 2019-05-14 | Apple Inc. | Domain specific language for encoding assistant dialog |
US9734193B2 (en) | 2014-05-30 | 2017-08-15 | Apple Inc. | Determining domain salience ranking from ambiguous words in natural speech |
US9760559B2 (en) | 2014-05-30 | 2017-09-12 | Apple Inc. | Predictive text input |
WO2015184186A1 (en) | 2014-05-30 | 2015-12-03 | Apple Inc. | Multi-command single utterance input method |
US10078631B2 (en) | 2014-05-30 | 2018-09-18 | Apple Inc. | Entropy-guided text prediction using combined word and character n-gram language models |
US9338493B2 (en) | 2014-06-30 | 2016-05-10 | Apple Inc. | Intelligent automated assistant for TV user interactions |
US10659851B2 (en) | 2014-06-30 | 2020-05-19 | Apple Inc. | Real-time digital assistant knowledge updates |
US10446141B2 (en) | 2014-08-28 | 2019-10-15 | Apple Inc. | Automatic speech recognition based on user feedback |
US9818400B2 (en) | 2014-09-11 | 2017-11-14 | Apple Inc. | Method and apparatus for discovering trending terms in speech requests |
US10789041B2 (en) | 2014-09-12 | 2020-09-29 | Apple Inc. | Dynamic thresholds for always listening speech trigger |
US9607609B2 (en) * | 2014-09-25 | 2017-03-28 | Intel Corporation | Method and apparatus to synthesize voice based on facial structures |
US9606986B2 (en) | 2014-09-29 | 2017-03-28 | Apple Inc. | Integrated word N-gram and class M-gram language models |
US9886432B2 (en) | 2014-09-30 | 2018-02-06 | Apple Inc. | Parsimonious handling of word inflection via categorical stem + suffix N-gram language models |
US9646609B2 (en) | 2014-09-30 | 2017-05-09 | Apple Inc. | Caching apparatus for serving phonetic pronunciations |
US10127911B2 (en) | 2014-09-30 | 2018-11-13 | Apple Inc. | Speaker identification and unsupervised speaker adaptation techniques |
US10074360B2 (en) | 2014-09-30 | 2018-09-11 | Apple Inc. | Providing an indication of the suitability of speech recognition |
US9668121B2 (en) | 2014-09-30 | 2017-05-30 | Apple Inc. | Social reminders |
US10552013B2 (en) | 2014-12-02 | 2020-02-04 | Apple Inc. | Data detection |
US9711141B2 (en) | 2014-12-09 | 2017-07-18 | Apple Inc. | Disambiguating heteronyms in speech synthesis |
US9842611B2 (en) | 2015-02-06 | 2017-12-12 | Knuedge Incorporated | Estimating pitch using peak-to-peak distances |
US9870785B2 (en) | 2015-02-06 | 2018-01-16 | Knuedge Incorporated | Determining features of harmonic signals |
US9922668B2 (en) | 2015-02-06 | 2018-03-20 | Knuedge Incorporated | Estimating fractional chirp rate with multiple frequency representations |
US10152299B2 (en) | 2015-03-06 | 2018-12-11 | Apple Inc. | Reducing response latency of intelligent automated assistants |
US9865280B2 (en) | 2015-03-06 | 2018-01-09 | Apple Inc. | Structured dictation using intelligent automated assistants |
US9721566B2 (en) | 2015-03-08 | 2017-08-01 | Apple Inc. | Competing devices responding to voice triggers |
US9886953B2 (en) | 2015-03-08 | 2018-02-06 | Apple Inc. | Virtual assistant activation |
US10567477B2 (en) | 2015-03-08 | 2020-02-18 | Apple Inc. | Virtual assistant continuity |
US9899019B2 (en) | 2015-03-18 | 2018-02-20 | Apple Inc. | Systems and methods for structured stem and suffix language models |
US9552810B2 (en) | 2015-03-31 | 2017-01-24 | International Business Machines Corporation | Customizable and individualized speech recognition settings interface for users with language accents |
US9842105B2 (en) | 2015-04-16 | 2017-12-12 | Apple Inc. | Parsimonious continuous-space phrase representations for natural language processing |
US10460227B2 (en) | 2015-05-15 | 2019-10-29 | Apple Inc. | Virtual assistant in a communication session |
US10200824B2 (en) | 2015-05-27 | 2019-02-05 | Apple Inc. | Systems and methods for proactively identifying and surfacing relevant content on a touch-sensitive device |
US10083688B2 (en) | 2015-05-27 | 2018-09-25 | Apple Inc. | Device voice control for selecting a displayed affordance |
US10127220B2 (en) | 2015-06-04 | 2018-11-13 | Apple Inc. | Language identification from short strings |
US9578173B2 (en) | 2015-06-05 | 2017-02-21 | Apple Inc. | Virtual assistant aided communication with 3rd party service in a communication session |
US10101822B2 (en) | 2015-06-05 | 2018-10-16 | Apple Inc. | Language input correction |
US11025565B2 (en) | 2015-06-07 | 2021-06-01 | Apple Inc. | Personalized prediction of responses for instant messaging |
US10186254B2 (en) | 2015-06-07 | 2019-01-22 | Apple Inc. | Context-based endpoint detection |
US10255907B2 (en) | 2015-06-07 | 2019-04-09 | Apple Inc. | Automatic accent detection using acoustic models |
US20160378747A1 (en) | 2015-06-29 | 2016-12-29 | Apple Inc. | Virtual assistant for media playback |
US10740384B2 (en) | 2015-09-08 | 2020-08-11 | Apple Inc. | Intelligent automated assistant for media search and playback |
US10747498B2 (en) | 2015-09-08 | 2020-08-18 | Apple Inc. | Zero latency digital assistant |
US10331312B2 (en) | 2015-09-08 | 2019-06-25 | Apple Inc. | Intelligent automated assistant in a media environment |
US10671428B2 (en) | 2015-09-08 | 2020-06-02 | Apple Inc. | Distributed personal assistant |
US9697820B2 (en) | 2015-09-24 | 2017-07-04 | Apple Inc. | Unit-selection text-to-speech synthesis using concatenation-sensitive neural networks |
US11010550B2 (en) | 2015-09-29 | 2021-05-18 | Apple Inc. | Unified language modeling framework for word prediction, auto-completion and auto-correction |
US10366158B2 (en) | 2015-09-29 | 2019-07-30 | Apple Inc. | Efficient word encoding for recurrent neural network language models |
US11587559B2 (en) | 2015-09-30 | 2023-02-21 | Apple Inc. | Intelligent device identification |
WO2017065266A1 (en) * | 2015-10-15 | 2017-04-20 | ヤマハ株式会社 | Information management system and information management method |
US10691473B2 (en) | 2015-11-06 | 2020-06-23 | Apple Inc. | Intelligent automated assistant in a messaging environment |
US10956666B2 (en) | 2015-11-09 | 2021-03-23 | Apple Inc. | Unconventional virtual assistant interactions |
US10049668B2 (en) | 2015-12-02 | 2018-08-14 | Apple Inc. | Applying neural network language models to weighted finite state transducers for automatic speech recognition |
US10223066B2 (en) | 2015-12-23 | 2019-03-05 | Apple Inc. | Proactive assistance based on dialog communication between devices |
US10446143B2 (en) | 2016-03-14 | 2019-10-15 | Apple Inc. | Identification of voice inputs providing credentials |
US9990916B2 (en) * | 2016-04-26 | 2018-06-05 | Adobe Systems Incorporated | Method to synthesize personalized phonetic transcription |
US9934775B2 (en) | 2016-05-26 | 2018-04-03 | Apple Inc. | Unit-selection text-to-speech synthesis based on predicted concatenation parameters |
US9972304B2 (en) | 2016-06-03 | 2018-05-15 | Apple Inc. | Privacy preserving distributed evaluation framework for embedded personalized systems |
US10249300B2 (en) | 2016-06-06 | 2019-04-02 | Apple Inc. | Intelligent list reading |
US11227589B2 (en) | 2016-06-06 | 2022-01-18 | Apple Inc. | Intelligent list reading |
US10049663B2 (en) | 2016-06-08 | 2018-08-14 | Apple, Inc. | Intelligent automated assistant for media exploration |
DK179588B1 (en) | 2016-06-09 | 2019-02-22 | Apple Inc. | Intelligent automated assistant in a home environment |
US12223282B2 (en) | 2016-06-09 | 2025-02-11 | Apple Inc. | Intelligent automated assistant in a home environment |
US10067938B2 (en) | 2016-06-10 | 2018-09-04 | Apple Inc. | Multilingual word prediction |
US10192552B2 (en) | 2016-06-10 | 2019-01-29 | Apple Inc. | Digital assistant providing whispered speech |
US10490187B2 (en) | 2016-06-10 | 2019-11-26 | Apple Inc. | Digital assistant providing automated status report |
US10509862B2 (en) | 2016-06-10 | 2019-12-17 | Apple Inc. | Dynamic phrase expansion of language input |
US10586535B2 (en) | 2016-06-10 | 2020-03-10 | Apple Inc. | Intelligent digital assistant in a multi-tasking environment |
DK179343B1 (en) | 2016-06-11 | 2018-05-14 | Apple Inc | Intelligent task discovery |
DK179415B1 (en) | 2016-06-11 | 2018-06-14 | Apple Inc | Intelligent device arbitration and control |
DK201670540A1 (en) | 2016-06-11 | 2018-01-08 | Apple Inc | Application integration with a digital assistant |
DK179049B1 (en) | 2016-06-11 | 2017-09-18 | Apple Inc | Data driven natural language event detection and classification |
US10474753B2 (en) | 2016-09-07 | 2019-11-12 | Apple Inc. | Language identification using recurrent neural networks |
US10043516B2 (en) | 2016-09-23 | 2018-08-07 | Apple Inc. | Intelligent automated assistant |
US11281993B2 (en) | 2016-12-05 | 2022-03-22 | Apple Inc. | Model and ensemble compression for metric learning |
US10593346B2 (en) | 2016-12-22 | 2020-03-17 | Apple Inc. | Rank-reduced token representation for automatic speech recognition |
US11204787B2 (en) | 2017-01-09 | 2021-12-21 | Apple Inc. | Application integration with a digital assistant |
DK201770383A1 (en) | 2017-05-09 | 2018-12-14 | Apple Inc. | User interface for correcting recognition errors |
US10417266B2 (en) | 2017-05-09 | 2019-09-17 | Apple Inc. | Context-aware ranking of intelligent response suggestions |
US10726832B2 (en) | 2017-05-11 | 2020-07-28 | Apple Inc. | Maintaining privacy of personal information |
US10395654B2 (en) | 2017-05-11 | 2019-08-27 | Apple Inc. | Text normalization based on a data-driven learning network |
DK201770439A1 (en) | 2017-05-11 | 2018-12-13 | Apple Inc. | Offline personal assistant |
DK179745B1 (en) | 2017-05-12 | 2019-05-01 | Apple Inc. | SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT |
DK179496B1 (en) | 2017-05-12 | 2019-01-15 | Apple Inc. | USER-SPECIFIC Acoustic Models |
US11301477B2 (en) | 2017-05-12 | 2022-04-12 | Apple Inc. | Feedback analysis of a digital assistant |
DK201770428A1 (en) | 2017-05-12 | 2019-02-18 | Apple Inc. | Low-latency intelligent automated assistant |
DK201770431A1 (en) | 2017-05-15 | 2018-12-20 | Apple Inc. | Optimizing dialogue policy decisions for digital assistants using implicit feedback |
DK201770432A1 (en) | 2017-05-15 | 2018-12-21 | Apple Inc. | Hierarchical belief states for digital assistants |
DK179560B1 (en) | 2017-05-16 | 2019-02-18 | Apple Inc. | Far-field extension for digital assistant services |
US10311144B2 (en) | 2017-05-16 | 2019-06-04 | Apple Inc. | Emoji word sense disambiguation |
US10303715B2 (en) | 2017-05-16 | 2019-05-28 | Apple Inc. | Intelligent automated assistant for media exploration |
US20180336892A1 (en) | 2017-05-16 | 2018-11-22 | Apple Inc. | Detecting a trigger of a digital assistant |
US10403278B2 (en) | 2017-05-16 | 2019-09-03 | Apple Inc. | Methods and systems for phonetic matching in digital assistant services |
US10657328B2 (en) | 2017-06-02 | 2020-05-19 | Apple Inc. | Multi-task recurrent neural network architecture for efficient morphology handling in neural language modeling |
US10445429B2 (en) | 2017-09-21 | 2019-10-15 | Apple Inc. | Natural language understanding using vocabularies with compressed serialized tries |
CN107452369B (en) * | 2017-09-28 | 2021-03-19 | 百度在线网络技术(北京)有限公司 | Method and device for generating speech synthesis model |
US10755051B2 (en) | 2017-09-29 | 2020-08-25 | Apple Inc. | Rule-based natural language processing |
US10600404B2 (en) * | 2017-11-29 | 2020-03-24 | Intel Corporation | Automatic speech imitation |
US10636424B2 (en) | 2017-11-30 | 2020-04-28 | Apple Inc. | Multi-turn canned dialog |
US10733982B2 (en) | 2018-01-08 | 2020-08-04 | Apple Inc. | Multi-directional dialog |
US10733375B2 (en) | 2018-01-31 | 2020-08-04 | Apple Inc. | Knowledge-based framework for improving natural language understanding |
US10789959B2 (en) | 2018-03-02 | 2020-09-29 | Apple Inc. | Training speaker recognition models for digital assistants |
US10592604B2 (en) | 2018-03-12 | 2020-03-17 | Apple Inc. | Inverse text normalization for automatic speech recognition |
US10818288B2 (en) | 2018-03-26 | 2020-10-27 | Apple Inc. | Natural assistant interaction |
US10909331B2 (en) | 2018-03-30 | 2021-02-02 | Apple Inc. | Implicit identification of translation payload with neural machine translation |
US10928918B2 (en) | 2018-05-07 | 2021-02-23 | Apple Inc. | Raise to speak |
US11145294B2 (en) | 2018-05-07 | 2021-10-12 | Apple Inc. | Intelligent automated assistant for delivering content from user experiences |
US10984780B2 (en) | 2018-05-21 | 2021-04-20 | Apple Inc. | Global semantic word embeddings using bi-directional recurrent neural networks |
US10892996B2 (en) | 2018-06-01 | 2021-01-12 | Apple Inc. | Variable latency device coordination |
DK180639B1 (en) | 2018-06-01 | 2021-11-04 | Apple Inc | DISABILITY OF ATTENTION-ATTENTIVE VIRTUAL ASSISTANT |
DK201870355A1 (en) | 2018-06-01 | 2019-12-16 | Apple Inc. | Virtual assistant operation in multi-device environments |
DK179822B1 (en) | 2018-06-01 | 2019-07-12 | Apple Inc. | Voice interaction at a primary device to access call functionality of a companion device |
US11386266B2 (en) | 2018-06-01 | 2022-07-12 | Apple Inc. | Text correction |
US10944859B2 (en) | 2018-06-03 | 2021-03-09 | Apple Inc. | Accelerated task performance |
US10706347B2 (en) | 2018-09-17 | 2020-07-07 | Intel Corporation | Apparatus and methods for generating context-aware artificial intelligence characters |
US11010561B2 (en) | 2018-09-27 | 2021-05-18 | Apple Inc. | Sentiment prediction from textual data |
US11170166B2 (en) | 2018-09-28 | 2021-11-09 | Apple Inc. | Neural typographical error modeling via generative adversarial networks |
US11462215B2 (en) | 2018-09-28 | 2022-10-04 | Apple Inc. | Multi-modal inputs for voice commands |
US10839159B2 (en) | 2018-09-28 | 2020-11-17 | Apple Inc. | Named entity normalization in a spoken dialog system |
US11475898B2 (en) | 2018-10-26 | 2022-10-18 | Apple Inc. | Low-latency multi-speaker speech recognition |
WO2020129422A1 (en) * | 2018-12-20 | 2020-06-25 | ソニー株式会社 | Information processing device, information processing method, and program |
CN109599092B (en) * | 2018-12-21 | 2022-06-10 | 秒针信息技术有限公司 | Audio synthesis method and device |
US11638059B2 (en) | 2019-01-04 | 2023-04-25 | Apple Inc. | Content playback on multiple devices |
KR102615154B1 (en) * | 2019-02-28 | 2023-12-18 | 삼성전자주식회사 | Electronic apparatus and method for controlling thereof |
US11348573B2 (en) | 2019-03-18 | 2022-05-31 | Apple Inc. | Multimodality in digital assistant systems |
CN109947955A (en) * | 2019-03-21 | 2019-06-28 | 深圳创维数字技术有限公司 | Voice search method, user equipment, storage medium and device |
DK201970509A1 (en) | 2019-05-06 | 2021-01-15 | Apple Inc | Spoken notifications |
US11307752B2 (en) | 2019-05-06 | 2022-04-19 | Apple Inc. | User configurable task triggers |
US11475884B2 (en) | 2019-05-06 | 2022-10-18 | Apple Inc. | Reducing digital assistant latency when a language is incorrectly determined |
US11423908B2 (en) | 2019-05-06 | 2022-08-23 | Apple Inc. | Interpreting spoken requests |
US11140099B2 (en) | 2019-05-21 | 2021-10-05 | Apple Inc. | Providing message response suggestions |
DK201970510A1 (en) | 2019-05-31 | 2021-02-11 | Apple Inc | Voice identification in digital assistant systems |
US11496600B2 (en) | 2019-05-31 | 2022-11-08 | Apple Inc. | Remote execution of machine-learned models |
DK180129B1 (en) | 2019-05-31 | 2020-06-02 | Apple Inc. | USER ACTIVITY SHORTCUT SUGGESTIONS |
US11289073B2 (en) | 2019-05-31 | 2022-03-29 | Apple Inc. | Device text to speech |
US11360641B2 (en) | 2019-06-01 | 2022-06-14 | Apple Inc. | Increasing the relevance of new available information |
KR102430020B1 (en) * | 2019-08-09 | 2022-08-08 | 주식회사 하이퍼커넥트 | Mobile and operating method thereof |
WO2021056255A1 (en) | 2019-09-25 | 2021-04-01 | Apple Inc. | Text detection using global geometry estimators |
CN111402857B (en) * | 2020-05-09 | 2023-11-21 | 广州虎牙科技有限公司 | Speech synthesis model training method and device, electronic equipment and storage medium |
US11038934B1 (en) | 2020-05-11 | 2021-06-15 | Apple Inc. | Digital assistant hardware abstraction |
JP7254114B2 (en) | 2020-12-18 | 2023-04-07 | ハイパーコネクト リミテッド ライアビリティ カンパニー | Speech synthesizer and method |
CN114120963B (en) * | 2021-11-25 | 2025-04-15 | 中国银行股份有限公司 | Synthesis method and device for English dubbing, storage medium and electronic device |
US11915714B2 (en) * | 2021-12-21 | 2024-02-27 | Adobe Inc. | Neural pitch-shifting and time-stretching |
Family Cites Families (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH0833744B2 (en) * | 1986-01-09 | 1996-03-29 | 株式会社東芝 | Speech synthesizer |
SG47708A1 (en) * | 1993-11-25 | 1998-04-17 | British Telecomm | Testing telecommunication apparatus |
WO1997005730A1 (en) * | 1995-07-27 | 1997-02-13 | British Telecommunications Public Limited Company | Assessment of signal quality |
US6366883B1 (en) * | 1996-05-15 | 2002-04-02 | Atr Interpreting Telecommunications | Concatenation of speech segments by use of a speech synthesizer |
AU772874B2 (en) * | 1998-11-13 | 2004-05-13 | Scansoft, Inc. | Speech synthesis using concatenation of speech waveforms |
US20030028380A1 (en) * | 2000-02-02 | 2003-02-06 | Freeland Warwick Peter | Speech system |
US20020120451A1 (en) * | 2000-05-31 | 2002-08-29 | Yumiko Kato | Apparatus and method for providing information by speech |
JP3593563B2 (en) | 2001-10-22 | 2004-11-24 | 独立行政法人情報通信研究機構 | Speech-based speech output device and software |
US7024362B2 (en) * | 2002-02-11 | 2006-04-04 | Microsoft Corporation | Objective measure for estimating mean opinion score of synthesized speech |
JP4264030B2 (en) * | 2003-06-04 | 2009-05-13 | 株式会社ケンウッド | Audio data selection device, audio data selection method, and program |
US7386451B2 (en) * | 2003-09-11 | 2008-06-10 | Microsoft Corporation | Optimization of an objective measure for estimating mean opinion score of synthesized speech |
WO2005071663A2 (en) * | 2004-01-16 | 2005-08-04 | Scansoft, Inc. | Corpus-based speech synthesis based on segment recombination |
JP2006018133A (en) * | 2004-07-05 | 2006-01-19 | Hitachi Ltd | Distributed speech synthesis system, terminal device and computer program |
JP4551803B2 (en) * | 2005-03-29 | 2010-09-29 | 株式会社東芝 | Speech synthesizer and program thereof |
US8036894B2 (en) * | 2006-02-16 | 2011-10-11 | Apple Inc. | Multi-unit approach to text-to-speech synthesis |
US20080059190A1 (en) * | 2006-08-22 | 2008-03-06 | Microsoft Corporation | Speech unit selection using HMM acoustic models |
-
2007
- 2007-01-30 JP JP2007019433A patent/JP2008185805A/en active Pending
-
2008
- 2008-01-22 CN CN2008100037617A patent/CN101236743B/en not_active Expired - Fee Related
- 2008-01-30 US US12/022,333 patent/US8015011B2/en active Active
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8650034B2 (en) | 2009-02-16 | 2014-02-11 | Kabushiki Kaisha Toshiba | Speech processing device, speech processing method, and computer program product for speech processing |
Also Published As
Publication number | Publication date |
---|---|
CN101236743B (en) | 2011-07-06 |
US20080183473A1 (en) | 2008-07-31 |
CN101236743A (en) | 2008-08-06 |
US8015011B2 (en) | 2011-09-06 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP2008185805A (en) | Technology for creating high quality synthesis voice | |
US12272350B2 (en) | Text-to-speech (TTS) processing | |
US11450313B2 (en) | Determining phonetic relationships | |
JP4247564B2 (en) | System, program, and control method | |
US8825486B2 (en) | Method and apparatus for generating synthetic speech with contrastive stress | |
US10692484B1 (en) | Text-to-speech (TTS) processing | |
US20160140953A1 (en) | Speech synthesis apparatus and control method thereof | |
US11763797B2 (en) | Text-to-speech (TTS) processing | |
JP2008134475A (en) | Technique for recognizing accent of input voice | |
US8626510B2 (en) | Speech synthesizing device, computer program product, and method | |
US8914291B2 (en) | Method and apparatus for generating synthetic speech with contrastive stress | |
US10699695B1 (en) | Text-to-speech (TTS) processing | |
KR20220096129A (en) | Speech synthesis system automatically adjusting emotional tone | |
CN113327574A (en) | Speech synthesis method, device, computer equipment and storage medium | |
JP5152588B2 (en) | Voice quality change determination device, voice quality change determination method, voice quality change determination program | |
JP4586615B2 (en) | Speech synthesis apparatus, speech synthesis method, and computer program | |
US11250837B2 (en) | Speech synthesis system, method and non-transitory computer readable medium with language option selection and acoustic models | |
JP3854593B2 (en) | Speech synthesis apparatus, cost calculation apparatus therefor, and computer program | |
Mahar et al. | WordNet based Sindhi text to speech synthesis system | |
Tian et al. | Modular design for Mandarin text-to-speech synthesis | |
Iso-Sipilä | Design and Implementation of a Speaker-Independent Voice Dialing System: A Multi-Lingual Approach |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A711 | Notification of change in applicant |
Free format text: JAPANESE INTERMEDIATE CODE: A711 Effective date: 20090930 |