JP4551803B2 - Speech synthesizer and program thereof - Google Patents
Speech synthesizer and program thereof Download PDFInfo
- Publication number
- JP4551803B2 JP4551803B2 JP2005096526A JP2005096526A JP4551803B2 JP 4551803 B2 JP4551803 B2 JP 4551803B2 JP 2005096526 A JP2005096526 A JP 2005096526A JP 2005096526 A JP2005096526 A JP 2005096526A JP 4551803 B2 JP4551803 B2 JP 4551803B2
- Authority
- JP
- Japan
- Prior art keywords
- speech
- power information
- units
- unit
- representative
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Lifetime
Links
- 230000015572 biosynthetic process Effects 0.000 claims abstract description 163
- 238000003786 synthesis reaction Methods 0.000 claims abstract description 149
- 238000003860 storage Methods 0.000 claims abstract description 83
- 238000012937 correction Methods 0.000 claims description 21
- 238000009826 distribution Methods 0.000 claims description 9
- 238000012986 modification Methods 0.000 abstract description 6
- 230000004048 modification Effects 0.000 abstract description 6
- 239000011295 pitch Substances 0.000 description 73
- 230000004927 fusion Effects 0.000 description 64
- 238000000034 method Methods 0.000 description 51
- 238000012545 processing Methods 0.000 description 32
- 230000006870 function Effects 0.000 description 19
- 230000008569 process Effects 0.000 description 19
- 238000001308 synthesis method Methods 0.000 description 9
- 238000001228 spectrum Methods 0.000 description 7
- 238000010586 diagram Methods 0.000 description 6
- 238000007500 overflow downdraw method Methods 0.000 description 5
- 238000012935 Averaging Methods 0.000 description 4
- 238000002360 preparation method Methods 0.000 description 4
- 230000015556 catabolic process Effects 0.000 description 3
- 230000008859 change Effects 0.000 description 3
- 230000002950 deficient Effects 0.000 description 3
- 238000006731 degradation reaction Methods 0.000 description 3
- 230000006866 deterioration Effects 0.000 description 3
- 238000007499 fusion processing Methods 0.000 description 3
- 238000005520 cutting process Methods 0.000 description 2
- 230000000877 morphologic effect Effects 0.000 description 2
- 238000010187 selection method Methods 0.000 description 2
- 230000003595 spectral effect Effects 0.000 description 2
- 241000357297 Atypichthys strigatus Species 0.000 description 1
- MQJKPEGWNLWLTK-UHFFFAOYSA-N Dapsone Chemical compound C1=CC(N)=CC=C1S(=O)(=O)C1=CC=C(N)C=C1 MQJKPEGWNLWLTK-UHFFFAOYSA-N 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 239000002131 composite material Substances 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 230000008451 emotion Effects 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 239000012634 fragment Substances 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 230000000737 periodic effect Effects 0.000 description 1
- 238000011002 quantification Methods 0.000 description 1
- 230000029058 respiratory gaseous exchange Effects 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 230000005236 sound signal Effects 0.000 description 1
- 230000002194 synthesizing effect Effects 0.000 description 1
- 230000001131 transforming effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/06—Elementary speech units used in speech synthesisers; Concatenation rules
- G10L13/07—Concatenation rules
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Machine Translation (AREA)
- Mobile Radio Communication Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
Description
本発明は、テキスト音声合成のための音声合成装置及びその方法に係り、特に音韻系列と、基本周波数及び音韻継続時間長などの韻律情報から音声信号を生成する音声合成装置及びその方法に関する。 The present invention relates to a speech synthesis apparatus and method for text-to-speech synthesis, and more particularly to a speech synthesis apparatus and method for generating a speech signal from a phoneme sequence, prosodic information such as a fundamental frequency and a phoneme duration.
任意の文章から人工的に音声信号を作り出すことを「テキスト音声合成」という。テキスト音声合成は、一般的に言語処理部、韻律処理部及び音声合成部の3つの段階によって行われる。 Artificially creating speech signals from arbitrary sentences is called “text-to-speech synthesis”. Text-to-speech synthesis is generally performed in three stages: a language processing unit, a prosody processing unit, and a speech synthesis unit.
入力されたテキストは、まず言語処理部において形態素解析や構文解析などが行われ、次に韻律処理部においてアクセントやイントネーションの処理が行われて、音韻系列・韻律情報(基本周波数、音韻継続時間長など)が出力される。最後に、音声信号合成部で音韻系列・韻律情報から音声波形を合成する。 The input text is first subjected to morphological analysis and syntactic analysis in the language processing unit, and then subjected to accent and intonation processing in the prosody processing unit, and phoneme sequence / prosodic information (basic frequency, phoneme duration length) Etc.) is output. Finally, the speech waveform is synthesized from the phoneme sequence / prosodic information by the speech signal synthesis unit.
音声合成方法の一つとして、入力された音韻系列・韻律情報を目標にして、大量の音声素片から音声素片系列を選択して合成する素片選択型の音声合成方法がある。素片選択型の音声合成は、予め記憶された大量の音声素片のなかから、入力された音韻系列・韻律情報に基づき音声素片を選択する。素片選択手法としては、音声を合成することで生じる合成音声の歪みの度合いをコスト関数として定義し、コストが小さくなるように素片系列を選択する方法がある。例えば、目標とする音声と各音声素片との韻律・音韻環境等の差異を表す目標歪み、音声素片を接続することで生じる接続歪をコストとして数値化し、このコストに基づいて音声合成に使用する音声素片系列を選択し、選ばれた音声素片系列に基づいて合成音声を生成する方法が用いられる。素片選択型の音声合成は、大量の音声素片から適切な音声素片系列を選択することにより、素片の編集及び接続における音質の劣化を抑えた合成音声を得ることができる。 As one of speech synthesis methods, there is a unit selection type speech synthesis method that selects and synthesizes a speech unit sequence from a large number of speech units with the target phoneme sequence / prosodic information as a target. In the unit selection type speech synthesis, a speech unit is selected from a large number of speech units stored in advance based on input phoneme series / prosodic information. As a unit selection method, there is a method in which the degree of distortion of synthesized speech generated by synthesizing speech is defined as a cost function and a unit sequence is selected so as to reduce the cost. For example, the target distortion that represents the difference between the target speech and each speech segment, such as the prosody and phonological environment, and the connection distortion generated by connecting speech segments are quantified as costs, and speech synthesis is performed based on this cost. A method is used in which a speech unit sequence to be used is selected, and a synthesized speech is generated based on the selected speech unit sequence. In the unit selection type speech synthesis, by selecting an appropriate speech unit sequence from a large number of speech units, it is possible to obtain a synthesized speech in which deterioration of sound quality in the editing and connection of the unit is suppressed.
また、入力された音韻系列・韻律情報を目標にして、入力音韻系列を区切ることにより得られる各合成単位に対して、合成音声の歪みの度合いに基づいて複数の音声素片を選択し、選択された複数の音声素片を融合することによって新たな音声素片を生成し、それらを接続して音声を合成する複数素片選択型の音声合成方法がある(非特許文献1参照)。 In addition, for each synthesis unit obtained by dividing the input phoneme sequence with the target phoneme sequence / prosodic information as a target, a plurality of speech segments are selected and selected based on the degree of distortion of the synthesized speech There is a multi-unit selection type speech synthesis method in which a new speech unit is generated by fusing a plurality of speech units and the speech is synthesized by connecting them (see Non-Patent Document 1).
融合方法としては、例えばピッチ波形を平均化する方法が用いられる。これにより、素片選択型の音声合成器において生じる、目標としている音韻系列・韻律情報と選択された音声素片系列とのミスマッチによる音質劣化や素片接続のミスマッチによる音質劣化が低減し、肉声感を保持したまま合成音声の安定性を高めることができる。 As the fusion method, for example, a method of averaging pitch waveforms is used. This reduces sound quality degradation caused by mismatch between the target phoneme sequence / prosodic information and the selected speech unit sequence, and sound quality degradation caused by unit connection mismatch. The stability of the synthesized speech can be improved while maintaining the feeling.
また、合成音声のパワー制御を行う方法として、音声素片を音素境界で分割し、各部分素片毎にパワーを推定し、推定パワーに基づいて音声素片のパワーを変更する音声合成方法が開示されている(特許文献1参照)。パワー推定工程は、数量化I類の係数等、事前に用意したパラメータを用いてパワーを生成する。
素片選択型音声合成器では、大量の音声素片の中から、コスト関数により選択された音声素片を選択するが、そのパワーは適切であるとは限らない。このため、パワーの不連続が知覚され、合成音声の品質を低下させる要因となっていた。また、複数素片選択型音声合成器においては、融合する素片数を増加させると合成音声のパワーは安定する反面、音質的な特徴の異なる多くの音声素片から融合音声素片を作成することになり、音質的な歪みが増す。さらに、素片融合の処理において、適切なパワーから大きく異なる音声素片を融合に用いることにより音質的な劣化が生じることがある。 In a unit selection type speech synthesizer, a speech unit selected by a cost function is selected from a large number of speech units, but its power is not always appropriate. For this reason, discontinuity of power is perceived, which has been a factor of reducing the quality of synthesized speech. In addition, in the multi-unit selection type speech synthesizer, if the number of units to be fused is increased, the power of synthesized speech becomes stable, but a fused speech unit is created from many speech units having different sound quality characteristics. As a result, sound quality distortion increases. Further, in the process of unit fusion, sound quality may be deteriorated by using speech units that are significantly different from appropriate powers for fusion.
パワー推定工程を持ち、事前に用意したパラメータを用いてパワー制御を行う音声合成方法では、大量の音声素片の持つパワーの情報を適切に反映したパワー制御を行うことは困難であり、パワーと音声素片とのミスマッチが起こる可能性がある。 With a speech synthesis method that has a power estimation process and performs power control using parameters prepared in advance, it is difficult to perform power control that appropriately reflects the power information of a large number of speech segments. Mismatches with speech segments can occur.
本発明は、上記問題点に鑑み、素片選択型もしくは、複数素片選択型の音声合成において、大規模な音声素片のパワー情報を適切に反映し、各音声区間における音声素片のパワーが自然で安定したものとなる高品質な音声合成が実現できる音声合成装置及びその方法を提供することを目的とする。 In view of the above problems, the present invention appropriately reflects power information of a large-scale speech unit in speech selection of a unit selection type or a multiple unit selection type, and the power of the speech unit in each speech section. An object of the present invention is to provide a speech synthesizer capable of realizing high-quality speech synthesis that is natural and stable, and a method thereof.
請求項1に係る発明は、入力されたテキストから得られる音韻系列を所定の合成単位に区切り、これら合成単位毎に代表音声素片を得て、これら代表音声素片を接続することによって合成音声を生成する音声合成装置において、前記合成単位に対応する複数の音声素片を記憶する記憶手段と、前記入力されたテキストから得られる音韻系列の各合成単位に対し、前記合成音声の歪みの度合いに基づいて、前記記憶手段に記憶された音声素片から複数の音声素片を選択する選択手段と、前記選択された複数の音声素片からパワー情報の統計量を求め、前記パワー情報の統計量に基づいて前記合成音声の品質が上がるように前記パワー情報を補正して、前記合成単位に対応する代表音声素片を生成する代表音声素片生成手段と、前記生成された代表音声素片を接続することにより音声波形を生成する音声波形生成手段と、を備え、前記選択手段においてはN個及びM個(N<M)の音声素片をそれぞれ選択し、前記代表音声素片生成手段においては、前記選択されたM個の音声素片からパワー情報の平均値を求め、前記選択されたN個の音声素片を融合することにより融合音声素片を作成し、前記融合音声素片のパワー情報が、前記M個の音声素片から求めたパワー情報の平均値となるように補正して前記代表音声素片を生成することを特徴とする音声合成装置である。
請求項2に係る発明は、入力されたテキストから得られる音韻系列を所定の合成単位に区切り、これら合成単位毎に代表音声素片を得て、これら代表音声素片を接続することによって合成音声を生成する音声合成装置において、前記合成単位に対応する複数の音声素片を記憶する記憶手段と、前記入力されたテキストから得られる音韻系列の各合成単位に対し、前記合成音声の歪みの度合いに基づいて、前記記憶手段に記憶された音声素片から複数の音声素片を選択する選択手段と、前記選択された複数の音声素片からパワー情報の統計量を求め、前記パワー情報の統計量に基づいて前記合成音声の品質が上がるように前記パワー情報を補正して、前記合成単位に対応する代表音声素片を生成する代表音声素片生成手段と、前記生成された代表音声素片を接続することにより音声波形を生成する音声波形生成手段と、を備え、前記選択手段においてはN個及びM個(N<M)の音声素片をそれぞれ選択し、前記代表音声素片生成手段においては、前記選択されたM個の音声素片からパワー情報の平均値を求め、前記選択されたN個の音声素片それぞれのパワー情報が、前記パワー情報の平均値となるように補正し、前記補正したN個の音声素片を融合することにより前記代表音声素片を生成することを特徴とする音声合成装置である。
請求項3に係る発明は、入力されたテキストから得られる音韻系列を所定の合成単位に区切り、これら合成単位毎に代表音声素片を得て、これら代表音声素片を接続することによって合成音声を生成する音声合成装置において、前記合成単位に対応する複数の音声素片を記憶する記憶手段と、前記入力されたテキストから得られる音韻系列の各合成単位に対し、前記合成音声の歪みの度合いに基づいて、前記記憶手段に記憶された音声素片から複数の音声素片を選択する選択手段と、前記選択された複数の音声素片からパワー情報の統計量を求め、前記パワー情報の統計量に基づいて前記合成音声の品質が上がるように前記パワー情報を補正して、前記合成単位に対応する代表音声素片を生成する代表音声素片生成手段と、前記生成された代表音声素片を接続することにより音声波形を生成する音声波形生成手段と、を備え、前記選択手段においてはN個及びM個(N<M)の音声素片をそれぞれ選択し、前記代表音声素片生成手段においては、前記選択されたM個の音声素片のパワー情報の平均値を求め、前記選択されたN個の音声素片のパワー情報の平均値を求め、前記N個の音声素片のパワー情報の平均値が前記M個の音声素片のパワー情報の平均値となるように補正するための補正値を求め、前記補正値を適用することにより前記N個の音声素片のそれぞれを補正し、前記補正したN個の音声素片を融合することにより前記代表音声素片を生成することを特徴とする音声合成装置である。
請求項4に係る発明は、入力されたテキストから得られる音韻系列を所定の合成単位に区切り、これら合成単位毎に代表音声素片を得て、これら代表音声素片を接続することによって合成音声を生成する音声合成装置において、前記合成単位に対応する複数の音声素片を記憶する記憶手段と、前記入力されたテキストから得られる音韻系列の各合成単位に対し、前記合成音声の歪みの度合いに基づいて、前記記憶手段に記憶された音声素片から複数の音声素片を選択する選択手段と、前記選択された複数の音声素片からパワー情報の統計量を求め、前記パワー情報の統計量に基づいて前記合成音声の品質が上がるように前記パワー情報を補正して、前記合成単位に対応する代表音声素片を生成する代表音声素片生成手段と、前記生成された代表音声素片を接続することにより音声波形を生成する音声波形生成手段と、を備え、前記選択手段においてはN個及びM個(N<M)の音声素片をそれぞれ選択し、前記代表音声素片生成手段においては、前記選択されたM個の音声素片からパワー情報の統計量を求め、前記選択されたN個の音声素片のパワー情報をそれぞれ求め、前記求めたパワー情報の統計量及び前記N個の音声素片のパワー情報に基づいて前記N個の音声素片それぞれの重みを決定し、前記重みに基づいてN個の音声素片を融合することにより前記代表音声素片を生成することを特徴とする音声合成装置である。
請求項5に係る発明は、入力されたテキストから得られる音韻系列を所定の合成単位に区切り、これら合成単位毎に代表音声素片を得て、これら代表音声素片を接続することによって合成音声を生成する音声合成装置において、前記合成単位に対応する複数の音声素片を記憶する記憶手段と、前記入力されたテキストから得られる音韻系列の各合成単位に対し、前記合成音声の歪みの度合いに基づいて、前記記憶手段に記憶された音声素片から複数の音声素片を選択する選択手段と、前記選択された複数の音声素片からパワー情報の統計量を求め、前記パワー情報の統計量に基づいて前記合成音声の品質が上がるように前記パワー情報を補正して、前記合成単位に対応する代表音声素片を生成する代表音声素片生成手段と、前記生成された代表音声素片を接続することにより音声波形を生成する音声波形生成手段と、を備え、前記選択手段においてはN個及びM個(N<M)の音声素片をそれぞれ選択し、前記代表音声素片生成手段においては、前記選択されたM個の音声素片のパワー情報の統計量から前記パワー情報の分布が所定確率以上になる区間、または、前記パワー情報の四分位範囲に基づいて区間を求め、前記選択されたN個の音声素片のパワー情報をそれぞれ求め、前記N個の音声素片のパワー情報が前記区間から外れる場合は前記選択すべき音声素片から除外し、前記選択されたN個の音声素片のうち前記区間内にある音声素片を融合することにより前記代表音声素片を生成することを特徴とする音声合成装置である。
請求項6に係る発明は、入力されたテキストから得られる音韻系列を所定の合成単位に区切り、これら合成単位毎に代表音声素片を得て、これら代表音声素片を接続することによって合成音声を生成する音声合成装置において、前記合成単位に対応する複数の音声素片を記憶する記憶手段と、前記入力されたテキストから得られる音韻系列の各合成単位に対し、前記合成音声の歪みの度合いに基づいて、前記記憶手段に記憶された音声素片から複数の音声素片を選択する選択手段と、前記選択された複数の音声素片からパワー情報の統計量を求め、前記パワー情報の統計量に基づいて前記合成音声の品質が上がるように前記パワー情報を補正して、前記合成単位に対応する代表音声素片を生成する代表音声素片生成手段と、前記生成された代表音声素片を接続することにより音声波形を生成する音声波形生成手段と、を備え、前記選択手段においてはM個の音声素片及び前記合成音声の歪みの度合いが少ない最適な音声素片を選択し、前記代表音声素片生成手段においては、前記選択されたM個の音声素片からパワー情報の平均値を求め、前記最適な音声素片のパワー情報が、前記パワー情報の平均値となるように補正して前記代表音声素片を生成することを特徴とする音声合成装置である。
請求項7に係る発明は、入力されたテキストから得られる音韻系列を所定の合成単位に区切り、これら合成単位毎に代表音声素片を得て、これら代表音声素片を接続することによって合成音声を生成する音声合成装置において、前記合成単位に対応する複数の音声素片を記憶する記憶手段と、前記入力されたテキストから得られる音韻系列の各合成単位に対し、前記合成音声の歪みの度合いに基づいて、前記記憶手段に記憶された音声素片から複数の音声素片を選択する選択手段と、前記選択された複数の音声素片からパワー情報の統計量を求め、前記パワー情報の統計量に基づいて前記合成音声の品質が上がるように前記パワー情報を補正して、前記合成単位に対応する代表音声素片を生成する代表音声素片生成手段と、前記生成された代表音声素片を接続することにより音声波形を生成する音声波形生成手段と、を備え、前記選択手段においてはM個の音声素片を選択し、前記代表音声素片生成手段においては、前記選択されたM個の音声素片のパワー情報の統計量から前記パワー情報の分布が所定確率以上になる区間、または、前記パワー情報の四分位範囲に基づいて区間を求め、前記パワー情報の区間に含まれるパワー情報を有する音声素片の中から前記合成音声の歪みの度合いが少ない最適な音声素片を選択することにより前記代表音声素片を生成することを特徴とする音声合成装置である。
The invention according to
The invention according to
The invention according to
The invention according to
The invention according to
The invention according to claim 6 divides a phoneme sequence obtained from input text into predetermined synthesis units, obtains representative speech units for each synthesis unit, and connects these representative speech units to generate synthesized speech. And a degree of distortion of the synthesized speech with respect to each synthesis unit of a phoneme sequence obtained from the input text, and storage means for storing a plurality of speech segments corresponding to the synthesis unit A selection unit that selects a plurality of speech units from the speech units stored in the storage unit, and obtains a statistic of power information from the selected plurality of speech units, and the statistics of the power information Representative speech unit generation means for correcting the power information so as to improve the quality of the synthesized speech based on the amount and generating a representative speech unit corresponding to the synthesis unit, and the generated proxy Speech waveform generation means for generating a speech waveform by connecting speech segments, and the selection means selects M speech segments and an optimal speech segment with a low degree of distortion of the synthesized speech In the representative speech element generation means, an average value of power information is obtained from the selected M speech elements, and the power information of the optimal speech element becomes the average value of the power information. The speech synthesizer is characterized in that the representative speech segment is generated by correcting as described above.
The invention according to
本発明によれば、素片選択型・複数素片選択融合型どちらの方式においても、合成音声のパワーを安定化することができる。事前にパワーを推定し、制御する方法と比べた場合、大規模な音声素片のなかからコスト関数に基づいて複数の素片を選択して平均パワーを生成するため、大規模な音声素片のパワー情報を適切に反映した合成音声を得ることができる。 According to the present invention, the power of synthesized speech can be stabilized in both the unit selection type and the multiple unit selection fusion type. Compared with the method of estimating and controlling power in advance, a large-scale speech unit is selected because multiple units are selected from a large-scale speech unit based on a cost function and average power is generated. It is possible to obtain synthesized speech that appropriately reflects the power information.
また、パワー情報に基づく素片融合時の重み付け、もしくは不良素片の除去を行うことができ、音質を向上することができる。これらの結果により、音質を保ちつつ安定したパワーとなり、より自然な合成音声が得られる。 Moreover, weighting at the time of unit fusion based on power information or removal of defective units can be performed, and sound quality can be improved. As a result, the sound becomes stable while maintaining the sound quality, and a more natural synthesized speech can be obtained.
本発明の実施形態では、入力されたテキストから得られる音韻系列を所定の合成単位に区切り、これら合成単位毎に代表音声素片を得て、これら代表音声素片を接続することによって合成音声を生成する音声合成装置において、前記合成単位に対応する複数の音声素片を記憶する記憶手段と、前記入力されたテキストから得られる音韻系列の各合成単位に対し、前記合成音声の歪みの度合いに基づいて、前記記憶手段に記憶された音声素片から複数の音声素片を選択する選択手段と、前記複数の音声素片からパワー情報の統計量を求め、前記パワー情報の統計量に基づいて前記合成音声の品質が上がるように前記パワー情報を補正して、前記合成単位に対応する代表音声素片を生成する代表音声素片生成手段と、前記生成された代表音声素片を接続することにより音声波形を生成する音声波形生成手段と、を備える。かかる構成により、合成音声を生成する際に、各音声区間において音声素片群から選択した複数の音声素片のパワー情報の統計量を用いて音声素片を補正することになり、大規模な音声素片のパワー情報を適切に反映した合成音声を得ることができる。 In an embodiment of the present invention, a phoneme sequence obtained from input text is divided into predetermined synthesis units, representative speech segments are obtained for each synthesis unit, and synthesized speech is obtained by connecting these representative speech segments. In the generated speech synthesizer, a storage means for storing a plurality of speech segments corresponding to the synthesis unit and a degree of distortion of the synthesized speech for each synthesis unit of a phoneme sequence obtained from the input text Based on the selection unit for selecting a plurality of speech units from the speech unit stored in the storage unit, and obtaining statistics of power information from the plurality of speech units, and based on the statistics of the power information Representative speech segment generation means for correcting the power information so as to improve the quality of the synthesized speech and generating a representative speech segment corresponding to the synthesis unit; and the generated representative speech segment And a speech waveform generation means for generating a speech waveform by connecting. With this configuration, when generating synthesized speech, the speech unit is corrected using the statistic of the power information of a plurality of speech units selected from the speech unit group in each speech segment. A synthesized speech that appropriately reflects the power information of the speech unit can be obtained.
また、前記選択手段においてはN個及びM個(N=<M)の音声素片をそれぞれ選択し、前記代表音声素片生成手段においては、前記選択されたM個の音声素片からパワー情報の平均値を求め、前記選択されたN個の音声素片を融合することにより融合音声素片を作成し、前記融合音声素片のパワー情報が、前記M個の音声素片から求めたパワー情報の平均値となるように補正して前記代表音声素片を生成する。かかる構成により、複数素片選択・融合型音声合成方式において、素片融合に用いる音声素片数はN個に制限することで音質を保ち、かつ、より多くのM個の音声素片の平均パワーを用いて補正することにより、融合音声素片のパワーは安定し、自然な合成音声が得られる。 The selecting means selects N and M (N = <M) speech segments, respectively, and the representative speech segment generating means selects power information from the selected M speech segments. , The fused N speech units are created by fusing the selected N speech units, and the power information of the fused speech units is the power obtained from the M speech units. The representative speech segment is generated by correcting it to be an average value of information. With this configuration, in the multiple unit selection / fusion type speech synthesis method, the number of speech units used for unit fusion is limited to N to maintain sound quality, and an average of more M speech units. By correcting using the power, the power of the fused speech unit is stabilized and a natural synthesized speech can be obtained.
また、前記選択手段においてはM個の音声素片及び、最適な音声素片を選択し、前記代表音声素片生成手段においては、前記選択されたM個の音声素片からパワー情報の平均値を求め、前記最適な音声素片のパワー情報が、前記M個の音声素片から求めたパワー情報の平均値となるように音声素片を補正することにより代表音声素片を生成する。かかる構成により、素片選択型音声合成方式において、複数のM個の音声素片の平均パワーを用いて選択された最適音声素片を補正し、補正した音声を接続するため、高い音質を保ったまま合成音声のパワーが安定する。 The selection unit selects M speech units and the optimum speech unit, and the representative speech unit generation unit selects an average value of power information from the selected M speech units. And the representative speech unit is generated by correcting the speech unit so that the power information of the optimum speech unit becomes an average value of the power information obtained from the M speech units. With this configuration, in the unit selection type speech synthesis method, the optimum speech unit selected using the average power of a plurality of M speech units is corrected, and the corrected speech is connected, so that high sound quality is maintained. The power of synthesized speech is stabilized.
また、前記選択手段においてはN個及びM個(N=<M)の音声素片を選択し、前記代表音声素片生成手段においては、前記選択されたM個の音声素片からパワー情報の統計量を求め、前記選択されたN個の音声素片それぞれのパワー情報を求め、前記M個の音声素片から求めたパワー情報の統計量に基づいて前記N個の音声素片それぞれの重みを決定し、前記重みに基づいてN個の音声素片を融合することにより代表音声素片を生成する。かかる構成により、複数素片選択・融合型音声合成方式において、素片融合に用いる各音声素片のパワーが、より多くのM個の音声素片の平均パワーから離れるほど、融合時の重みが小さくなる。これにより、融合音声素片の品質が向上し、高品質な合成音声が得られる。 The selection unit selects N and M (N = <M) speech units, and the representative speech unit generation unit generates power information from the selected M speech units. A statistic is obtained, power information of each of the selected N speech units is obtained, and a weight of each of the N speech units is determined based on a statistic of power information obtained from the M speech units. And a representative speech unit is generated by fusing N speech units based on the weights. With such a configuration, in the multiple unit selection / fusion type speech synthesis method, the power of each speech unit used for unit fusion is farther from the average power of more M speech units, so that the weight at the time of fusion is higher. Get smaller. As a result, the quality of the fused speech unit is improved and a high-quality synthesized speech can be obtained.
また、前記選択手段においてはN個及びM個(N=<M)の音声素片を選択し、前記代表音声素片生成手段においては、前記選択されたM個の音声素片のパワー情報の統計量から区間を求め、前記選択されたN個の音声素片それぞれのパワー情報を求め、N個の音声素片それぞれのパワー情報が前記区間から外れる場合は外れ値として選択素片から除外し、前記外れ値を除外した音声素片を融合することにより代表音声素片を生成する。かかる構成により、複数素片選択・融合型音声合成方式において、素片融合に用いる各音声素片のパワーが、より多くのM個の音声素片の平均パワーから大きくずれる不良素片を除去することになり、不良素片を除いて素片融合を行うことにより融合音声素片の品質が向上し、高品質な合成音声が得られる。 The selection means selects N and M (N = <M) speech segments, and the representative speech segment generation means selects power information of the selected M speech segments. A section is obtained from statistics, power information of each of the selected N speech units is obtained, and when power information of each of the N speech units is out of the section, it is excluded from the selected unit as an outlier. The representative speech unit is generated by fusing speech units excluding the outlier. With this configuration, in the multiple unit selection / fusion type speech synthesis method, defective units in which the power of each speech unit used for unit fusion deviates greatly from the average power of more M speech units are removed. In other words, by performing the unit fusion by removing the defective unit, the quality of the fused speech unit is improved, and a high-quality synthesized speech can be obtained.
また、N個の音声素片を融合した融合音声素片のパワー情報が、複数のM個の音声素片から求めたパワー情報の平均値より大きい場合のみ、融合音声素片のパワー情報が前記パワー情報の平均値となるように融合音声素片を補正する。かかる構成により、パワー情報が小さくなる方向にのみ補正するため、融合音声素片にノイズ成分が含まれている場合においても、それを増幅してしまう可能性がなくなり、パワーの補正に起因する音質劣化を避けることができる。 Also, only when the power information of the fused speech unit obtained by fusing N speech units is larger than the average value of the power information obtained from a plurality of M speech units, the power information of the fused speech unit is The fusion speech unit is corrected so that the average value of the power information is obtained. With this configuration, correction is made only in the direction in which the power information is reduced, so that even if the fusion speech unit contains a noise component, there is no possibility of amplifying it, and sound quality resulting from power correction is eliminated. Degradation can be avoided.
以下、図面を参照して本発明の具体的な実施形態を説明する。 Hereinafter, specific embodiments of the present invention will be described with reference to the drawings.
[第1の実施形態]
第1の実施形態のテキスト音声合成装置について説明する。
[First Embodiment]
A text-to-speech synthesizer according to a first embodiment will be described.
[1]テキスト音声合成装置の構成
図1は、本発明の第1の実施形態に係るテキスト音声合成装置の構成を示すブロック図である。
[1] Configuration of Text-to-Speech Synthesizer FIG. 1 is a block diagram showing a configuration of a text-to-speech synthesizer according to the first embodiment of the present invention.
このテキスト音声合成装置はテキスト入力部11、言語処理部12、韻律処理部13、音声合成部14、音声波形出力部15から構成される。
This text-to-speech synthesizer includes a
言語処理部12は、テキスト入力部11から入力されるテキストの形態素解析・構文解析を行い、その結果を韻律処理部13へ送る。
The
韻律処理部13は、言語解析結果からアクセントやイントネーションの処理を行い、音韻系列(音韻記号列)及び韻律情報を生成し、音声合成部14へ送る。
The
音声合成部14は、音韻系列及び韻律情報から音声波形を生成する。こうして生成された音声波形は音声波形出力部15で出力される。
The
[2]音声合成部14の構成
図2は、図1の音声合成部14の構成例を示すブロック図である。
[2] Configuration of
図2において、音声合成部14は、音声素片記憶部21、音素環境記憶部22、音韻系列・韻律情報入力部23、複数音声素片選択部24、融合音声素片系列作成部25、融合音声素片編集・接続部26により構成される。
In FIG. 2, the
[2−1]音声素片記憶部21
音声素片記憶部21には音声素片が蓄積されており、それらの音素環境の情報(音素環境情報)が音素環境記憶部22に蓄積されている。
[2-1] Speech
Speech units are stored in the speech
音声素片記憶部21には、合成音声を生成する際に用いる音声の単位(合成単位)の音声素片が記憶されている。合成単位は、音素あるいは音素を分割したものの組み合わせであり、例えば、半音素、音素(C、V)、ダイフォン(CV、VC、VV)、トライフォン(CVC、VCV)、音節(CV、V)、などであり(Vは母音、Cは子音を表す)、これらが混在しているなど可変長であってもよい。
The speech
音声素片の音素環境とは、当該音声素片にとっての環境となる要因に対応する情報である。要因としては、例えば、当該音声素片の音素名、先行音素、後続音素、後々続音素、基本周波数、音韻継続時間長、ストレスの有無、アクセント核からの位置、息継ぎからの時間、発声速度、感情などがある。 The phoneme environment of a speech unit is information corresponding to a factor that is an environment for the speech unit. Factors include, for example, the phoneme name of the speech unit, the preceding phoneme, the subsequent phoneme, the subsequent phoneme, the fundamental frequency, the phoneme duration, the presence or absence of stress, the position from the accent core, the time from breathing, the utterance speed, There are emotions.
[2−2]音韻系列・韻律情報入力部23
音韻系列・韻律情報入力部23には、韻律処理部13から出力された入力テキストに対応する音韻系列及び韻律情報が入力される。音韻系列・韻律情報入力部23に入力される韻律情報としては、基本周波数、音韻継続時間長などがある。
[2-2] Phoneme sequence / prosodic
The phoneme sequence / prosodic
以下、音韻系列・韻律情報入力部23に入力される音韻系列と韻律情報を、それぞれ「入力音韻系列」、「入力韻律情報」と呼ぶ。入力音韻系列は、例えば音韻記号の系列である。
Hereinafter, the phoneme sequence and the prosody information input to the phoneme sequence / prosodic
[2−3]複数音声素片選択部24
複数音声素片選択部24は、入力音韻系列の各合成単位に対し、入力韻律情報と、融合音声素片の音素環境に含まれる韻律情報とに基づいて合成音声の歪みの度合いを推定し、前記合成音声の歪みの度合いに基づいて音声素片記憶部21に記憶されている音声素片の中から、平均パワー情報を求めるための複数のM個の音声素片及び、融合素片を求めるための複数のN個(N=<M)の音声素片を選択する。
[2-3] Multiple speech
The multiple speech
ここで、合成音声の歪みの度合いは、音素素片記憶部21に記憶されている音声素片の音素環境と音韻系列・韻律情報入力部23から送られる目標音素環境との違いに基づく歪みである目標コストと、接続する音声素片間の音素環境の違いに基づく歪みである接続コストの重み付け和として求められる。
Here, the degree of distortion of the synthesized speech is a distortion based on the difference between the phoneme environment of the speech unit stored in the phoneme
すなわち、目標コストとは、音声素片記憶部21に記憶されている音声素片を入力されたテキストの目標素片環境のもとで使用することによって生じる歪みであり、接続コストとは、接続する音声素変換の素片環境が不連続であることによって生じる歪みである。本実施形態においては、合成音声の歪みの度合いとして、後述するコスト関数を用いる。
That is, the target cost is distortion caused by using the speech unit stored in the speech
[2−4]融合音声素片系列作成部25
次に、融合音声素片系列作成部25において、選択された複数の素片を融合することにより、融合音声素片を生成する。音声素片の融合は例えば、後述するようにピッチ波形を平均化することにより作成することができる。この融合音声素片系列作成部25において、選択された複数のM個の音声素片の平均パワー情報を求め、N個の音声素片を融合し、生成した融合音声素片のパワー情報を、前記M個の音声素片の平均パワー情報となるように補正する。その結果、入力音韻系列の音韻記号の系列に対応するパワー情報の補正された融合音声素片の系列が得られる。融合音声素片の系列は、融合音声素片編集・接続部26において、入力韻律情報に基づいて変形及び接続され、合成音声の音声波形が生成される。こうして生成された音声波形は音声波形出力部15で出力される。
[2-4] Fusion speech unit
Next, the fused speech element
なお、「パワー情報」とは、音声波形の平均二乗値もしくは平均絶対振幅値である。 The “power information” is the mean square value or the mean absolute amplitude value of the speech waveform.
[3]音声合成部14の各処理
以下、音声合成部14の各処理について詳しく説明する。
[3] Each process of the
ここでは、合成単位の音声素片は音素であるとする。 Here, it is assumed that the speech unit of the synthesis unit is a phoneme.
[3−1]音声素片記憶部21
音声素片記憶部21には、図3に示すように、各音素の音声信号の音声波形が当該音素を識別するための音声素片番号と共に記憶されている。また、音素環境記憶部22には、図4に示すように、音声素片記憶部21に記憶されている各音声素片の音素環境情報が、当該音素の素片番号に対応付けて記憶されている。ここでは、音素環境として、音素記号(音素名)、基本周波数、音韻継続長、接続境界ケプストラムが記憶されている。
[3-1] Speech
As shown in FIG. 3, the speech
なお、ここでは音声素片は音素単位としているが、半音素、ダイフォン、トライフォン、音節あるいはこれらの組み合わせや可変長であっても上記同様である。 Here, although the speech unit is a phoneme unit, the same applies to a semiphoneme, a diphone, a triphone, a syllable, or a combination or variable length thereof.
音声素片記憶部21に記憶されている各音声素片は、別途収集された多数の音声データ対して音素毎にラベリングを行い、音素毎に音声波形を切り出したものを、音声素片として蓄積したものである。例えば、図5には、音声データ51に対し、音素毎にラベリングを行った結果を示している。図5では、ラベル境界52により区切られた各音素の音声データ(音声波形)について、ラベルデータ53として音素記号を付与している。なお、この音声データから、各音素についての音素環境の情報(例えば、音韻(この場合、音素名(音素記号))、基本周波数、音韻継続時間長など)も抽出する。このようにして音声データ51から求めた各音声波形と、当該音声波形に対応する音素環境の情報には、同じ素片番号が与えられて、図3及び図4に示すように、音声素片記憶部21と音素環境記憶部22にそれぞれ記憶される。ここでは、音素環境情報には、音声素片の音韻とその基本周波数及び音韻継続時間長を含むものとする。
Each speech unit stored in the speech
[3−2]複数音声素片選択部24
次に、複数音声素片選択部24に説明する。
[3-2] Multiple speech
Next, the multiple speech
[3−2−1]コスト関数
まず、複数音声素片選択部24において素片系列を求める際に用いられるコスト関数について説明する。
[3-2-1] Cost Function First, a cost function used when the multiple speech
音声素片を変形・接続して合成音声を生成する際に生ずる歪の要因毎にサブコスト関数Cn(ui、ui−1、ti)(n:1,…,N、Nはサブコスト関数の数)を定める。ここで、tiは、入力音韻系列及び入力韻律情報に対応する目標とする音声(目標音声)をt=(t1、…、tI)としたときのi番目のセグメントに対応する部分の音声素片の目標とする音素環境情報を表し、uiは音声素片記憶部21に記憶されている音声素片のうち、tiと同じ音韻の音声素片を表す。
Sub cost functions C n (u i , u i−1 , t i ) (n: 1,..., N, N are sub costs for each factor of distortion generated when speech units are deformed and connected to generate synthesized speech Number of functions). Here, t i is a portion corresponding to the i-th segment when the target speech (target speech) corresponding to the input phoneme sequence and the input prosodic information is t = (t 1 ,..., T I ). The target phoneme environment information of the speech unit is represented, and u i represents the speech unit having the same phoneme as t i among the speech units stored in the speech
サブコスト関数は、音声素片記憶部21に記憶されている音声素片を用いて合成音声を生成したときに生ずる当該合成音声の目標音声に対する歪みの度合いを推定するためのコストを算出するためのものである。
The sub-cost function is used to calculate a cost for estimating the degree of distortion of the synthesized speech with respect to the target speech that occurs when the synthesized speech is generated using the speech units stored in the speech
当該コストを算出するために、当該音声素片を使用することによって生じる合成音声の目標音声に対する歪みの度合いを推定する「目標コスト」と、当該音声素片を他の音声素片と接続したときに生じる当該合成音声の目標音声に対する歪みの度合いを推定する「接続コスト」という2種類のサブコストがある。 In order to calculate the cost, a “target cost” that estimates the degree of distortion of the synthesized speech generated by using the speech unit with respect to the target speech, and the speech unit is connected to another speech unit There are two types of sub-costs called “connection costs” for estimating the degree of distortion of the synthesized speech with respect to the target speech.
目標コストとしては、音声素片記憶部21に記憶されている音声素片の基本周波数と目標の基本周波数との違い(差)を表す基本周波数コスト、音声素片の音韻継続時間長と目標の音韻継続時間長との違い(差)を表す音韻継続時間長コストを用いる。
The target cost includes a basic frequency cost representing the difference (difference) between the basic frequency of the speech unit stored in the speech
接続コストとしては、接続境界でのスペクトルの違い(差)を表すスペクトル接続コストを用いる。具体的には、基本周波数コストは、
から算出する。ここで、viは音声素片記憶部21に記憶されている音声素片uiの音素環境を、fは音素環境viから平均基本周波数を取り出す関数を表す。また、音韻継続時間長コストは、
から算出する。ここで、gは音素環境viから音韻継続時間長を取り出す関数を表す。スペクトル接続コストは、2つの音声素片間のケプストラム距離:
から算出する。ここで、hは音声素片uiの接続境界のケプストラム係数をベクトルとして取り出す関数を表す。これらのサブコスト関数の重み付き和を合成単位コスト関数と定義する:
ここで、wnはサブコスト関数の重みを表す。本実施形態では、簡単のため、wnはすべて「1」とする。上記式(4)は、ある合成単位に、ある音声素片を当てはめた場合の当該音声素片の合成単位コストである。 Here, w n represents the weight of the sub cost function. In the present embodiment, for the sake of simplicity, all w n is set to "1". The above formula (4) is the synthesis unit cost of the speech unit when a speech unit is applied to a synthesis unit.
入力音韻系列を合成単位で区切ることにより得られる複数のセグメントのそれぞれに対し、上記式(4)から合成単位コストを算出した結果を、全セグメントについて足し合わせたものをコストと呼び、当該コストを算出するためのコスト関数を次式(5)に示すように定義する:
[3−2−2]素片選択処理
複数音声素片選択部24では、上記式(1)〜(5)に示したコスト関数を使って2段階で1セグメント当たり(すなわち、1合成単位当たり)複数の音声素片を選択する。
[3-2-2] Unit Selection Processing The multiple speech
図6は、素片選択処理を説明するためのフローチャートである。 FIG. 6 is a flowchart for explaining the segment selection process.
まず、1段階目の素片選択として、ステップS61では、音声素片記憶部21に記憶されている音声素片群の中から、上記式(5)で算出されるコストの値が最小の音声素片の系列を求める。このコストが最小となる音声素片の組み合わせを最適素片系列と呼ぶこととする。すなわち、最適音声素片系列中の各音声素片は、入力音韻系列を合成単位で区切ることにより得られる複数のセグメントのそれぞれに対応し、最適音声素片系列中の各音声素片から算出された上記合成単位コストと式(5)より算出されたコストの値は、他のどの音声素片系列よりも小さい値である。なお、最適素片系列の探索には、動的計画法(DP:dynamic programming)を用いることでより効率的に行うことができる。
First, as a first-stage unit selection, in step S61, the voice having the smallest cost value calculated by the above equation (5) from the speech unit group stored in the speech
次に、ステップS62に進み、2段階目の素片選択では、最適素片系列を用いて、1セグメント当たり複数の音声素片を選ぶ。ここでは、セグメントの数をJ個とし、セグメント当たり、平均パワー情報を求めるためのM個の音声素片と、素片融合に用いるためのN個の音声素片を選択することとして、ステップS62の詳細を説明する。 Next, proceeding to step S62, in the second stage segment selection, a plurality of speech segments are selected per segment using the optimum segment sequence. Here, it is assumed that the number of segments is J, M speech units for obtaining average power information per segment, and N speech units for use in unit fusion are selected, and step S62 is performed. Details will be described.
[3−2−3]1セグメント当たり複数の音声素片を選ぶ方法
ステップS621からS623では、J個のセグメントのうちの1つを注目セグメントとする。ステップS621からS623はJ回繰り返され、J個のセグメントが1回ずつ注目セグメントとなるように処理を行う。
[3-2-3] Method of selecting a plurality of speech segments per segment In steps S621 to S623, one of the J segments is set as a target segment. Steps S621 to S623 are repeated J times, and processing is performed so that J segments become the target segment once.
まず、ステップS621では、注目セグメント以外のセグメントには、それぞれ最適素片系列の音声素片を固定する。この状態で、注目セグメントに対して音声素片記憶部21に記憶されている音声素片を式(5)のコストの値に応じて順位付けし、平均パワー情報を求めるための上位M個の音声素片と、素片融合に用いるための上位N個の音声素片を選択する。
First, in step S621, the speech unit of the optimal unit sequence is fixed to each segment other than the segment of interest. In this state, the speech units stored in the speech
例えば、図7に示すように、入力音韻系列が「ts・i・i・s・a・…」であるとする。この場合、合成単位は、音素「ts」、「i」、「i」、「s」、「a」、…のそれぞれに対応し、これら音素のそれぞれが1つのセグメントに対応する。図7では、入力された音韻系列中の3番目の音素「i」に対応するセグメントを注目セグメントとし、この注目セグメントについて、複数の音声素片を求める場合を示している。この3番目の音素「i」に対応するセグメント以外のセグメントに対しては、最適素片系列中の音声素片71a、71b、71d、71e…を固定する。
For example, as shown in FIG. 7, it is assumed that the input phoneme sequence is “ts · i · i · s · a ·. In this case, the synthesis unit corresponds to each of phonemes “ts”, “i”, “i”, “s”, “a”,..., And each of these phonemes corresponds to one segment. FIG. 7 shows a case where a segment corresponding to the third phoneme “i” in the input phoneme sequence is set as a target segment, and a plurality of speech segments are obtained for this target segment. For the segments other than the segment corresponding to the third phoneme “i”, the
この状態で、音声素片記憶部21に記憶されている音声素片のうち、注目セグメントの音素「i」と同じ音素名(音素記号)をもつ音声素片のそれぞれについて、式(5)を用いてコストを算出する。但し、それぞれの音声素片に対してコストを求める際に、値が変わるのは、注目セグメントの目標コスト、注目セグメントとその一つ前のセグメントとの接続コスト、注目セグメントとその一つ後のセグメントとの接続コストであるので、これらのコストのみを考慮すればよい。すなわち、
(手順1) 音声素片記憶部21に記憶されている音声素片のうち、注目セグメントの音素「i」と同じ音素名(音素記号)をもつ音声素片のうちの1つを音声素片u3とする。音声素片u3の基本周波数f(v3)と、目標の基本周波数f(t3)とから、式(1)を用いて、基本周波数コストを算出する。
In this state, among the speech elements stored in the speech
(Procedure 1) Among the speech elements stored in the speech
(手順2) 音声素片u3の音韻継続時間長g(v3)と、目標の音韻継続時間長g(t3)とから、式(2)を用いて、音韻継続時間長コストを算出する。 (Procedure 2) The phoneme duration cost is calculated from the phoneme duration g (v 3 ) of the speech unit u 3 and the target phoneme duration g (t 3 ) using Equation (2). To do.
(手順3) 音声素片u3のケプストラム係数h(u3)と、音声素片51b(u2)のケプストラム係数h(u2)とから、式(3)を用いて、第1のスペクトル接続コストを算出する。また、音声素片u3のケプストラム係数h(u3)と、音声素片51d(u4)のケプストラム係数h(u4)とから、式(3)を用いて、第2のスペクトル接続コストを算出する。 And (Step 3) cepstral coefficients of the speech unit u 3 h (u 3), from a speech unit 51b cepstral coefficients (u 2) h (u 2), using equation (3), first spectrum Calculate the connection cost. Further, the cepstral coefficients of the speech unit u 3 h (u 3), from the cepstral coefficients of the speech unit 51d (u 4) h (u 4), using equation (3), the second spectral concatenation cost Is calculated.
(手順4) 上記(手順1)〜(手順3)で各サブコスト関数を用いて算出された基本周波数コストと音韻継続時間長コストと第1及び第2のスペクトル接続コストの重み付け和を算出して、音声素片u3のコストを算出する。 (Procedure 4) Calculate the weighted sum of the fundamental frequency cost, the phoneme duration time cost, and the first and second spectrum connection costs calculated by using each sub-cost function in (Procedure 1) to (Procedure 3). The cost of the speech unit u 3 is calculated.
(手順5) 音声素片記憶部21に記憶されている音声素片のうち、注目セグメントの音素「i」と同じ音素名(音素記号)をもつ各音声素片について、上記(手順1)〜(手順4)に従って、コストを算出したら、その値の最も小さい音声素片ほど高い順位となるように順位付けを行う(図6のステップS621)。例えば、図7では、音声素片72aが最も順位が高く、音声素片72eが最も順位が低い。そして、平均パワー情報を求めるための72aから72dまでの上位M個の音声素片を選択し(図6のステップS622)、また、音声素片を融合するための72aから72cまでの上位N個(N=<M)の音声素片を選択する(図6のステップS623)。
(Procedure 5) Among the speech elements stored in the speech
以上の(手順1)〜(手順5)をそれぞれのセグメントに対して行う。その結果、それぞれのセグメントについて、M個及びN個の音声素片が得られる。 The above (Procedure 1) to (Procedure 5) are performed for each segment. As a result, M and N speech segments are obtained for each segment.
[3−3]融合音声素片作成部25
次に融合音声素片作成部25について説明する。
[3-3] Fusion speech
Next, the fusion speech
融合音声素片作成部25では、複数音声素片選択部24において選択された複数の音声素片を融合し、融合音声素片を作成する。
The fused speech
[3−3−1]融合音声素片作成部25の処理
図8に融合音声素片作成部25の処理を示す。
[3-3-1] Process of Fusion Speech
まず、ステップS81において、選択されたM個の音声素片の平均パワー情報を求める。各音声の平均パワー情報Piを
として求め、求めた各素片のパワー情報Pi (1=<i=<M)の平均値Pave
を求めることにより、M個の音声素片の平均パワー情報を求める。式中、si(n)はi番目の音声素片の音声信号、Tはそのサンプル数を表す。 To obtain the average power information of M speech segments. In the equation, s i (n) represents the audio signal of the i-th speech element, and T represents the number of samples.
次に、ステップS82において後述する融合方法を用いて、N個の音声素片を融合する。複数素片選択部24において選択されたN個の音声素片を、音声素片記憶部21から取得し、当該N個の音声素片を融合し、新たな音声素片(融合音声素片)を生成する。
Next, in step S82, N speech segments are fused using a fusion method described later. N speech units selected by the multiple
最後に、ステップS83において、融合音声素片のパワー情報を、前記平均パワー情報Paveに補正する。融合音声素片のパワー情報Pfを式(6)により求め、パワー情報を補正する比率rを
により求める。この比率rを融合音声素片に掛けることによりパワー情報を補正する。 Ask for. The power information is corrected by multiplying the unit r by the ratio r.
簡単のため、融合音声素片のパワー情報Pfは、N個の音声素片のパワー情報Pi (1=<I=<N)の平均値としてもよい。 For simplicity, the power information P f of the fusion speech unit may be an average value of the power information P i (1 = <I = <N) of the N speech units.
[3−3−2]パワー情報補正
図9にパワー情報補正の例を示す。図9中の表は、M=15としたときの、音素iの右素片において選択された上位M個の音声素片のパワー情報Pi (1=<i=<M)を表している。この例では、半音素を合成単位としている。N=3とした時、融合音声素片のパワー情報Pf=2691671、M個の平均パワー情報Pave=1647084となり、パワー情報を補正する比率はr=0.78となる。このrを融合音声素片の音声波形に掛けることによりパワー情報を補正する。
[3-3-2] Power Information Correction FIG. 9 shows an example of power information correction. The table in FIG. 9 represents the power information P i (1 = <i = <M) of the upper M speech units selected in the right unit of phoneme i when M = 15. . In this example, semitones are used as a synthesis unit. When N = 3, power information P f = 2691671 of the fusion speech unit, M average power information P ave = 1647084, and the ratio for correcting the power information is r = 0.78. The power information is corrected by multiplying r by the speech waveform of the fused speech unit.
図10にパワー情報を補正した波形の例を示す。図10は、文頭の音素iを表している。図10(a)は補正せず、融合音声素片をそのまま接続した場合、図10(b)は本発明によるパワー情報補正を行った場合を示している。横軸の数字はピッチマーク番号を表している。図10(a)では、音素iの左半音素と右半音素の接続部分ピッチマーク番号9から10にかけて、急激にパワー情報が大きくなっている。これに対し図10(b)では、左半音素がr=1.28、右半音素がr=0.78となり、接続部において滑らかに接続されていることがわかる。なお、この右半音素は、図9に対応している。
FIG. 10 shows an example of a waveform obtained by correcting the power information. FIG. 10 shows the phoneme i at the beginning of the sentence. FIG. 10A shows a case where the fusion speech unit is connected as it is without correction, and FIG. 10B shows a case where the power information correction according to the present invention is performed. The numbers on the horizontal axis represent pitch mark numbers. In FIG. 10 (a), the power information suddenly increases from the connection part
[3−3−3]音声素片の融合方法
次にステップS82における音声素片の融合方法について説明する。このステップは音声素片が有声音である場合と無声音である場合とで別の処理を行う。
[3-3-3] Speech Unit Fusion Method Next, the speech unit fusion method in step S82 will be described. This step performs different processing depending on whether the speech segment is a voiced sound or an unvoiced sound.
[3−3−3−1]有声音の場合
まずは有声音の場合について説明する。有声音の場合には、音声素片からピッチ波形を取り出し、ピッチ波形のレベルで融合し、新たなピッチ波形を作りだす。ピッチ波形とは、その長さが音声の基本周期の数倍程度までで、それ自身は基本周期を持たない比較的短い波形であって、そのスペクトルが音声信号のスペクトル包絡を表すものを意味する。
[3-3-3-1] Case of Voiced Sound First, the case of voiced sound will be described. In the case of voiced sound, a pitch waveform is extracted from the speech segment and fused at the level of the pitch waveform to create a new pitch waveform. A pitch waveform is a relatively short waveform that has a length up to several times the fundamental period of speech and does not have a fundamental period, and its spectrum represents the spectrum envelope of the speech signal. .
その抽出方法としては、単に基本周期同期窓で切り出す方法、ケプストラム分析やPSE分析によって得られたパワー情報スペクトル包絡を逆離散フーリエ変換する方法、線形予測分析によって得られたフィルタのインパルス応答によってピッチ波形を求める方法、閉ループ学習法によって合成音声のレベルで自然音声に対する歪が小さくなるようなピッチ波形を求める方法など様々なものがある。 The extraction method includes a method of simply cutting out with a fundamental period synchronization window, a method of performing inverse discrete Fourier transform on the power information spectrum envelope obtained by cepstrum analysis and PSE analysis, and a pitch waveform by the impulse response of the filter obtained by linear prediction analysis. There are various methods, such as a method for obtaining a pitch waveform that reduces distortion with respect to natural speech at the level of synthesized speech by a closed loop learning method.
ここでは、基本周期同期窓で切り出す方法を用いてピッチ波形を抽出する場合を例にとり、図11のフローチャートを参照して、説明する。複数音声素片選択部24で選択されたN個の音声素片を融合して1つの新たな音声素片を生成する場合の処理手順を説明する。
Here, a case where a pitch waveform is extracted using a method of cutting out with a basic period synchronization window will be described as an example with reference to the flowchart of FIG. A processing procedure in the case of generating one new speech unit by fusing the N speech units selected by the multiple speech
ステップS111において、N個の音声素片のそれぞれの音声波形に、その周期間隔毎にマーク(ピッチマーク)を付ける。図12(a)には、N個の音声素片のうちの1つの音声素片の音声波形121に対し、その周期間隔毎にピッチマーク122が付けられている場合を示している。 In step S111, marks (pitch marks) are added to the respective speech waveforms of the N speech units for each periodic interval. FIG. 12A shows a case in which pitch marks 122 are attached to the speech waveform 121 of one speech unit among the N speech units at every cycle interval.
ステップS112において、図12(b)に示すように、ピッチマークを基準として窓掛けを行ってピッチ波形を切り出す。窓にはハニング窓123を用い、その窓長は基本周期の2倍とする。そして、図12(c)に示すように、窓掛けされた波形124をピッチ波形として切り出す。N個の音声素片のそれぞれについて、図12に示す処理(ステップS112の処理)を施す。その結果、N個の音声素片のそれぞれについて、複数個のピッチ波形からなるピッチ波形の系列が求まる。
In step S112, as shown in FIG. 12B, windowing is performed with the pitch mark as a reference to cut out the pitch waveform. A
次にステップS113に進み、当該セグメントのN個の音声素片のそれぞれのピッチ波形の系列の中で、最もピッチ波形の数が多いものに合わせて、N個全てのピッチ波形の系列中のピッチ波形の数が同じになるように、(ピッチ波形の数が少ないピッチ波形の系列については)ピッチ波形を複製して、ピッチ波形の数をそろえる。 Next, the process proceeds to step S113, and the pitches in the pitch waveform series of all N pitch waveforms are matched to the one having the largest number of pitch waveforms in the pitch waveform series of the N speech units of the segment. The pitch waveforms are duplicated so that the number of pitch waveforms is the same (for a series of pitch waveforms with a small number of pitch waveforms).
図13には、当該セグメントのN個(例えば、ここでは、3個)の音声素片d1〜d3のそれぞれから、ステップS112で切り出されたピッチ波形の系列e1〜e3を示している。ピッチ波形の系列e1中のピッチ波形の数は7個、ピッチ波形の系列e2中のピッチ波形の数は5個、ピッチ波形の系列e3中のピッチ波形の数は6個であるので、ピッチ波形の系列e1〜e3のうち最もピッチ波形の数が多いものは、系列e1である。従って、この系列e1中のピッチ波形の数(例えば、ここでは、ピッチ波形の数は、7個)に合わせて、他の系列e2、e3については、それぞれ、当該系列中のピッチ波形のいずれかをコピーして、ピッチ波形の数を7個にする。その結果得られた、系列e2、e3のそれぞれに対応する新たなピッチ波形の系列がe2´、e3´である。 FIG. 13 shows a series of pitch waveforms e1 to e3 cut out in step S112 from each of N (for example, three in this case) speech segments d1 to d3 of the segment. Since the number of pitch waveforms in the pitch waveform series e1 is 7, the number of pitch waveforms in the pitch waveform series e2 is 5, and the number of pitch waveforms in the pitch waveform series e3 is 6, the pitch waveform. Among the series e1 to e3, the series e1 has the largest number of pitch waveforms. Therefore, in accordance with the number of pitch waveforms in this series e1 (for example, the number of pitch waveforms here is 7), each of the other series e2 and e3 is one of the pitch waveforms in the series. Is copied and the number of pitch waveforms is set to seven. As a result, new pitch waveform series corresponding to the series e2 and e3 are e2 ′ and e3 ′, respectively.
次に、ステップS114に進む。このステップでは、ピッチ波形毎に処理を行う。ステップS114では、当該セグメントのN個のそれぞれの音声素片に対応するピッチ波形をその位置毎に平均化し、新たなピッチ波形の系列を生成する。この生成された新たなピッチ波形の系列を融合された音声素片とする。 Next, the process proceeds to step S114. In this step, processing is performed for each pitch waveform. In step S114, the pitch waveforms corresponding to the N speech units of the segment are averaged for each position, and a new pitch waveform series is generated. The generated new pitch waveform sequence is used as a fused speech unit.
図14には、当該セグメントのN個(例えば、ここでは、3個)の音声素片d1〜d3のそれぞれからステップS113で求めたピッチ波形の系列e1、e2´、e3´を示している。各系列中には、7個のピッチ波形があるので、ステップS114では、1番目から7番目のピッチ波形をそれぞれ3つの音声素片で平均化し、7個の新たなピッチ波形からなる新たなピッチ波形の系列f1を生成している。すなわち、例えば、系列e1の1番目とピッチ波形と、系列e2´の1番目のピッチ波形と、系列e3´の1番目のピッチ波形のセントロイドを求めて、それを新たなピッチ波形の系列f1の1番目のピッチ波形とする。新たなピッチ波形の系列f1の2番目〜7番目のピッチ波形についても同様である。ピッチ波形の系列f1が、上記「融合音声素片」である。セントロイドを求める際、それぞれのピッチ波形に重み付けをしてもよい。この場合、e1の重みをw1、e2の重みをw2、e3の重みをw3とし、重み付け平均
により新たなピッチ波形の系列f1を求める。式(9)では、重みwiは正規化されているものとしている。 Thus, a new pitch waveform series f1 is obtained. In equation (9), the weight wi is assumed to be normalized.
ピッチ波形の融合処理はピッチ波形の平均化に限定するものではない。例えば、閉ループ学習を使うことで、それぞれの音声素片のピッチ波形を取り出すことなく、合成音のレベルで最適なピッチ波形系列を作り出すことができる。閉ループ学習とは、実際に基本周波数や韻律継続時間長を変更して合成された合成音声のレベルで、自然音声に対する歪が小さくなるような代表音声素片を生成する方法である。閉ループ学習では、合成音声のレベルで歪が小さくなるような素片を生成するため、ピッチ波形の平均化によって新たな音声素片を作成する場合よりも、高品質な音声素片が作成される(特許文献2:特許第3281281号参照)。 The pitch waveform fusion processing is not limited to averaging of pitch waveforms. For example, by using closed loop learning, an optimum pitch waveform sequence can be created at the level of the synthesized sound without extracting the pitch waveform of each speech unit. Closed-loop learning is a method of generating representative speech segments that reduce the distortion of natural speech at the level of synthesized speech that is actually synthesized by changing the fundamental frequency and prosodic duration. In closed-loop learning, a segment whose distortion is reduced at the level of the synthesized speech is generated. Therefore, a higher-quality speech unit is created than when a new speech unit is created by averaging pitch waveforms. (See Patent Document 2: Japanese Patent No. 3281281).
[3−3−3−2]無声音の場合
一方、素片融合の処理ステップにおいて、無声音のセグメントの場合には、複数音声素片選択部24で選択された当該セグメントのN個の音声素片のうち、当該N個の音声素片のそれぞれに付けられている順位が1位の音声素片の音声波形をそのまま使用する。
[3-3-3-2] In the case of unvoiced sound On the other hand, in the unit fusion processing step, in the case of an unvoiced sound segment, N speech elements of the segment selected by the multiple speech
[3−4]融合素片編集・接続部26
融合素片編集・接続部26では、融合音声素片を、入力韻律情報に従って変形し、接続することで合成音声の音声波形を生成する。融合された音声素片は、実際にはピッチ波形の形になっているので、当該融合された音声素片の基本周波数、音韻継続時間長のそれぞれが、入力韻律情報に示されている目標音声の基本周波数、目標音声の音韻継続時間長になるようにピッチ波形を重畳することで、音声波形を生成することができる。
[3-4] Fusion unit editing / connection unit 26
The fused segment editing / connecting unit 26 transforms the fused speech segments according to the input prosodic information and connects them to generate a speech waveform of synthesized speech. Since the fused speech unit is actually in the form of a pitch waveform, the basic speech and the phoneme duration length of the fused speech unit are indicated in the input prosodic information. The speech waveform can be generated by superimposing the pitch waveform so that the basic frequency and the target speech phoneme duration are the same.
図15は、融合素片編集・接続部26の処理を説明するための図である。図15では、音素「m」、「a」、「d」、「o」の各合成単位について素片融合部で求めた融合された音声素片を変形・接続して、「まど」という音声波形を生成する場合を示している。図15に示すように、入力韻律情報に示されている目標の基本周波数、目標の音韻継続時間長に応じて、セグメント(合成単位)毎に、融合された音声素片中の各ピッチ波形の基本周波数を変えたり(音の高さを変えたり)、ピッチ波形の数を増やしたり(時間長を変えたり)する。その後に、セグメント内、セグメント間で、隣り合うピッチ波形を接続して合成音声を生成する。 FIG. 15 is a diagram for explaining the processing of the fusion unit editing / connecting unit 26. In FIG. 15, the synthesized speech units obtained by the segment fusion unit for each synthesis unit of the phonemes “m”, “a”, “d”, and “o” are transformed and connected to each other and called “Mado”. The case where a speech waveform is generated is shown. As shown in FIG. 15, according to the target fundamental frequency and the target phoneme duration duration indicated in the input prosodic information, for each segment (synthesis unit), each pitch waveform in the fused speech segment is Change the basic frequency (change the pitch) or increase the number of pitch waveforms (change the time length). After that, synthesized speech is generated by connecting adjacent pitch waveforms within and between segments.
上述したように、本実施形態では、複数素片選択型音声合成において、音声素片を融合するためのN個の音声素片と、パワー情報を求めるためのM(N=<M)個の音声素片とを選択し、M個の音声素片の平均パワー情報に融合音声素片のパワー情報を補正することにより、接続の不連続感が減少し、自然な合成音声となる。 As described above, in the present embodiment, in the multiple unit selection type speech synthesis, N speech units for merging speech units and M (N = <M) pieces for obtaining power information. By selecting the speech unit and correcting the power information of the fusion speech unit to the average power information of the M speech units, the discontinuity of connection is reduced and a natural synthesized speech is obtained.
[4]変更例
[4−1]変更例1
本実施形態においては、融合音声素片のパワー情報をM個の音声素片の平均パワー情報に補正したが、M個の音声素片の平均パワー情報に予めN個の音声素片のパワー情報を補正し、補正したN個の音声素片を融合することによりパワー情報を補正しても良い。
[4] Modification Example [4-1] Modification Example 1
In the present embodiment, the power information of the fusion speech unit is corrected to the average power information of M speech units, but the power information of N speech units is added to the average power information of M speech units in advance. And the power information may be corrected by fusing the corrected N speech segments.
この場合、融合音声素片作成部25の処理は、図16に示すように、ステップS161において、式(6)、式(7)によりM個の音声素片の平均パワー情報を求め、ステップS162においてN個の音声素片それぞれを、そのパワー情報がPaveとなるように補正し、ステップS163において補正した音声素片を融合することにより融合音声素片を作成する。
In this case, as shown in FIG. 16, the process of the fusion speech
[4−2]変更例2
また、本実施形態においては、融合音声素片のパワー情報をM個の音声素片の平均パワー情報に補正したが、M個の音声素片の平均パワー情報及びN個の音声素片の平均パワー情報を求め、N個の音声素片の平均パワー情報がM個の音声素片の平均パワー情報となるように補正するための比率を求め、この比率をN個の音声素片それぞれに掛けることによりN個の音声素片を補正し、補正したN個の音声素片を融合することにより融合音声素片を作成しても良い。
[4-2]
In the present embodiment, the power information of the fusion speech unit is corrected to the average power information of the M speech units. However, the average power information of the M speech units and the average of the N speech units are corrected. The power information is obtained, a ratio for correcting the average power information of the N speech units to be the average power information of the M speech units is obtained, and this ratio is multiplied by each of the N speech units. Thus, the N speech units may be corrected, and the fused N speech units may be created by fusing the corrected N speech units.
この場合、融合音声素片作成部26の処理は、図23に示すように、ステップS231において、式(6)、式(7)によりM個の音声素片の平均パワー情報Paveを求め、同様に、ステップS232においてN個の音声素片の平均パワー情報Pfを求め、ステップS233において、平均パワー情報Pf 及びPaveから、式(8)により比率rを求める。その後ステップS234において、N個の音声素片それぞれを、得られた比率rを掛けることにより補正し、ステップS235において、補正したN個の音声素片を融合することにより、融合音声素片を作成する。 In this case, as shown in FIG. 23, the process of the fusion speech unit creating unit 26 obtains average power information P ave of M speech units by using the equations (6) and (7) in step S231, Similarly, in step S232, average power information P f of N speech units is obtained, and in step S233, the ratio r is obtained from the average power information P f and P ave by equation (8). Thereafter, in step S234, each of the N speech units is corrected by multiplying the obtained ratio r, and in step S235, the corrected N speech units are merged to create a fused speech unit. To do.
[4−3]変更例3
また、本実施形態においては、パワー情報を,式(6)で表される平均二乗値であるとして記述しているが、平均絶対振幅値の場合は式(6)の代わりに
In the present embodiment, the power information is described as the mean square value represented by Expression (6). However, in the case of an average absolute amplitude value, instead of Expression (6).
を用い、式(8)の代わりに平均絶対振幅比
を用いる。これにより、平方根の計算が必要なくなり、整数演算のみで計算することができるようになる。 Is used. As a result, the calculation of the square root is not necessary, and the calculation can be performed only by integer arithmetic.
[4−4]変更例4
また、図8のステップS83及び、図16のステップS162の融合音声素片もしくは、選択された音声素片のパワー情報を補正するステップにおいて、式(8)もしくは式(11)により求められる補正する比率rが1.0より小さい場合のみ補正してもよい。これは、パワー情報を小さくする方向のみに補正することをあらわしており、これにより音声素片に加わったノイズ成分を増幅することを避けることができる。
[4-4]
Further, in the step of correcting the power information of the fusion speech unit or the selected speech unit in step S83 of FIG. 8 and step S162 of FIG. 16, the correction obtained by formula (8) or formula (11) is performed. Correction may be made only when the ratio r is smaller than 1.0. This means that the correction is made only in the direction of decreasing the power information, and thus it is possible to avoid amplifying the noise component added to the speech segment.
[第2の実施形態]
次に、第2の実施形態に係る融合音声素片作成部25について説明する。
[Second Embodiment]
Next, the fusion speech
図17は第2の実施形態に係る融合音声素片作成部25の処理を示したものである。
FIG. 17 shows the processing of the fused speech
第2の実施形態では、複数のM個のパワー情報の統計量から、式(9)中の融合音声素片の重みwiを決定する。 In the second embodiment, the weight wi of the fused speech unit in the equation (9) is determined from the statistics of a plurality of M pieces of power information.
図17のステップS171では、複数音声素片選択部24において選択された、M個の音声のパワー情報の平均及び分散を求める。
In step S171 in FIG. 17, the average and variance of the power information of the M voices selected by the multiple voice
そして、ステップS172に進み、素片融合に用いるN個の各音声素片のパワー情報の尤度を求める。尤度は、ガウス分布を仮定し、
このように、素片融合に用いるN個の音声素片それぞれのパワー情報が、M個の音声素片のパワー情報から求めた分布の平均に近いほど重みが大きくなり、平均から外れるほど重みが小さくなる。このため、選択された各音声素片のパワー情報がそのセグメントにおける平均的な値から外れる素片の融合重みを小さくすることができ、融合による音質劣化を低減することができる。 In this way, the weight information increases as the power information of each of the N speech units used for unit fusion is closer to the average of the distribution obtained from the power information of the M speech units, and the weight increases as the power information deviates from the average. Get smaller. For this reason, it is possible to reduce the fusion weight of the segments in which the power information of each selected speech unit deviates from the average value in the segment, and it is possible to reduce deterioration in sound quality due to the fusion.
また、上記の融合重みの近似として、N個の音声素片中の各素片のパワー情報が、M個の音声素片のパワー情報の分布において、所定の確率となる区間から外れた場合の重みを0とし、それ以外の素片を等重みとして融合することができる。図18にこの処理を示す。ステップS181において、選択されたM個の音声素片のパワー情報の平均・及び標準偏差・を求め、ステップS182において、パワー情報が所定の確率となる区間を求める。例えば、区間を(μ−1.96σ<Pi<μ+1.96σ)とするとPiがその区間となる確率が95%となる。 Further, as an approximation of the above fusion weight, when the power information of each of the N speech units deviates from a section having a predetermined probability in the power information distribution of the M speech units. The weight can be set to 0 and the other segments can be merged as equal weights. FIG. 18 shows this process. In step S181, the average and standard deviation of the power information of the selected M speech units are obtained, and in step S182, a section in which the power information has a predetermined probability is obtained. For example, if the section is (μ−1.96σ <Pi <μ + 1.96σ), the probability that Pi is in that section is 95%.
次に、ステップS183において、前述した区間外の音声素片を取り除く。その区間から外れた場合の融合重みwiを0とすることで除去することができる。 Next, in step S183, the speech segment outside the section described above is removed. It can be removed by setting the fusion weight wi when it is out of the section to zero.
そして、ステップS184において、音声素片を融合し、融合音声素片を得る。図9のデータに適用すると、その区間は、(−273573<Pi<3567739)となり、P3=4091979がこの範囲から外れる。このため、融合重みを、wi=0.5、w2=0.5、w3=0として融合することで、外れ素片を除去することができる。区間の決定は上述した方法に限定するものではなく、統計量の一つである四分位範囲に基づく方法なども考えられる。 In step S184, the speech units are merged to obtain a fused speech unit. When applied to the data of FIG. 9, the interval is (−273573 <Pi <3567739), and P 3 = 4091979 is out of this range. For this reason, by merging the fusion weights with wi = 0.5, w2 = 0.5, and w3 = 0, it is possible to remove outliers. The determination of the interval is not limited to the above-described method, and a method based on a quartile range that is one of the statistics can be considered.
例えば、パワーをソートして、3/4番目のパワー値(上側四分位数)と、1/4番目のパワー値(下側四分囲数)の差を四分位範囲と呼び、その定数倍(1.5倍等)を下側四分囲数のパワーの値から引いた値、定数倍を上側四分位数のパワーの値に足した範囲を区間と決め、その区間外のものを外れ値とする。 For example, by sorting the power, the difference between the 3 / 4th power value (upper quartile) and the 1 / 4th power value (lower quartile) is called the quartile range. A value obtained by subtracting a constant multiple (1.5 times, etc.) from the power value of the lower quartile, and a range obtained by adding the constant multiple to the power value of the upper quartile is defined as a section. Things are outliers.
本実施形態により、あるセグメントに対して選択された上位N個の素片のパワー情報が外れる場合には融合重みを小さくする、もしくは融合から除去することができる。これにより、合成音声のパワー情報の異なる素片を融合することによる音質劣化を防ぐことができ、自然な合成音声が得られる。また、第1の実施形態と組み合わせ、融合重みを第2の実施形態で決定し、パワー情報の補正を第1の実施形態の方法で行うことができる。 According to the present embodiment, when the power information of the top N segments selected for a certain segment deviates, the fusion weight can be reduced or removed from the fusion. As a result, it is possible to prevent deterioration in sound quality due to the fusion of segments having different power information of synthesized speech, and natural synthesized speech can be obtained. Further, in combination with the first embodiment, the fusion weight can be determined in the second embodiment, and the power information can be corrected by the method of the first embodiment.
[第3の実施形態]
第3の実施形態では、素片選択型の音声合成において、選択された最適な音声素片のパワー情報を複数素片の平均パワー情報に補正する。素片融合処理を含まない点が第1、第2の実施形態と異なる。
[Third Embodiment]
In the third embodiment, in the unit selection type speech synthesis, the power information of the selected optimum speech unit is corrected to the average power information of a plurality of units. The difference from the first and second embodiments is that the unit fusion processing is not included.
[1]音声合成部14の構成
図18は、第2の実施形態に係る音声合成部14の構成例を示したものである。
[1] Configuration of
音声合成部14は、音声素片記憶部191、音素環境記憶部192、音韻系列・韻律情報入力部193、複数音声素片選択部194、音声素片作成部195、音声素片編集・接続部195、音声波形出力部15より構成される。
The
[1]音声素片記憶部191
音声素片記憶部191には、第1の実施形態と同様に、データベースを分析して得られる音声素片が記憶され、音素環境情報記憶部192には、各音声素片の音素環境が記憶されている。
[1] Speech
Similar to the first embodiment, the speech
[2]複数音声素片選択部193
複数音声素片選択部193は、入力音韻系列の各合成単位に対し、入力韻律情報と、音声素片の音素環境に含まれる韻律情報との歪みの度合いを推定し、前記歪みの度合いを最小化するように音声素片記憶部191に記憶されている音声素片の中から複数の音声素片と、最適な音声素片とを選択する。複数の音声素片の選択は、上述した図20に示すように、前述したコスト関数に基づいて行うことができる。図6の処理とは、上位N個の音声素片でなく最適な音声素片のみを選択している点が異なる。その結果、入力音韻系列の音韻記号の系列のそれぞれのセグメントに対応する複数のM個の音声素片及び、最適音声素片が選択される。
[2] Multiple speech
The multiple
[3]音声素片作成部195
次に音声素片作成部195について説明する。
[3] Speech segment creation unit 195
Next, the speech segment creation unit 195 will be described.
音声素片作成部195では、複数音声素片選択部194において選択された最適な音声素片のパワー情報を補正し、合成に用いる音声素片を作成する。 The speech unit creation unit 195 corrects the power information of the optimum speech unit selected by the multiple speech unit selection unit 194 and creates a speech unit used for synthesis.
図21に音声素片作成部195の処理を示す。 FIG. 21 shows the processing of the speech segment creation unit 195.
まず、ステップS211において、選択されたM個の各音声素片のパワー情報Pi(1=<i=<M)を求め、その平均パワー情報Paveを求める。第1の実施形態と同様式(6)及び式(7)から求めることができる。 次に、ステップS212において最適音声素片のパワー情報P1をステップS211で得られたM個の平均パワー情報Paveに補正する。ここでは、パワー情報を補正する比率rを
により求める。この比率rを最適音声素片に掛けることによりパワー情報を補正する。 Ask for. The power information is corrected by multiplying the optimal speech unit by this ratio r.
図9のデータにおいては、M個の平均パワー情報Pave=1647084、最適素片のパワー情報P1=2859883であり、比率r=0.76となる。このrを最適音声素片の音声波形に掛けることによりパワー情報を補正する。 In the data of FIG. 9, M pieces of average power information P ave = 1647084, power information P 1 of the optimum unit P = 2859883, and the ratio r = 0.76. The power information is corrected by multiplying this r by the speech waveform of the optimum speech unit.
[4]音声素片編集・接続部196
音声素片編集・接続部196では、音声素片を、入力韻律情報に従って変形し、接続することで合成音声の音声波形を生成する。音声素片からピッチ波形を切り出し、当該音声素片の基本周波数、音韻継続時間長のそれぞれが、入力韻律情報に示されている目標音声の基本周波数、目標音声の音韻継続時間長になるようにピッチ波形を重畳することで、音声波形を生成することができる。
[4] Speech segment editing /
The speech segment editing /
上述したように、本実施形態では、素片選択型音声合成において、選択された音声素片を、複数のM個の音声素片の平均パワー情報に補正することにより、安定感が増し合成音声の品質が向上する。 As described above, in the present embodiment, in the unit selection type speech synthesis, the selected speech unit is corrected to the average power information of a plurality of M speech units, so that the sense of stability is increased and the synthesized speech is synthesized. Improve the quality.
[5]変更例
また、第2の実施形態と同様に、M個の音声素片のパワー情報から区間を求め、その区間内で最適な音声素片を選択してもよい。
[5] Modified Example Similarly to the second embodiment, a section may be obtained from the power information of M speech units, and an optimal speech unit may be selected within the section.
この場合、音声素片作成部195は図22に示すようになる。 In this case, the speech segment creation unit 195 is as shown in FIG.
ステップS221において、M個の音声素片のパワー情報の平均及び標準偏差を求め、ステップS222において、パワー情報が所定の確率となる区間を求める。 In step S221, the average and standard deviation of the power information of the M speech units are obtained. In step S222, a section in which the power information has a predetermined probability is obtained.
ステップS223において、1位の音声素片のパワー情報P1が区間内にあればそれを用い、なければ2位の音声素片のパワー情報P2が区間内かどうかを判定し、以下繰り返していきパワー情報が区間内に含まれる中でコストが最も小さい音声素片を選択する。これにより、上位の音声素片のパワー情報が大きく異なる場合は、それを外れ値として除外し除外した中で最適な音声素片を選択することができる。このように選択した音声素片のパワー情報をM個の平均パワー情報に補正してもよい。 In step S223, if the power information P1 of the first speech unit is within the section, it is used, and if not, it is determined whether or not the power information P2 of the second speech unit is within the section. A speech unit with the lowest cost is selected from among the power information included in the section. As a result, when the power information of the upper speech unit is greatly different, it is possible to select the optimum speech unit while excluding it as an outlier. The power information of the selected speech unit may be corrected to M pieces of average power information.
このようにして選択した音声素片を、音声素片編集・接続部196で編集・接続し合成音声を得ることができる。
The speech unit selected in this way can be edited / connected by the speech unit editing / connecting
第1の実施形態と同様に、平均パワー情報でなく平均絶対振幅を用いてもよい。 Similar to the first embodiment, average absolute amplitude may be used instead of average power information.
また、第1の実施形態と同様にパワー情報を小さくする方向のみに補正するため、図21のステップS212の最適音声素片のパワー情報を補正するステップにおいて、補正する比率rが1.0より小さい場合のみ補正してもよい。これにより最適な音声素片に加わったノイズ成分を増幅することを避けることができる。 Further, since correction is performed only in the direction in which the power information is reduced as in the first embodiment, the correction ratio r is greater than 1.0 in the step of correcting the power information of the optimum speech unit in step S212 in FIG. You may correct | amend only when small. As a result, it is possible to avoid amplifying the noise component added to the optimum speech segment.
11 テキスト入力部
12 言語処理部
13 韻律処理部
14 音声合成部
15 音声波形出力部
21 音声素片記憶部
22 音素環境記憶部
23 音韻系列・韻律情報入力部
24 複数音声素片選択部
25 融合音声素片系列作成部
26 融合音声素片編集・接続部
11
Claims (14)
前記合成単位に対応する複数の音声素片を記憶する記憶手段と、
前記入力されたテキストから得られる音韻系列の各合成単位に対し、前記合成音声の歪みの度合いに基づいて、前記記憶手段に記憶された音声素片から複数の音声素片を選択する選択手段と、
前記選択された複数の音声素片からパワー情報の統計量を求め、前記パワー情報の統計量に基づいて前記合成音声の品質が上がるように前記パワー情報を補正して、前記合成単位に対応する代表音声素片を生成する代表音声素片生成手段と、
前記生成された代表音声素片を接続することにより音声波形を生成する音声波形生成手段と、
を備え、
前記選択手段においてはN個及びM個(N<M)の音声素片をそれぞれ選択し、
前記代表音声素片生成手段においては、
前記選択されたM個の音声素片からパワー情報の平均値を求め、
前記選択されたN個の音声素片を融合することにより融合音声素片を作成し、
前記融合音声素片のパワー情報が、前記M個の音声素片から求めたパワー情報の平均値となるように補正して前記代表音声素片を生成する
ことを特徴とする音声合成装置。 In a speech synthesizer that generates a synthesized speech by dividing a phoneme sequence obtained from input text into predetermined synthesis units, obtaining representative speech units for each synthesis unit, and connecting these representative speech units.
Storage means for storing a plurality of speech segments corresponding to the synthesis unit;
Selection means for selecting a plurality of speech units from the speech units stored in the storage unit based on the degree of distortion of the synthesized speech for each synthesis unit of the phoneme sequence obtained from the input text; ,
A statistic of power information is obtained from the plurality of selected speech segments, and the power information is corrected based on the statistic of the power information so as to improve the quality of the synthesized speech, thereby corresponding to the synthesis unit. Representative speech segment generation means for generating a representative speech segment;
Speech waveform generation means for generating a speech waveform by connecting the generated representative speech segments;
With
The selection means selects N and M (N <M) speech segments,
In the representative speech segment generation means,
An average value of power information is obtained from the selected M speech segments,
Creating a fused speech unit by fusing the selected N speech units;
The speech synthesizer characterized in that the representative speech unit is generated by correcting the power information of the fused speech unit to be an average value of the power information obtained from the M speech units.
前記合成単位に対応する複数の音声素片を記憶する記憶手段と、
前記入力されたテキストから得られる音韻系列の各合成単位に対し、前記合成音声の歪みの度合いに基づいて、前記記憶手段に記憶された音声素片から複数の音声素片を選択する選択手段と、
前記選択された複数の音声素片からパワー情報の統計量を求め、前記パワー情報の統計量に基づいて前記合成音声の品質が上がるように前記パワー情報を補正して、前記合成単位に対応する代表音声素片を生成する代表音声素片生成手段と、
前記生成された代表音声素片を接続することにより音声波形を生成する音声波形生成手段と、
を備え、
前記選択手段においてはN個及びM個(N<M)の音声素片をそれぞれ選択し、
前記代表音声素片生成手段においては、
前記選択されたM個の音声素片からパワー情報の平均値を求め、
前記選択されたN個の音声素片それぞれのパワー情報が、前記パワー情報の平均値となるように補正し、
前記補正したN個の音声素片を融合することにより前記代表音声素片を生成する
ことを特徴とする音声合成装置。 In a speech synthesizer that generates a synthesized speech by dividing a phoneme sequence obtained from input text into predetermined synthesis units, obtaining representative speech units for each synthesis unit, and connecting these representative speech units.
Storage means for storing a plurality of speech segments corresponding to the synthesis unit;
Selection means for selecting a plurality of speech units from the speech units stored in the storage unit based on the degree of distortion of the synthesized speech for each synthesis unit of the phoneme sequence obtained from the input text; ,
A statistic of power information is obtained from the plurality of selected speech segments, and the power information is corrected based on the statistic of the power information so as to improve the quality of the synthesized speech, thereby corresponding to the synthesis unit. Representative speech segment generation means for generating a representative speech segment;
Speech waveform generation means for generating a speech waveform by connecting the generated representative speech segments;
With
The selection means selects N and M (N <M) speech segments,
In the representative speech segment generation means,
An average value of power information is obtained from the selected M speech segments,
The power information of each of the selected N speech units is corrected to be an average value of the power information,
The speech synthesizer characterized in that the representative speech unit is generated by fusing the corrected N speech units.
前記合成単位に対応する複数の音声素片を記憶する記憶手段と、
前記入力されたテキストから得られる音韻系列の各合成単位に対し、前記合成音声の歪みの度合いに基づいて、前記記憶手段に記憶された音声素片から複数の音声素片を選択する選択手段と、
前記選択された複数の音声素片からパワー情報の統計量を求め、前記パワー情報の統計量に基づいて前記合成音声の品質が上がるように前記パワー情報を補正して、前記合成単位に対応する代表音声素片を生成する代表音声素片生成手段と、
前記生成された代表音声素片を接続することにより音声波形を生成する音声波形生成手段と、
を備え、
前記選択手段においてはN個及びM個(N<M)の音声素片をそれぞれ選択し、
前記代表音声素片生成手段においては、
前記選択されたM個の音声素片のパワー情報の平均値を求め、
前記選択されたN個の音声素片のパワー情報の平均値を求め、
前記N個の音声素片のパワー情報の平均値が前記M個の音声素片のパワー情報の平均値となるように補正するための補正値を求め、
前記補正値を適用することにより前記N個の音声素片のそれぞれを補正し、
前記補正したN個の音声素片を融合することにより前記代表音声素片を生成する
ことを特徴とする音声合成装置。 In a speech synthesizer that generates a synthesized speech by dividing a phoneme sequence obtained from input text into predetermined synthesis units, obtaining representative speech units for each synthesis unit, and connecting these representative speech units.
Storage means for storing a plurality of speech segments corresponding to the synthesis unit;
Selection means for selecting a plurality of speech units from the speech units stored in the storage unit based on the degree of distortion of the synthesized speech for each synthesis unit of the phoneme sequence obtained from the input text; ,
A statistic of power information is obtained from the plurality of selected speech segments, and the power information is corrected based on the statistic of the power information so as to improve the quality of the synthesized speech, thereby corresponding to the synthesis unit. Representative speech segment generation means for generating a representative speech segment;
Speech waveform generation means for generating a speech waveform by connecting the generated representative speech segments;
With
The selection means selects N and M (N <M) speech segments,
In the representative speech segment generation means,
An average value of power information of the selected M speech units is obtained,
An average value of power information of the selected N speech units is obtained,
Obtaining a correction value for correcting the average value of the power information of the N speech units to be an average value of the power information of the M speech units;
Correcting each of the N speech segments by applying the correction value;
The speech synthesizer characterized in that the representative speech unit is generated by fusing the corrected N speech units.
前記合成単位に対応する複数の音声素片を記憶する記憶手段と、
前記入力されたテキストから得られる音韻系列の各合成単位に対し、前記合成音声の歪みの度合いに基づいて、前記記憶手段に記憶された音声素片から複数の音声素片を選択する選択手段と、
前記選択された複数の音声素片からパワー情報の統計量を求め、前記パワー情報の統計量に基づいて前記合成音声の品質が上がるように前記パワー情報を補正して、前記合成単位に対応する代表音声素片を生成する代表音声素片生成手段と、
前記生成された代表音声素片を接続することにより音声波形を生成する音声波形生成手段と、
を備え、
前記選択手段においてはN個及びM個(N<M)の音声素片をそれぞれ選択し、
前記代表音声素片生成手段においては、
前記選択されたM個の音声素片からパワー情報の統計量を求め、
前記選択されたN個の音声素片のパワー情報をそれぞれ求め、
前記求めたパワー情報の統計量及び前記N個の音声素片のパワー情報に基づいて前記N個の音声素片それぞれの重みを決定し、
前記重みに基づいてN個の音声素片を融合することにより前記代表音声素片を生成する
ことを特徴とする音声合成装置。 In a speech synthesizer that generates a synthesized speech by dividing a phoneme sequence obtained from input text into predetermined synthesis units, obtaining representative speech units for each synthesis unit, and connecting these representative speech units.
Storage means for storing a plurality of speech segments corresponding to the synthesis unit;
Selection means for selecting a plurality of speech units from the speech units stored in the storage unit based on the degree of distortion of the synthesized speech for each synthesis unit of the phoneme sequence obtained from the input text; ,
A statistic of power information is obtained from the plurality of selected speech segments, and the power information is corrected based on the statistic of the power information so as to improve the quality of the synthesized speech, thereby corresponding to the synthesis unit. Representative speech segment generation means for generating a representative speech segment;
Speech waveform generation means for generating a speech waveform by connecting the generated representative speech segments;
With
The selection means selects N and M (N <M) speech segments,
In the representative speech segment generation means,
A power information statistic is determined from the selected M speech segments;
Obtaining power information of each of the selected N speech segments;
Determining the weight of each of the N speech units based on the statistic of the obtained power information and the power information of the N speech units;
The speech synthesizer characterized in that the representative speech unit is generated by fusing N speech units based on the weights.
前記合成単位に対応する複数の音声素片を記憶する記憶手段と、
前記入力されたテキストから得られる音韻系列の各合成単位に対し、前記合成音声の歪みの度合いに基づいて、前記記憶手段に記憶された音声素片から複数の音声素片を選択する選択手段と、
前記選択された複数の音声素片からパワー情報の統計量を求め、前記パワー情報の統計量に基づいて前記合成音声の品質が上がるように前記パワー情報を補正して、前記合成単位に対応する代表音声素片を生成する代表音声素片生成手段と、
前記生成された代表音声素片を接続することにより音声波形を生成する音声波形生成手段と、
を備え、
前記選択手段においてはN個及びM個(N<M)の音声素片をそれぞれ選択し、
前記代表音声素片生成手段においては、
前記選択されたM個の音声素片のパワー情報の統計量から前記パワー情報の分布が所定確率以上になる区間、または、前記パワー情報の四分位範囲に基づいて区間を求め、
前記選択されたN個の音声素片のパワー情報をそれぞれ求め、
前記N個の音声素片のパワー情報が前記区間から外れる場合は前記選択すべき音声素片から除外し、
前記選択されたN個の音声素片のうち、前記区間内にある音声素片を融合することにより前記代表音声素片を生成する
ことを特徴とする音声合成装置。 In a speech synthesizer that generates a synthesized speech by dividing a phoneme sequence obtained from input text into predetermined synthesis units, obtaining representative speech units for each synthesis unit, and connecting these representative speech units.
Storage means for storing a plurality of speech segments corresponding to the synthesis unit;
Selection means for selecting a plurality of speech units from the speech units stored in the storage unit based on the degree of distortion of the synthesized speech for each synthesis unit of the phoneme sequence obtained from the input text; ,
A statistic of power information is obtained from the plurality of selected speech segments, and the power information is corrected based on the statistic of the power information so as to improve the quality of the synthesized speech, thereby corresponding to the synthesis unit. Representative speech segment generation means for generating a representative speech segment;
Speech waveform generation means for generating a speech waveform by connecting the generated representative speech segments;
With
The selection means selects N and M (N <M) speech segments,
In the representative speech segment generation means,
A section where the distribution of the power information is a predetermined probability or more from a statistic of power information of the selected M speech units, or a section based on the quartile range of the power information,
Obtaining power information of each of the selected N speech segments;
If the power information of the N speech units is out of the section, exclude it from the speech unit to be selected,
The speech synthesizer characterized in that the representative speech unit is generated by fusing speech units within the section among the selected N speech units .
前記合成単位に対応する複数の音声素片を記憶する記憶手段と、
前記入力されたテキストから得られる音韻系列の各合成単位に対し、前記合成音声の歪みの度合いに基づいて、前記記憶手段に記憶された音声素片から複数の音声素片を選択する選択手段と、
前記選択された複数の音声素片からパワー情報の統計量を求め、前記パワー情報の統計量に基づいて前記合成音声の品質が上がるように前記パワー情報を補正して、前記合成単位に対応する代表音声素片を生成する代表音声素片生成手段と、
前記生成された代表音声素片を接続することにより音声波形を生成する音声波形生成手段と、
を備え、
前記選択手段においてはM個の音声素片及び前記合成音声の歪みの度合いが少ない最適な音声素片を選択し、
前記代表音声素片生成手段においては、
前記選択されたM個の音声素片からパワー情報の平均値を求め、
前記最適な音声素片のパワー情報が、前記パワー情報の平均値となるように補正して前記代表音声素片を生成する
ことを特徴とする音声合成装置。 In a speech synthesizer that generates a synthesized speech by dividing a phoneme sequence obtained from input text into predetermined synthesis units, obtaining representative speech units for each synthesis unit, and connecting these representative speech units.
Storage means for storing a plurality of speech segments corresponding to the synthesis unit;
Selection means for selecting a plurality of speech units from the speech units stored in the storage unit based on the degree of distortion of the synthesized speech for each synthesis unit of the phoneme sequence obtained from the input text; ,
A statistic of power information is obtained from the plurality of selected speech segments, and the power information is corrected based on the statistic of the power information so as to improve the quality of the synthesized speech, thereby corresponding to the synthesis unit. Representative speech segment generation means for generating a representative speech segment;
Speech waveform generation means for generating a speech waveform by connecting the generated representative speech segments;
With
In the selection means, M speech units and an optimal speech unit with a low degree of distortion of the synthesized speech are selected,
In the representative speech segment generation means,
An average value of power information is obtained from the selected M speech segments,
The speech synthesizer, wherein the representative speech segment is generated by correcting power information of the optimal speech segment to be an average value of the power information.
前記合成単位に対応する複数の音声素片を記憶する記憶手段と、
前記入力されたテキストから得られる音韻系列の各合成単位に対し、前記合成音声の歪みの度合いに基づいて、前記記憶手段に記憶された音声素片から複数の音声素片を選択する選択手段と、
前記選択された複数の音声素片からパワー情報の統計量を求め、前記パワー情報の統計量に基づいて前記合成音声の品質が上がるように前記パワー情報を補正して、前記合成単位に対応する代表音声素片を生成する代表音声素片生成手段と、
前記生成された代表音声素片を接続することにより音声波形を生成する音声波形生成手段と、
を備え、
前記選択手段においてはM個の音声素片を選択し、
前記代表音声素片生成手段においては、
前記選択されたM個の音声素片のパワー情報の統計量から前記パワー情報の分布が所定確率以上になる区間、または、前記パワー情報の四分位範囲に基づいて区間を求め、
前記パワー情報の区間に含まれるパワー情報を有する音声素片の中から前記合成音声の歪みの度合いが少ない最適な音声素片を選択することにより前記代表音声素片を生成する
ことを特徴とする音声合成装置。 In a speech synthesizer that generates a synthesized speech by dividing a phoneme sequence obtained from input text into predetermined synthesis units, obtaining representative speech units for each synthesis unit, and connecting these representative speech units.
Storage means for storing a plurality of speech segments corresponding to the synthesis unit;
Selection means for selecting a plurality of speech units from the speech units stored in the storage unit based on the degree of distortion of the synthesized speech for each synthesis unit of the phoneme sequence obtained from the input text; ,
A statistic of power information is obtained from the plurality of selected speech segments, and the power information is corrected based on the statistic of the power information so as to improve the quality of the synthesized speech, thereby corresponding to the synthesis unit. Representative speech segment generation means for generating a representative speech segment;
Speech waveform generation means for generating a speech waveform by connecting the generated representative speech segments;
With
In the selection means, M speech segments are selected,
In the representative speech segment generation means,
A section where the distribution of the power information is a predetermined probability or more from a statistic of power information of the selected M speech units, or a section based on the quartile range of the power information,
The representative speech unit is generated by selecting an optimal speech unit having a low degree of distortion of the synthesized speech from speech units having power information included in the power information section. Speech synthesizer.
コンピュータに、
前記合成単位に対応する複数の音声素片を記憶する記憶機能と、
前記入力されたテキストから得られる音韻系列の各合成単位に対し、前記合成音声の歪みの度合いに基づいて、前記記憶機能に記憶された音声素片から複数の音声素片を選択する選択機能と、
前記選択された複数の音声素片からパワー情報の統計量を求め、前記パワー情報の統計量に基づいて前記合成音声の品質が上がるように前記パワー情報を補正して、前記合成単位に対応する代表音声素片を生成する代表音声素片生成機能と、
前記生成された代表音声素片を接続することにより音声波形を生成する音声波形生成機能と、
を実現させるためのものであり、
前記選択機能においてはN個及びM個(N<M)の音声素片をそれぞれ選択し、
前記代表音声素片生成機能においては、
前記選択されたM個の音声素片からパワー情報の平均値を求め、
前記選択されたN個の音声素片を融合することにより融合音声素片を作成し、
前記融合音声素片のパワー情報が、前記M個の音声素片から求めたパワー情報の平均値となるように補正して前記代表音声素片を生成する
ことを特徴とする音声合成プログラム。 In a speech synthesis program for generating synthesized speech by dividing a phoneme sequence obtained from input text into predetermined synthesis units, obtaining representative speech units for each synthesis unit, and connecting these representative speech units,
On the computer,
A storage function for storing a plurality of speech segments corresponding to the synthesis unit;
A selection function for selecting a plurality of speech units from the speech units stored in the storage function based on the degree of distortion of the synthesized speech for each synthesis unit of the phoneme sequence obtained from the input text; ,
A statistic of power information is obtained from the plurality of selected speech segments, and the power information is corrected based on the statistic of the power information so as to improve the quality of the synthesized speech, thereby corresponding to the synthesis unit. A representative speech segment generation function for generating a representative speech segment;
A speech waveform generation function for generating a speech waveform by connecting the generated representative speech segments;
Is to realize
In the selection function, N and M (N <M) speech segments are selected,
In the representative speech segment generation function,
An average value of power information is obtained from the selected M speech segments,
Creating a fused speech unit by fusing the selected N speech units;
A speech synthesis program, wherein the representative speech unit is generated by correcting the power information of the fused speech unit to be an average value of power information obtained from the M speech units.
コンピュータに、
前記合成単位に対応する複数の音声素片を記憶する記憶機能と、
前記入力されたテキストから得られる音韻系列の各合成単位に対し、前記合成音声の歪みの度合いに基づいて、前記記憶機能に記憶された音声素片から複数の音声素片を選択する選択機能と、
前記選択された複数の音声素片からパワー情報の統計量を求め、前記パワー情報の統計量に基づいて前記合成音声の品質が上がるように前記パワー情報を補正して、前記合成単位に対応する代表音声素片を生成する代表音声素片生成機能と、
前記生成された代表音声素片を接続することにより音声波形を生成する音声波形生成機能と、
を実現させるためのものであり、
前記選択機能においてはN個及びM個(N<M)の音声素片をそれぞれ選択し、
前記代表音声素片生成機能においては、
前記選択されたM個の音声素片からパワー情報の平均値を求め、
前記選択されたN個の音声素片それぞれのパワー情報が、前記パワー情報の平均値となるように補正し、
前記補正したN個の音声素片を融合することにより前記代表音声素片を生成する
ことを特徴とする音声合成プログラム。 In a speech synthesis program for generating synthesized speech by dividing a phoneme sequence obtained from input text into predetermined synthesis units, obtaining representative speech units for each synthesis unit, and connecting these representative speech units,
On the computer,
A storage function for storing a plurality of speech segments corresponding to the synthesis unit;
A selection function for selecting a plurality of speech units from the speech units stored in the storage function based on the degree of distortion of the synthesized speech for each synthesis unit of the phoneme sequence obtained from the input text; ,
A statistic of power information is obtained from the plurality of selected speech segments, and the power information is corrected based on the statistic of the power information so as to improve the quality of the synthesized speech, thereby corresponding to the synthesis unit. A representative speech segment generation function for generating a representative speech segment;
A speech waveform generation function for generating a speech waveform by connecting the generated representative speech segments;
Is to realize
In the selection function, N and M (N <M) speech segments are selected,
In the representative speech segment generation function,
An average value of power information is obtained from the selected M speech segments,
The power information of each of the selected N speech units is corrected to be an average value of the power information,
The speech synthesis program characterized by generating the representative speech unit by fusing the corrected N speech units.
コンピュータに、
前記合成単位に対応する複数の音声素片を記憶する記憶機能と、
前記入力されたテキストから得られる音韻系列の各合成単位に対し、前記合成音声の歪みの度合いに基づいて、前記記憶機能に記憶された音声素片から複数の音声素片を選択する選択機能と、
前記選択された複数の音声素片からパワー情報の統計量を求め、前記パワー情報の統計量に基づいて前記合成音声の品質が上がるように前記パワー情報を補正して、前記合成単位に対応する代表音声素片を生成する代表音声素片生成機能と、
前記生成された代表音声素片を接続することにより音声波形を生成する音声波形生成機能と、
を実現させるためのものであり、
前記選択機能においてはN個及びM個(N<M)の音声素片をそれぞれ選択し、
前記代表音声素片生成機能においては、
前記選択されたM個の音声素片のパワー情報の平均値を求め、
前記選択されたN個の音声素片のパワー情報の平均値を求め、
前記N個の音声素片のパワー情報の平均値が前記M個の音声素片のパワー情報の平均値となるように補正するための補正値を求め、
前記補正値を適用することにより前記N個の音声素片のそれぞれを補正し、
前記補正したN個の音声素片を融合することにより前記代表音声素片を生成する
ことを特徴とする音声合成プログラム。 In a speech synthesis program for generating synthesized speech by dividing a phoneme sequence obtained from input text into predetermined synthesis units, obtaining representative speech units for each synthesis unit, and connecting these representative speech units,
On the computer,
A storage function for storing a plurality of speech segments corresponding to the synthesis unit;
A selection function for selecting a plurality of speech units from the speech units stored in the storage function based on the degree of distortion of the synthesized speech for each synthesis unit of the phoneme sequence obtained from the input text; ,
A statistic of power information is obtained from the plurality of selected speech segments, and the power information is corrected based on the statistic of the power information so as to improve the quality of the synthesized speech, thereby corresponding to the synthesis unit. A representative speech segment generation function for generating a representative speech segment;
A speech waveform generation function for generating a speech waveform by connecting the generated representative speech segments;
Is to realize
In the selection function, N and M (N <M) speech segments are selected,
In the representative speech segment generation function,
An average value of power information of the selected M speech units is obtained,
An average value of power information of the selected N speech units is obtained,
Obtaining a correction value for correcting the average value of the power information of the N speech units to be an average value of the power information of the M speech units;
Correcting each of the N speech segments by applying the correction value;
The speech synthesis program characterized by generating the representative speech unit by fusing the corrected N speech units.
コンピュータに、
前記合成単位に対応する複数の音声素片を記憶する記憶機能と、
前記入力されたテキストから得られる音韻系列の各合成単位に対し、前記合成音声の歪みの度合いに基づいて、前記記憶機能に記憶された音声素片から複数の音声素片を選択する選択機能と、
前記選択された複数の音声素片からパワー情報の統計量を求め、前記パワー情報の統計量に基づいて前記合成音声の品質が上がるように前記パワー情報を補正して、前記合成単位に対応する代表音声素片を生成する代表音声素片生成機能と、
前記生成された代表音声素片を接続することにより音声波形を生成する音声波形生成機能と、
を実現させるためのものであり、
前記選択機能においてはN個及びM個(N<M)の音声素片をそれぞれ選択し、
前記代表音声素片生成機能においては、
前記選択されたM個の音声素片からパワー情報の統計量を求め、
前記選択されたN個の音声素片のパワー情報をそれぞれ求め、
前記求めたパワー情報の統計量及び前記N個の音声素片のパワー情報に基づいて前記N個の音声素片それぞれの重みを決定し、
前記重みに基づいてN個の音声素片を融合することにより前記代表音声素片を生成する
ことを特徴とする音声合成プログラム。 In a speech synthesis program for generating synthesized speech by dividing a phoneme sequence obtained from input text into predetermined synthesis units, obtaining representative speech units for each synthesis unit, and connecting these representative speech units,
On the computer,
A storage function for storing a plurality of speech segments corresponding to the synthesis unit;
A selection function for selecting a plurality of speech units from the speech units stored in the storage function based on the degree of distortion of the synthesized speech for each synthesis unit of the phoneme sequence obtained from the input text; ,
A statistic of power information is obtained from the plurality of selected speech segments, and the power information is corrected based on the statistic of the power information so as to improve the quality of the synthesized speech, thereby corresponding to the synthesis unit. A representative speech segment generation function for generating a representative speech segment;
A speech waveform generation function for generating a speech waveform by connecting the generated representative speech segments;
Is to realize
In the selection function, N and M (N <M) speech segments are selected,
In the representative speech segment generation function,
A power information statistic is determined from the selected M speech segments;
Obtaining power information of each of the selected N speech segments;
Determining the weight of each of the N speech units based on the statistic of the obtained power information and the power information of the N speech units;
The speech synthesis program characterized in that the representative speech unit is generated by fusing N speech units based on the weights.
コンピュータに、
前記合成単位に対応する複数の音声素片を記憶する記憶機能と、
前記入力されたテキストから得られる音韻系列の各合成単位に対し、前記合成音声の歪みの度合いに基づいて、前記記憶機能に記憶された音声素片から複数の音声素片を選択する選択機能と、
前記選択された複数の音声素片からパワー情報の統計量を求め、前記パワー情報の統計量に基づいて前記合成音声の品質が上がるように前記パワー情報を補正して、前記合成単位に対応する代表音声素片を生成する代表音声素片生成機能と、
前記生成された代表音声素片を接続することにより音声波形を生成する音声波形生成機能と、
を実現させるためのものであり、
前記選択機能においてはN個及びM個(N<M)の音声素片をそれぞれ選択し、
前記代表音声素片生成機能においては、
前記選択されたM個の音声素片のパワー情報の統計量から前記パワー情報の分布が所定確率以上になる区間、または、前記パワー情報の四分位範囲に基づいて区間を求め、
前記選択されたN個の音声素片のパワー情報をそれぞれ求め、
前記N個の音声素片のパワー情報が前記区間から外れる場合は前記選択すべき音声素片から除外し、
前記選択されたN個の音声素片のうち、前記区間内にある音声素片を融合することにより前記代表音声素片を生成する
ことを特徴とする音声合成プログラム。 In a speech synthesis program for generating synthesized speech by dividing a phoneme sequence obtained from input text into predetermined synthesis units, obtaining representative speech units for each synthesis unit, and connecting these representative speech units,
On the computer,
A storage function for storing a plurality of speech segments corresponding to the synthesis unit;
A selection function for selecting a plurality of speech units from the speech units stored in the storage function based on the degree of distortion of the synthesized speech for each synthesis unit of the phoneme sequence obtained from the input text; ,
A statistic of power information is obtained from the plurality of selected speech segments, and the power information is corrected based on the statistic of the power information so as to improve the quality of the synthesized speech, thereby corresponding to the synthesis unit. A representative speech segment generation function for generating a representative speech segment;
A speech waveform generation function for generating a speech waveform by connecting the generated representative speech segments;
Is to realize
In the selection function, N and M (N <M) speech segments are selected,
In the representative speech segment generation function,
A section where the distribution of the power information is a predetermined probability or more from a statistic of power information of the selected M speech units, or a section based on the quartile range of the power information,
Obtaining power information of each of the selected N speech segments;
If the power information of the N speech units is out of the section, exclude it from the speech unit to be selected,
The speech synthesis program characterized by generating the representative speech unit by fusing speech units within the section among the selected N speech units .
コンピュータに、
前記合成単位に対応する複数の音声素片を記憶する記憶機能と、
前記入力されたテキストから得られる音韻系列の各合成単位に対し、前記合成音声の歪みの度合いに基づいて、前記記憶機能に記憶された音声素片から複数の音声素片を選択する選択機能と、
前記選択された複数の音声素片からパワー情報の統計量を求め、前記パワー情報の統計量に基づいて前記合成音声の品質が上がるように前記パワー情報を補正して、前記合成単位に対応する代表音声素片を生成する代表音声素片生成機能と、
前記生成された代表音声素片を接続することにより音声波形を生成する音声波形生成機能と、
を実現させるためのものであり、
前記選択機能においてはM個の音声素片及び前記合成音声の歪みの度合いが少ない最適な音声素片を選択し、
前記代表音声素片生成機能においては、
前記選択されたM個の音声素片からパワー情報の平均値を求め、
前記最適な音声素片のパワー情報が、前記パワー情報の平均値となるように補正して前記代表音声素片を生成する
ことを特徴とする音声合成プログラム。 In a speech synthesis program for generating synthesized speech by dividing a phoneme sequence obtained from input text into predetermined synthesis units, obtaining representative speech units for each synthesis unit, and connecting these representative speech units,
On the computer,
A storage function for storing a plurality of speech segments corresponding to the synthesis unit;
A selection function for selecting a plurality of speech units from the speech units stored in the storage function based on the degree of distortion of the synthesized speech for each synthesis unit of the phoneme sequence obtained from the input text; ,
A statistic of power information is obtained from the plurality of selected speech segments, and the power information is corrected based on the statistic of the power information so as to improve the quality of the synthesized speech, thereby corresponding to the synthesis unit. A representative speech segment generation function for generating a representative speech segment;
A speech waveform generation function for generating a speech waveform by connecting the generated representative speech segments;
Is to realize
In the selection function, M speech units and an optimal speech unit with a low degree of distortion of the synthesized speech are selected,
In the representative speech segment generation function,
An average value of power information is obtained from the selected M speech segments,
The speech synthesis program, wherein the representative speech segment is generated by correcting power information of the optimal speech segment to be an average value of the power information.
コンピュータに、
前記合成単位に対応する複数の音声素片を記憶する記憶機能と、
前記入力されたテキストから得られる音韻系列の各合成単位に対し、前記合成音声の歪みの度合いに基づいて、前記記憶機能に記憶された音声素片から複数の音声素片を選択する選択機能と、
前記選択された複数の音声素片からパワー情報の統計量を求め、前記パワー情報の統計量に基づいて前記合成音声の品質が上がるように前記パワー情報を補正して、前記合成単位に対応する代表音声素片を生成する代表音声素片生成機能と、
前記生成された代表音声素片を接続することにより音声波形を生成する音声波形生成機能と、
を実現させるためのものであり、
前記選択機能においてはM個の音声素片を選択し、
前記代表音声素片生成機能においては、
前記選択されたM個の音声素片のパワー情報の統計量から前記パワー情報の分布が所定確率以上になる区間、または、前記パワー情報の四分位範囲に基づいて区間を求め、
前記パワー情報の区間に含まれるパワー情報を有する音声素片の中から前記合成音声の歪みの度合いが少ない最適な音声素片を選択することにより前記代表音声素片を生成する
ことを特徴とする音声合成プログラム。 In a speech synthesis program for generating synthesized speech by dividing a phoneme sequence obtained from input text into predetermined synthesis units, obtaining representative speech units for each synthesis unit, and connecting these representative speech units,
On the computer,
A storage function for storing a plurality of speech segments corresponding to the synthesis unit;
A selection function for selecting a plurality of speech units from the speech units stored in the storage function based on the degree of distortion of the synthesized speech for each synthesis unit of the phoneme sequence obtained from the input text; ,
A statistic of power information is obtained from the plurality of selected speech segments, and the power information is corrected based on the statistic of the power information so as to improve the quality of the synthesized speech, thereby corresponding to the synthesis unit. A representative speech segment generation function for generating a representative speech segment;
A speech waveform generation function for generating a speech waveform by connecting the generated representative speech segments;
Is to realize
In the selection function, M speech segments are selected,
In the representative speech segment generation function,
A section where the distribution of the power information is a predetermined probability or more from a statistic of power information of the selected M speech units, or a section based on the quartile range of the power information,
The representative speech unit is generated by selecting an optimal speech unit having a low degree of distortion of the synthesized speech from speech units having power information included in the power information section. Speech synthesis program.
Priority Applications (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2005096526A JP4551803B2 (en) | 2005-03-29 | 2005-03-29 | Speech synthesizer and program thereof |
US11/233,092 US7630896B2 (en) | 2005-03-29 | 2005-09-23 | Speech synthesis system and method |
CN2006100585044A CN1841497B (en) | 2005-03-29 | 2006-03-10 | Speech synthesis system and method |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2005096526A JP4551803B2 (en) | 2005-03-29 | 2005-03-29 | Speech synthesizer and program thereof |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2006276528A JP2006276528A (en) | 2006-10-12 |
JP4551803B2 true JP4551803B2 (en) | 2010-09-29 |
Family
ID=37030482
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2005096526A Expired - Lifetime JP4551803B2 (en) | 2005-03-29 | 2005-03-29 | Speech synthesizer and program thereof |
Country Status (3)
Country | Link |
---|---|
US (1) | US7630896B2 (en) |
JP (1) | JP4551803B2 (en) |
CN (1) | CN1841497B (en) |
Families Citing this family (20)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7369994B1 (en) * | 1999-04-30 | 2008-05-06 | At&T Corp. | Methods and apparatus for rapid acoustic unit selection from a large speech corpus |
JP2006309162A (en) * | 2005-03-29 | 2006-11-09 | Toshiba Corp | Pitch pattern generating method and apparatus, and program |
JP2008033133A (en) * | 2006-07-31 | 2008-02-14 | Toshiba Corp | Voice synthesis device, voice synthesis method and voice synthesis program |
JP2008185805A (en) * | 2007-01-30 | 2008-08-14 | Internatl Business Mach Corp <Ibm> | Technology for creating high quality synthesis voice |
JP5177135B2 (en) * | 2007-05-08 | 2013-04-03 | 日本電気株式会社 | Speech synthesis apparatus, speech synthesis method, and speech synthesis program |
US8027835B2 (en) * | 2007-07-11 | 2011-09-27 | Canon Kabushiki Kaisha | Speech processing apparatus having a speech synthesis unit that performs speech synthesis while selectively changing recorded-speech-playback and text-to-speech and method |
JP2009047957A (en) * | 2007-08-21 | 2009-03-05 | Toshiba Corp | Pitch pattern generation method and system thereof |
JP5238205B2 (en) * | 2007-09-07 | 2013-07-17 | ニュアンス コミュニケーションズ,インコーポレイテッド | Speech synthesis system, program and method |
JP5159279B2 (en) * | 2007-12-03 | 2013-03-06 | 株式会社東芝 | Speech processing apparatus and speech synthesizer using the same. |
JP2010008853A (en) * | 2008-06-30 | 2010-01-14 | Toshiba Corp | Speech synthesizing apparatus and method therefof |
JP5075865B2 (en) * | 2009-03-25 | 2012-11-21 | 株式会社東芝 | Audio processing apparatus, method, and program |
JP5320363B2 (en) * | 2010-03-26 | 2013-10-23 | 株式会社東芝 | Speech editing method, apparatus, and speech synthesis method |
WO2013008384A1 (en) * | 2011-07-11 | 2013-01-17 | 日本電気株式会社 | Speech synthesis device, speech synthesis method, and speech synthesis program |
EP2634769B1 (en) * | 2012-03-02 | 2018-11-07 | Yamaha Corporation | Sound synthesizing apparatus and sound synthesizing method |
US9978359B1 (en) * | 2013-12-06 | 2018-05-22 | Amazon Technologies, Inc. | Iterative text-to-speech with user feedback |
JP6392012B2 (en) * | 2014-07-14 | 2018-09-19 | 株式会社東芝 | Speech synthesis dictionary creation device, speech synthesis device, speech synthesis dictionary creation method, and speech synthesis dictionary creation program |
CN104240703B (en) * | 2014-08-21 | 2018-03-06 | 广州三星通信技术研究有限公司 | Voice information processing method and device |
JP6293912B2 (en) * | 2014-09-19 | 2018-03-14 | 株式会社東芝 | Speech synthesis apparatus, speech synthesis method and program |
EP3625791A4 (en) * | 2017-05-18 | 2021-03-03 | Telepathy Labs, Inc. | ARTIFICIAL INTELLIGENCE BASED TEXT-TO-LANGUAGE SYSTEM AND PROCESS |
KR102637341B1 (en) * | 2019-10-15 | 2024-02-16 | 삼성전자주식회사 | Method and apparatus for generating speech |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH0792997A (en) * | 1993-09-22 | 1995-04-07 | N T T Data Tsushin Kk | Speech synthesizing device |
JP2001282276A (en) * | 2000-03-31 | 2001-10-12 | Canon Inc | Method and device for voice synthesis and storage medium |
JP2003271172A (en) * | 2002-03-15 | 2003-09-25 | Sony Corp | Method and apparatus for voice synthesis, program, recording medium and robot apparatus |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE69028072T2 (en) * | 1989-11-06 | 1997-01-09 | Canon Kk | Method and device for speech synthesis |
JP3368948B2 (en) | 1993-10-04 | 2003-01-20 | セコム株式会社 | Voice rule synthesizer |
JPH1039895A (en) * | 1996-07-25 | 1998-02-13 | Matsushita Electric Ind Co Ltd | Speech synthesising method and apparatus therefor |
JP3349905B2 (en) * | 1996-12-10 | 2002-11-25 | 松下電器産業株式会社 | Voice synthesis method and apparatus |
JP3361066B2 (en) * | 1998-11-30 | 2003-01-07 | 松下電器産業株式会社 | Voice synthesis method and apparatus |
-
2005
- 2005-03-29 JP JP2005096526A patent/JP4551803B2/en not_active Expired - Lifetime
- 2005-09-23 US US11/233,092 patent/US7630896B2/en not_active Expired - Fee Related
-
2006
- 2006-03-10 CN CN2006100585044A patent/CN1841497B/en not_active Expired - Fee Related
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH0792997A (en) * | 1993-09-22 | 1995-04-07 | N T T Data Tsushin Kk | Speech synthesizing device |
JP2001282276A (en) * | 2000-03-31 | 2001-10-12 | Canon Inc | Method and device for voice synthesis and storage medium |
JP2003271172A (en) * | 2002-03-15 | 2003-09-25 | Sony Corp | Method and apparatus for voice synthesis, program, recording medium and robot apparatus |
Also Published As
Publication number | Publication date |
---|---|
US20060224391A1 (en) | 2006-10-05 |
US7630896B2 (en) | 2009-12-08 |
JP2006276528A (en) | 2006-10-12 |
CN1841497A (en) | 2006-10-04 |
CN1841497B (en) | 2010-06-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4080989B2 (en) | Speech synthesis method, speech synthesizer, and speech synthesis program | |
JP4551803B2 (en) | Speech synthesizer and program thereof | |
JP5038995B2 (en) | Voice quality conversion apparatus and method, speech synthesis apparatus and method | |
US7580839B2 (en) | Apparatus and method for voice conversion using attribute information | |
US8010362B2 (en) | Voice conversion using interpolated speech unit start and end-time conversion rule matrices and spectral compensation on its spectral parameter vector | |
JP4469883B2 (en) | Speech synthesis method and apparatus | |
JP3910628B2 (en) | Speech synthesis apparatus, speech synthesis method and program | |
JP5159325B2 (en) | Voice processing apparatus and program thereof | |
JP4406440B2 (en) | Speech synthesis apparatus, speech synthesis method and program | |
JP4738057B2 (en) | Pitch pattern generation method and apparatus | |
JP2009133890A (en) | Voice synthesizing device and method | |
JP3281266B2 (en) | Speech synthesis method and apparatus | |
JP5874639B2 (en) | Speech synthesis apparatus, speech synthesis method, and speech synthesis program | |
JP3281281B2 (en) | Speech synthesis method and apparatus | |
JP5328703B2 (en) | Prosody pattern generator | |
Gonzalvo et al. | HMM-based Spanish speech synthesis using CBR as F0 estimator | |
Chunwijitra et al. | A tone-modeling technique using a quantized F0 context to improve tone correctness in average-voice-based speech synthesis | |
JP4476855B2 (en) | Speech synthesis apparatus and method | |
JP5106274B2 (en) | Audio processing apparatus, audio processing method, and program | |
JP4034751B2 (en) | Speech synthesis apparatus, speech synthesis method, and speech synthesis program | |
JP2007004011A (en) | Voice synthesizier, method, and program, and its recording medium | |
EP1589524B1 (en) | Method and device for speech synthesis | |
WO2013014858A1 (en) | Pitch pattern generation method, pitch pattern generation device, audio synthesizing device, and pitch pattern generation program | |
JP2006084854A (en) | Device, method, and program for speech synthesis | |
EP1640968A1 (en) | Method and device for speech synthesis |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20090609 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20090805 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20100119 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20100202 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20100615 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20100712 |
|
R151 | Written notification of patent or utility model registration |
Ref document number: 4551803 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R151 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130716 Year of fee payment: 3 |