JP5148278B2 - Method and system for selecting a language for text segmentation - Google Patents
Method and system for selecting a language for text segmentation Download PDFInfo
- Publication number
- JP5148278B2 JP5148278B2 JP2007534758A JP2007534758A JP5148278B2 JP 5148278 B2 JP5148278 B2 JP 5148278B2 JP 2007534758 A JP2007534758 A JP 2007534758A JP 2007534758 A JP2007534758 A JP 2007534758A JP 5148278 B2 JP5148278 B2 JP 5148278B2
- Authority
- JP
- Japan
- Prior art keywords
- language
- result
- computer
- search engine
- determining
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000011218 segmentation Effects 0.000 title claims description 86
- 238000000034 method Methods 0.000 title claims description 42
- 238000003672 processing method Methods 0.000 claims description 2
- 230000006870 function Effects 0.000 description 8
- 238000000638 solvent extraction Methods 0.000 description 7
- 238000005192 partition Methods 0.000 description 5
- 238000013500 data storage Methods 0.000 description 4
- 230000004044 response Effects 0.000 description 4
- 238000010586 diagram Methods 0.000 description 3
- 239000003814 drug Substances 0.000 description 3
- 229940079593 drug Drugs 0.000 description 3
- 230000005540 biological transmission Effects 0.000 description 2
- 239000000463 material Substances 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 241000447437 Gerreidae Species 0.000 description 1
- 239000000654 additive Substances 0.000 description 1
- 230000000996 additive effect Effects 0.000 description 1
- 230000009193 crawling Effects 0.000 description 1
- 230000035515 penetration Effects 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/232—Orthographic correction, e.g. spell checking or vowelisation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/263—Language identification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Machine Translation (AREA)
- Information Transfer Between Computers (AREA)
- Document Processing Apparatus (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
本発明は、概してテキスト分割に関するものであり、特に、テキスト分割のために言語を選択することに関するものである。 The present invention relates generally to text segmentation, and more particularly to selecting a language for text segmentation.
テキストを示すデータの解釈を試みるテキスト処理方法およびシステムが存在している。テキスト処理は、言葉または他のトークンを示して分割できない文字列を有するテキストが受け取られたとき、より困難となる。トークンは、単語、頭文字語、簡略名、固有名、地理的名称、株式市場ティッカーシンボル、または他のトークンとすることができる。一般に、文字列は、既存の方法およびシステムを使用して、分割された文字列の複数の組合せに分割することができる。そのテキストを選択して使用するために正確な言葉を選択することで、より有意義な結果を出すことができる。 Text processing methods and systems exist that attempt to interpret data representing text. Text processing becomes more difficult when text is received that has a string that cannot be split to indicate words or other tokens. Tokens can be words, acronyms, short names, proper names, geographic names, stock market ticker symbols, or other tokens. In general, a string can be split into multiple combinations of split strings using existing methods and systems. Choosing the exact words to select and use the text can yield more meaningful results.
本発明の実施形態は、テキスト分割のために言語を選択する方法およびシステムを有している。本発明の一実施形態は、文字列に関連付けられている第1候補言語および第2候補言語を少なくとも特定するステップと、前記文字列から前記第1候補言語に関連付けられている第1分割結果を少なくとも決定するとともに、前記文字列から前記第2候補言語に関連付けられている第2分割結果を少なくとも決定するステップと、前記第1分割結果について第1出現頻度を決定するとともに、前記第2分割結果について第2出現頻度を決定するステップと、少なくとも前記第1出現頻度および第2出現頻度の一部に基づいて、前記第1候補言語および第2候補言語から実施可能言語を特定するステップと、を有する。 Embodiments of the invention have a method and system for selecting a language for text segmentation. According to an embodiment of the present invention, at least a first candidate language and a second candidate language associated with a character string are specified, and a first division result associated with the first candidate language from the character string Determining at least a second division result associated with the second candidate language from the character string; determining a first appearance frequency for the first division result; and determining the second division result. Determining a second appearance frequency for, and identifying an executable language from the first candidate language and the second candidate language based on at least a part of the first appearance frequency and the second appearance frequency. Have.
この例示的実施形態は、本発明を限定または定義するものではないが、本発明についての理解を支援するための本発明の実施形態の一例を提供する。例示的実施形態が詳細な説明において記載されており、さらにそこで本発明の詳細が記載されている。本発明の様々な実施形態で示された利点は、本明細書を検討することによってさらに理解することができる。 This exemplary embodiment does not limit or define the invention, but provides an example of an embodiment of the invention to assist in understanding the invention. Illustrative embodiments are described in the detailed description, and further details of the invention are described there. The advantages demonstrated in the various embodiments of the present invention can be further understood by reviewing the specification.
本発明のこれらおよび他の特徴、態様および利点は、以下の詳細な説明が添付図面を参照して読み取られることで、より良く理解される。 These and other features, aspects and advantages of the present invention will be better understood when the following detailed description is read with reference to the accompanying drawings, in which:
<序論>
本発明の実施形態は、テキスト分割のために言語を選択する方法およびシステムを有する。本発明について複数の実施形態がある。序論および実施形態として、本発明の一例の実施形態は、複数のトークンまたは単語の中のドメインネームのような、文字列の正確な言語を選択することで、文字列の分割を改善する方法として提供される。文字列についての多くの可能(potential)または候補言語が、前記文字列に関連している言語、ユーザに関連しているIPアドレス、前記文字列で使用された文字セット、前記ユーザに関連づけられたブラウザ・アプリケーション・プログラムのブラウザ設定、および前記文字列に関連づけられた最上位のドメインのような、様々な信号に基づいて選択することができる。文字列は、各候補言語を使用して多くの分割結果に区分することができる。各分割結果は、単語または他のトークンの特定の組合せとなることができる。例えば、文字列「usedrugs」は、英語についての以下の分割結果に分割することができる。
「used rugs」、「use drugs」、「us ed rugs」など。
各候補言語の分割結果のこの数から、実施可能分割結果および実施可能言語が前記実施可能分割結果を含む前記実施可能言語の中の文書または検索クエリーの数に基づいて特定できる。
<Introduction>
Embodiments of the invention have a method and system for selecting a language for text segmentation. There are several embodiments of the present invention. As an introduction and embodiment, an example embodiment of the present invention is a method for improving string segmentation by selecting the exact language of a string, such as a domain name in multiple tokens or words. Provided. Many potential or candidate languages for a string are associated with the language associated with the string, the IP address associated with the user, the character set used in the string, and the user The selection can be based on various signals, such as the browser settings of the browser application program and the top-level domain associated with the string. The character string can be divided into a number of division results using each candidate language. Each split result can be a specific combination of words or other tokens. For example, the character string “usedrugs” can be divided into the following division results for English.
“Used rugs”, “use drugs”, “us ed rugs”, etc.
From this number of segmentation results for each candidate language, the feasible segmentation result and the feasible language can be identified based on the number of documents or search queries in the feasible language that includes the feasible segmentation result.
例えば、最良の実施可能分割結果になるための最高確率の分割結果が各候補言語について選択できる。サーチエンジンは、選択された分割結果を有する文書または検索クエリーの数を決定することができるとともに、各候補言語の中の各選択された分割結果についてこれをすることができる。一実施形態として、特定の言語における文書または検索クエリーの中で最大頻度で生じる分割結果は、最良の実施可能分割結果として特定することができる。前記最良の実施可能分割結果に関連している言語は、最良の実施可能言語として特定することができる。また、前記候補言語の決定に使用された言語信号は、前記実施可能言語の選択に使用することができる。前記実施可能分割結果および実施可能言語は、言語および結果に基づいて広告を選択することを有する各種の機能を使用することができる。 For example, the division result with the highest probability to be the best feasible division result can be selected for each candidate language. The search engine can determine the number of documents or search queries that have the selected segmentation result and can do this for each selected segmentation result in each candidate language. In one embodiment, the segmentation result that occurs most frequently in a document or search query in a particular language can be identified as the best feasible segmentation result. The language associated with the best feasible partitioning result can be identified as the best feasible language. The language signal used for determining the candidate language can be used for selecting the executable language. The feasible segmentation result and the feasible language may use various functions including selecting an advertisement based on the language and the result.
この序論は、本発明の一般的な内容を利用者に紹介するためにある。本発明は、そのような内容に決して限定されない。一例としての実施形態が以下で説明されている。 This introduction is in order to introduce the general contents of the present invention to the user. The present invention is in no way limited to such contents. An exemplary embodiment is described below.
<システム構造>
本発明に従った様々なシステムが構成できる。図1は、本発明として動作可能な実施形態の一例のシステムの図を示している。また、本発明は、他のシステムとして、動作可能であるとともに、実施可能である。参照している図面では、いくつかの図面を通して同様の要素には同様の番号が付いており、図1は、本発明の実施形態を実施するための環境の一例を示す図である。図1に示すシステム100は、ネットワーク106を渡ってサーバ装置104およびサーバ装置150と通信する複数のクライアント装置102a−nを有する。一実施形態として、示されたネットワーク106は、インターネットを有する。他の実施形態として、イントラネット、WANまたはLANのような、他のネットワークを使用することができる。さらに、本発明に係る方法は、1台のコンピュータで動作することもできる。
<System structure>
Various systems according to the present invention can be configured. FIG. 1 shows a diagram of an example system that is operable as the present invention. In addition, the present invention can be operated and implemented as another system. In the referenced drawings, like elements are numbered similarly throughout the several views, and FIG. 1 is a diagram illustrating an example environment for practicing embodiments of the present invention. A
図1に示されたクライアント装置102a−nは、プロセッサ110に接続されたランダム・アクセス・メモリ(RAM)108のような、コンピュータ読み取り可能媒体を、それぞれ有している。プロセッサ110は、メモリ108に記憶されたコンピュータ実行可能なプログラム命令を実行する。そのようなプロセッサは、マイクロプロセッサ、ASIC、および状態マシンを有するものとしてもよい。また、そのようなプロセッサは、例えば、コンピュータ読み取り可能な媒体などの媒体と通信するものとしてもよい。前記コンピュータ読み取り可能な媒体は、ここに記載されたステップを実行するように前記プロセッサを動作させるものであって、前記プロセッサによって実行される命令を記憶する。コンピュータ読み取り可能媒体は、電子式、光学式、磁気式または他の記憶装置を有し、またはクライアント102aのプロセッサ110ようなプロセッサに、コンピュータ読み取り可能な命令を提供することが可能な他の伝送装置を有するが、これらに限定されない。適当な媒体の他の実施形態としては、プロッピーディスク(登録商標)、CD−ROM、DVD、磁気ディスク、メモリチップ、ROM、RAM、ASIC、構成プロセッサ、全ての光学媒体、全ての磁気テープ、または他の磁気媒体、またはコンピュータプロセッサが命令を読み取ることができるあらゆる他の適当な媒体を有するが、これらに限定されない。また、コンピュータ読み取り可能な媒体の様々な他の形式が、ルータ、私的のまたは公的ネットワーク、または他の伝送装置またはチャネル、有線および無線の両方を有して、命令をコンピュータに伝送するまたは運ぶことができる。前記命令は、例えば、C、C++、ビジュアルベーシック、ジャバ、パイソン、パール、およびジャバスクリプトなどを含む、あらゆるコンピュータ・プログラミング言語のコードを有することとしてもよい。
The client devices 102a-n shown in FIG. 1 each have a computer readable medium, such as a random access memory (RAM) 108 connected to the
また、クライアント装置102a−nは、マウス、CD−ROM、DVD、キーボード、ディスプレイ、または他の入出力装置のような、多くの外部または内部装置を有することとしてもよい。クライアント装置102a−nの実施形態としては、パーソナルコンピュータ、デジタル・アシスタント、携帯情報端末、携帯電話、移動電話、スマートフォン、ページャ、デジタルタブレット、ラップトップコンピュータ、インターネット接続専用端末、および他のプロセッサベースの装置が挙げられる。一般に、クライアント装置102aは、ネットワーク106に接続されて一つ以上の応用プログラムと対話処理するものであって、あらゆる適当なタイプのプロセッサベースのプラットフォームとすることができる。クライアント装置102a−nは、マイクロソフト(登録商標)のウィンドウズ(登録商標)またはリナックスのような、ブラウザまたはブラウザで動作するアプリケーションをサポート可能なあらゆるオペレーティング上で動作するものとしてもよい。クライアント装置102a−nは、例えば、マイクロソフト社のインターネットエクスプローラ(登録商標)、ネットスケープコーポレーションズのネットスケープナビゲータ(登録商標)およびアップルコンピュータ社のサファリ(登録商標)のような、ブラウザ・アプリケーション・プログラムを実行するパーソナルコンピュータを含むものを示す。
The client devices 102a-n may also have many external or internal devices, such as a mouse, CD-ROM, DVD, keyboard, display, or other input / output device. Embodiments of client devices 102a-n include personal computers, digital assistants, personal digital assistants, mobile phones, mobile phones, smartphones, pagers, digital tablets, laptop computers, dedicated terminals for Internet connection, and other processor-based Apparatus. In general, client device 102a is connected to
クライアント装置102a−nを介して、ユーザ112a−nは、ネットワーク106に接続された他のシステムおよび装置と、ネットワーク106を渡って、相互に通信することができる。また、図1に示すように、サーバ装置104およびサーバ装置150は、ネットワーク106に接続されている。
Via client devices 102 a-n, users 112 a-n can communicate with each other across
サーバ装置104は分割化エンジン・アプリケーションプログラムを実行するサーバを有するものとすることができ、サーバ装置150はサーチエンジン・アプリケーションプログラムを実行するサーバを有するものとすることができる。クライアント装置102a−nと同様に、図1に示すサーバ装置104およびサーバ装置150は、コンピュータ読み取り可能メモリ118に接続されたプロセッサ116と、コンピュータ読み取り可能メモリ154に接続されたプロセッサ152とを、それぞれを有する。1台のコンピュータシステムのように表現されているサーバ装置104および150は、コンピュータプロセッサのネットワークとして実現されるものとしてもよい。サーバ装置104,150の実施形態は、サーバ、メインフレーム・コンピュータ、ネットワーク・コンピュータ、プロセッサベース装置、および同様なタイプのシステムおよび装置とすることができる。クライアント・プロセッサ110およびサーバプロセッサ116,152は、カルフォルニア州サンタクララのインテル社およびイリノイ州スカンバーブのモトローラ社のプロセッサのような、上記の多くのコンピュータプロセッサのいずれかとすることができる。
The server device 104 may include a server that executes the split engine application program, and the server device 150 may include a server that executes the search engine application program. Similar to the client devices 102a-n, the server device 104 and the server device 150 shown in FIG. 1 each include a
また、メモリ118は、分割化エンジン120として知られている分割化アプリケーションプログラムを有している。サーバ装置104または関連装置は、ネットワーク106に接続された他の装置またはシステムから文字列を受信するために、ネットワーク106にアクセスすることができる。文字は、例えば、ASCII、ユニコード、ISO8859−1、Shift−JIS、および拡張2進化10進符号またはあらゆる他の適当な文字セットのような、文字を表すデータに含まれる書記体型で使用されるマークまたはシンボルを有するものとすることができる。一実施形態として、分割化エンジン120は、ユーザ112aがアクティブでないドメインネームをウェブブラウザ・アプリケーションに指示するとき、ネットワーク106上のサーバ装置から、ドメインネームのような文字列を受信することができる。
The memory 118 also has a segmented application program known as the
一実施形態として、分割化エンジン120は、前記文字列についての候補言語を特定し、各候補言語についてトークンの潜在的(potential)組合せに前記文字列を分割するとともに、前記文字列に関連する特定の言語および組合せを選択する。トークンは、単語、固有名、地名、簡略名、頭文字語、株式市場ティッカーシンボル、または他のトークンを有するものとすることができる。分割化エンジン120は、分割化プロセッサ122、頻度プロセッサ124および言語プロセッサ126を有するものとすることができる。図1に示す実施形態では、それぞれがメモリ118に具備されているコンピュータ・コードを有している。
In one embodiment, the
言語プロセッサ126は、候補言語または文字列の言語を特定することができる。一実施形態として、言語プロセッサ126は、文字列について多くの候補言語を特定するために、信号を使用することができる。例えば、前記言語プロセッサは、言語学と、ユーザのIPアドレスと、文字列で使用された文字セットと、ユーザに関連づけられたブラウザ・アプリケーション・プログラムのブラウザ設定と、前記文字列に関連づけられた最上位のドメインとを、前記文字列の候補言語決定するために、使用することができる。
The
分割化プロセッサ122は、各候補言語について文字列からトークンまたは分割結果の潜在的組合せのリストを決定することができる。一実施形態として、トークンプロセッサ124は、前記リストの中の各分割結果の確率を決定するとともに、前記確率に基づいて各言語について最高分割結果を選択する。分割結果についての前記確率は、前記結果における個々のトークンに関連する頻度値に基づくものとすることができる。一実施形態として、分割されていない文字列が分割結果として含まれているものとしてもよい。
The
頻度プロセッサ124は、頻度検索を実行すること、または各候補言語の最高に選択された分割結果について実行することができる。頻度プロセッサ124は、選択された分割結果についてスペルチェックを実行するために、スペルチェック機能を有することができ、または他の場所にあるスペルチェック機能を呼ぶことができる。あらゆるスペル修正結果が前記頻度検索に含まれることとすることができる。一実施形態として、頻度プロセッサは、選択された分割結果について頻度検索を実行するために、選択された分割結果をサーバ装置150に送信する。頻度検索は、以下で説明するように、各特定分割結果について出現頻度を決定することができる。前記頻度検索に基づいて、最高または実施可能分割結果が分割化プロセッサ122によって特定することができる。前記実施可能な結果に関連する言語は、文字列についての実施可能言語として分割化プロセッサ122によって特定できる。一実施形態として、実施可能分割結果および実施可能言語は、広告サーバに送信することができる。広告サーバは、前記実施可能言語および前記選択された結果の一方または両方に基づいて、対象とする広告を選択することができる。分割化プロセッサ122と、頻度プロセッサ124と、言語プロセッサ126との他の機能および特徴は、さらに以下で説明される。
The
また、サーバ装置104は、トークン・データベース120が示された実施形態において、トークン記憶要素のような、他の記憶要素へのアクセスを提供する。トークン・データベース120は、トークンおよび各トークンに関連する頻度情報を記憶することに使用することができる。また、トークン・データベース120は、言語または各トークンに関連する言語を記憶することができる。データ記憶要素は、データ記憶方法として、無制限の包含と、配列と、ハッシュテーブルと、リストと、組とのいずか一つまたは組合せを有することとしてもよい。サーバ装置104は、他の同様なタイプのデータ記憶装置にアクセスすることができる。
Server device 104 also provides access to other storage elements, such as token storage elements, in the embodiment in which
サーバ装置150は、グーグル(登録商標)サーチエンジンのようなサーチエンジン・アプリケーションプログラムを実行するサーバを有することができる。他の実施形態として、サーな装置150は、関連情報サーバまたは広告サーバを有することができる。他の実施形態として、多重サーバ装置150とすることができる。 The server device 150 may include a server that executes a search engine application program such as a Google (registered trademark) search engine. As another example, the smart device 150 may have a related information server or an advertisement server. As another embodiment, the multi-server device 150 may be used.
メモリ154は、また、サーチエンジン156として知られているサーチエンジン・アプリケーションプログラムを有している。サーチエンジン156は、ユーザ112aからの検索クエリーに対応して、ネットワーク106から関連情報の場所を見つけることができるとともに、検索クエリーの検索ログを維持することができる。また、サーチエンジン156は、頻度プロセッサ124からの頻度検索要求に対応して、頻度検索を実行することができる。サーチエンジン156は、ネットワーク106を介して、ユーザ112aに検索結果セットを提供することができ、または、分割化エンジン120に頻度情報を提供することができる。
Memory 154 also has a search engine application program known as search engine 156. The search engine 156 can find the location of relevant information from the
一実施形態として、サーバ装置150、または関連装置は、ネットワーク106に接続された他の装置またはシステムに記憶された、ウェブページのような記事(article)の場所を見つけるために、ネットワーク106を巡回すること(crawl)を事前に実行する。記事には、例えば、文書、メール、インスタントメッセンジャメッセージ、データベースエントリ、様々なフォーマットのウェブページ、HTMLや、XMLや、XHTMLや、ポータブル・ドキュメント・フォーマット(PDF)ファイルや、雑誌新聞広告欄案内などのような、イメージ・ファイルや、オーディオファイルや、ビデオファイルや、またはあらゆる他の文書など、または文書グループまたはあらゆる適当なタイプの全ての情報などが含まれる。索引装置(indexer)158は、インデックス160のような、メモリ154または他のデータ記憶装置内の前記記事に索引をつけることに使用することができる。また、インデックスは、言語または各記事に関連する言語を有することとしてもよい。一実施形態として、総合記事索引の部分をそれぞれ有している複数のインデックスがある。巡回すること(crawling)の代わりとなる、または組み合わされる、記事に索引をつける他の適当な方法がある、と理解されるべきである。
In one embodiment, the server device 150, or associated device, crawls the
サーチエンジン156は、多くの適当な方法で頻度検索を実行することができる。一実施形態として、サーチエンジン156は、検索クエリーとしてそれぞれの最高選択分割結果を使用することでウェブ検索を実行することができるとともに、分割結果の候補言語の中で検索クエリーを有する記事を検索することができる。本実施形態において、頻度検索結果セットは、生成できるとともに、1つ以上の記事識別子を有することとすることができる。例えば、記事識別子は、全域資源位置指示子(URL)、ファイル名、リンク、アイコン、ローカルファイルのためのパス、または記事を特定する他の何か、とすることができる。一実施形態として、記事識別子は、記事に関連するURLを有することができる。 The search engine 156 can perform a frequency search in many suitable ways. In one embodiment, the search engine 156 can perform a web search by using each of the highest selected segmentation results as a search query, and searches for articles having the search query in the candidate languages of the segmentation results. be able to. In the present embodiment, the frequency search result set can be generated and can have one or more article identifiers. For example, an article identifier can be a global resource location indicator (URL), a file name, a link, an icon, a path for a local file, or something else that identifies an article. As one embodiment, the article identifier may have a URL associated with the article.
頻度プロセッサ124は、各分割結果の発生回数を表示するものとして、各頻度検索結果セットの中での記事識別子の数を使用することができる。他の実施形態としては、頻度プロセッサ124は、索引装置158に直接インターフェースすることができる。索引装置158は、分割結果が現れる関連候補言語の中の記事の数を、それぞれの最高選択分割結果について、決定することができる。この情報は、頻度プロセッサ124に送信することができる。また、他の実施形態として、サーチエンジン156および/または頻度プロセッサ124は、検索ログの中から関連候補言語の中の検索クエリーの発生回数を、それぞれの選択分割結果について、決定することができるとともに、頻度プロセッサ124は、この検索ログ情報に基づいた出現頻度を、決定することができる。一実施形態として、分割結果に関連する頻度検索における記事または検索クエリーの数は、関連言語の中の記事または検索クエリーの総数に基づいて正規化するものとしてもよい。
The
本発明は、図1に示されたものとは異なる構造のシステムを有することとしてもよいことに留意するべきである。例えば、本発明に従った何らかのシステムにおいて、サーバ装置104は、1台の物理的または論理的サーバを有することとしてもよい。図1に示すシステム100は、単なる例であるとともに、図2に示す方法の説明を補助するために使用される。
It should be noted that the present invention may have a system with a different structure than that shown in FIG. For example, in any system according to the present invention, the server device 104 may have one physical or logical server. The
<処理>
本発明の実施形態に係る様々な方法が実施できる。本発明に従った一例の方法は、文字列に関連する第1候補言語および第2候補言語を少なくとも特定するステップと、前記文字列から前記第1候補言語に関連する第1分割結果を少なくとも決定するとともに、前記文字列から前記第2候補言語に関連する第2分割結果を少なくとも決定するステップと、前記第1分割結果について第1出現頻度を決定するとともに、前記第2分割結果について第2出現頻度を決定するステップと、前記第1出現頻度および第2出現頻度の一部に少なくとも基づいて、前記第1候補言語および第2候補言語から実施可能言語を特定するステップと、を有する。2つ以上の候補言語が特定できるとともに、2つ以上の分割結果が決定できる。例えば、3つの候補言語が特定できるとともに、4つの分割結果が各候補言語について決定できる。
<Processing>
Various methods according to embodiments of the present invention can be implemented. An example method according to the invention includes at least identifying a first candidate language and a second candidate language associated with a character string, and at least determining a first segmentation result associated with the first candidate language from the character string. And determining at least a second division result related to the second candidate language from the character string; determining a first appearance frequency for the first division result; and a second appearance for the second division result Determining a frequency, and identifying an executable language from the first candidate language and the second candidate language based at least on part of the first appearance frequency and the second appearance frequency. Two or more candidate languages can be specified, and two or more division results can be determined. For example, three candidate languages can be identified and four division results can be determined for each candidate language.
前記実施可能言語は、前記第1出現頻度および第2出現頻度の一部に少なくとも基づく第1分割結果および第2分割結果から、実施可能分割結果を特定するものの一部に基づいて決定することができる。第1候補言語および第2候補言語は、1つ以上の言語信号の一部に基づいて特定されることとしてもよい。前記言語信号は、前記文字列に関連づけられた言語学と、前記文字列に関連づけられたユーザのIPアドレスと、前記文字列に使用された文字セットと、前記文字列に関連づけられたユーザに関連するブラウザ・アプリケーション・プログラムのブラウザ設定と、前記文字列に関連する最上位のドメインと、の少なくとも一つを有することができる。一実施形態として、前記実施可能言語を特定することは、言語信号の一部に少なくとも基づくものとしてもよい。 The executable language may be determined based on a part of what specifies the executable division result from the first division result and the second division result based at least on a part of the first appearance frequency and the second appearance frequency. it can. The first candidate language and the second candidate language may be specified based on a part of one or more language signals. The linguistic signal is associated with the linguistics associated with the string, the IP address of the user associated with the string, the character set used for the string, and the user associated with the string. At least one of a browser setting of a browser application program and a top-level domain related to the character string. In one embodiment, identifying the enablement language may be based at least on a portion of the language signal.
一実施形態として、前記第1出現頻度および第2出現頻度の一部に少なくとも基づいて、前記第1候補言語および前記第2候補言語から前記実施可能言語を特定することは、前記第1出現頻度が前記第2出現頻度よりも大きいときに、前記第1候補言語を選択すること、を有することとすることができる。前記文字列は、ドメインネームを有することができる。前記第1分割結果はトークンの第1組合せを有することができるとともに、前記第2分割結果はトークンの第2組合せを有することができる。 As one embodiment, specifying the executable language from the first candidate language and the second candidate language based at least on a part of the first appearance frequency and the second appearance frequency is the first appearance frequency. Can be selected when the second appearance frequency is greater than the second appearance frequency. The character string may have a domain name. The first split result may have a first combination of tokens, and the second split result may have a second combination of tokens.
一実施形態として、前記第1分割結果について前記第1出現頻度を決定することは、前記第1分割結果を有している前記第1候補言語における記事の数を決定することと、前記第1候補言語における記事の総数に基づいて記事の数を標準化することと、を有することができ、さらに、前記第1言語において記事の数を決定することは、前記第1分割結果を有している検索クエリーに対応して生成された検索結果セットを識別する記事の数を決定することを有することができる。 As one embodiment, determining the first appearance frequency for the first division result is determining the number of articles in the first candidate language having the first division result; and Standardizing the number of articles based on the total number of articles in the candidate language, and further, determining the number of articles in the first language comprises the first segmentation result. Determining the number of articles that identify the search result set generated in response to the search query may be included.
一実施形態として、前記第1言語において記事の数を決定することは、前記第1分割結果が記事のインデックスにアクセスすることを有することとすることができる。他の実施形態として、前記第1出現頻度を決定することは、前記第1候補言語の中の複数の検索クエリーにおける前記第1分割結果の出現数を決定することと、前記第1候補言語の中の検索クエリーの総数に基づいて前記出現数を標準化することとを有することとすることができる。 In one embodiment, determining the number of articles in the first language may include the first segmentation result accessing an index of articles. In another embodiment, determining the first appearance frequency includes determining the number of appearances of the first division result in a plurality of search queries in the first candidate language, and determining the first candidate language And standardizing the number of occurrences based on the total number of search queries within.
また、前記方法は、前記実施可能言語または前記実施可能分割結果の一部(または両方)に少なくとも基づいて選択することを有することとしてもよく、前記記事は、広告を有することとしてもよい。一実施形態として、前記第1分割結果を決定することは、前記文字列から前記第1候補言語における複数の分割結果を決定することと、前記第1候補言語の中の前記複数の分割結果から前記第1分割結果を特定することとを有することとすることができる。前記第1分割結果を特定することは、前記複数の分割結果それぞれについて確率値を計算することを有することとすることができる。前記第1分割結果に関連する第1確率値は、前記第1分割結果における各トークンの頻度の一部に少なくとも基づくものとすることができる。 In addition, the method may include selecting based on at least a part (or both) of the executable language or the executable division result, and the article may include an advertisement. In one embodiment, determining the first division result includes determining a plurality of division results in the first candidate language from the character string and from the plurality of division results in the first candidate language. Specifying the first division result. Specifying the first division result may include calculating a probability value for each of the plurality of division results. The first probability value related to the first division result may be based at least on a part of the frequency of each token in the first division result.
他の例の方法としては、ドメインネームから第1候補言語の中で第1分割結果を決定するとともに、ドメインネームから第2候補言語の中で第2分割結果を決定することと、記事インデックスと、テキストインデックスと、検索結果セットとの少なく一つの中で、前記第1分割結果について第1出現頻度を決定することと、前記第2分割結果について第2出現頻度決定することと、前記第1出現頻度が前記第2出現頻度よりも大きいとき、実施可能言語として前記第1候補言語を選択することと、前記第2出現頻度が前記第1出現頻度よりも大きいとき、実施可能言語として前記第2候補言語を選択することと、前記実施可能言語の一部に少なくとも基づいて広告を選択すること、前記ドメインネームに関連づけられたウェブページに関連づけて前記広告の表示をすることとを有する。前記広告は、前記実施可能言語のテキストを有している。 Another example method is to determine the first segmentation result in the first candidate language from the domain name, determine the second segmentation result in the second candidate language from the domain name, Determining a first appearance frequency for the first division result, determining a second appearance frequency for the second division result in at least one of the text index and the search result set; When the appearance frequency is higher than the second appearance frequency, the first candidate language is selected as an executable language, and when the second appearance frequency is higher than the first appearance frequency, the first language is selected as the executable language. 2 selecting a candidate language, selecting an advertisement based at least in part on the executable language, and relating to a web page associated with the domain name. And a to the display of the advertisement Te. The advertisement has text in the executable language.
図2は、本発明の一実施形態に従って、テキスト分割のために言語を選択する方法の一例の方法200を示している。本例の方法は、本発明に従った方法を実行するための様々な方法があるなかの一例として提供する。図2に示されている方法200は、1つのシステムでまたは様々なシステムの組合せで実行することができ、また他の方法で実行することもできる。方法200は、実施形態として図1に示されたシステム100によって実行されるものとして以下で説明されるとともに、システム100の様々な要素が図2の実施形態方法を説明するために参照される。
FIG. 2 illustrates an
図2を参照すると、ブロック202において実施形態方法が開始する。ブロック202には、ブロック204が続く。ブロック204では、文字列が分割化エンジン120によってアクセスされる。文字列は、例えば、ネットワーク106に接続された装置または他の装置から受信またはアクセスできる。一実施形態として、前記文字列は、ドメインネームに関連する広告サーバから受信する、無効または実在しないウェブサイトに関連するドメインネームとすることができる。
Referring to FIG. 2, the embodiment method begins at
ブロック204には、ブロック206が続く。ブロック206では、文字列についての候補言語が特定される。一実施形態として、言語プロセッサ126は、前記文字列について多くの候補言語を決定するために、一つ以上の言語信号を使用することができる。例えば、前記言語プロセッサは、前記文字列について、英語、フランス語およびスペイン語を3つの候補言語として、言語信号に基づいて、特定することができる。
例えば、使用されたいくつかの言語信号は、前記文字列に関連する言語学と、前記文字列に関連するユーザのIPアドレスと、前記文字列で使用された文字セットと、前記文字列に関連するユーザに関連するブラウザ・アプリケーション・プログラムのブラウザ設定と、前記文字列に関連する最上位のドメインとにすることができる。例えば、言語学は、特定の言語においてそれを示す前記文字列の構成または特徴を決定することに使用することができる。例えば、ある言語は、ある文字のグループにおける開始または終了に傾向をもっているとともに、一般的なパターンを使用する。前記ユーザのIPアドレスは、前記ユーザの位置および国を示すことができる。国情報から言語または国に関連する言語は、候補言語として使用することができる。文字列の文字セットは、言語または前記文字列に関連する言語を示すことができる。例えば、「キリル文字」の文字セットは、ロシア語または他のスラヴ言語を示すことができる。文字列に関連するユーザのブラウザ・アプリケーション・プログラムのブラウザ設定は、前記文字列に関連する言語および/または文字セットを示すことができる。例えば、ユーザのブラウザ・アプリケーション・プログラムの設定による前記言語および文字セットは、前記文字列に伴うHTTPヘッダで渡されることができる。文字列に関連する最上位ドメインは、国を示すことができる。最上位ドメインは、ルートに従う階層の最高水準になることができる。ドメインネームにおいて、最上位ドメインは、右側に最も遠く現れるドメインネームの一部である。例えば、ドメインネーム「usedrugs.co.uk」において、最上位ドメインは、「.uk」であるとともに、「イギリス(United Kingdom)」を示すことができる。最上位ドメイン「.ru」は、ロシアを示すことができる。最上位ドメインに関連する国は、ロシアを示す「ru」のような、候補言語を決定する際に使用されることができる。ここで、関連文字列はロシア言語になり得ることを示している。何らかの最上位ドメインは、1つ以上の言語を示すものとしてもよい。
例えば、「.ch」は、スイスを示すことができるとともに、文字列がフランス語、ドイツ語またはイタリア語に関連し得ることを示すことができる。文字列についての候補言語を特定する他の適当な信号および方法が使用されることとしてもよい。
For example, some linguistic signals used include the linguistics associated with the string, the user's IP address associated with the string, the character set used in the string, and the string The browser setting of the browser application program related to the user to be used and the top-level domain related to the character string. For example, linguistics can be used to determine the composition or characteristics of the string that represents it in a particular language. For example, some languages tend to start or end in a group of characters and use common patterns. The user's IP address may indicate the user's location and country. The language from the country information or the language related to the country can be used as a candidate language. The character set of the character string can indicate a language or a language associated with the character string. For example, a “Cyrillic” character set may indicate Russian or other Slavic languages. The browser settings of the user's browser application program associated with the string may indicate the language and / or character set associated with the string. For example, the language and character set according to the settings of the user's browser application program can be passed in an HTTP header associated with the character string. The top domain associated with a string can indicate a country. The top-level domain can be the highest level of the hierarchy that follows the root. In a domain name, the top domain is the part of the domain name that appears farthest to the right. For example, in the domain name “usedrugs.co.uk”, the highest domain is “.uk” and “United Kingdom” can be indicated. The top domain “.ru” can indicate Russia. The country associated with the top-level domain can be used in determining candidate languages, such as “ru” for Russia. Here, it is shown that the related character string can be in Russian language. Any top level domain may indicate one or more languages.
For example, “.ch” can indicate Switzerland and can indicate that the string can be associated with French, German or Italian. Other suitable signals and methods for identifying candidate languages for strings may be used.
ブロック206には、ブロック208が続く。ブロック208では、複数の分割結果が各候補言語について文字列を分割することによって文字列から生成される。文字列を分割することは、トークンの複数の組合せに文字列の中の文字を解析することを有することとしてもよく、さらに、分割化プロセッサ122によって実行することができる。分割化プロセッサ122は、各候補言語について分割結果のリストを発生させることができる。各分割結果は、トークンまたは信号トークンの組合せを特定することができる。例えば、文字列「assocomunicazioni」は、他の分割結果として「asso comunicazioni」にイタリア語で分割できるとともに、他の分割結果として「asso com uni cazioni」にフランス語で分割できる。他の実施形態として、文字列「maisonblanche」は、他の分割結果として「maison blanche」にフランス語で分割できるとともに、他の分割結果として「mai son blanc he」に英語で分割できる。他の実施形態として、文字列「usedrugs」は、「used rugs」、「use drugs」、「us ed rugs」、「u sed rugs」、「usedrugs」などを有する分割結果に英語で分割できる。また、分割結果は、フランス語およびドイツ語など、上記実施形態のような、他の候補言語について生成されることができる。分割されていない文字列が分割結果に含まれることとしてもよい。
分割化プロセッサ122は、分割化処理においてトークン・データベース126からトークンを利用することができる。PCT国際特許出願番号PCT/US03/41609、発明の名称「テキスト分割方法およびシステム」、出願日2003年12月30日に開示されたセグメンテーション手法のような、様々な方法が文字列を分割するために使用することができるとともに、その全てがここに引用されることによってここに組み込まれている。
The
ブロック208には、ブロック210が続く。ブロック210では、各候補言語について最高分割結果が決定される。最高分割結果は、分割化プロセッサ122によって決定されることができるとともに、最良または実施可能分割結果となる最高確率の結果とすることができる。一実施形態として、分割結果は、各分割結果について決定された確率値に基づいてランキング分けされることができる。一実施形態として、確率値は、個々の分割結果の中の個々のトークンに関連する加算頻度値によって決定されることができる。他の実施形態として、確率値は、それぞれの個別分割結果の中の個々のトークンに関連する頻度値の対数の合計を伴う複素関数によって決定されることができる。そして、多くの上位分割結果が選択できる。例えば、各候補言語についての分割結果がランキング分けされることができるとともに、各候補言語の上位3つの結果が選択できる。
ブロック210には、ブロック212が続く。ブロック212では、各候補言語について分割結果を選択して、頻度検索がトップについて実行される。前記頻度検索は、サーチエンジン156とともに頻度プロセッサ124によって実行されることができる。一実施形態として、分割化プロセッサ122は、頻度プロセッサ124に選択分割結果を渡すことができる。頻度プロセッサ124は、記事または検索クエリーの収集資料の中の各分割結果について出現頻度を決定することができる。
一実施形態として、頻度プロセッサ124は、サーチエンジン156によって索引を付けられた記事に基づいて分割結果について出現頻度を決定することができる。一実施形態として、頻度プロセッサ124は、ネットワーク106を介してサーチエンジン156に、トップ選択分割結果を送信することができる。サーチエンジン156は、検索クエリーとして各分割結果を使用して索引を付けられた記事の中の各分割結果について検索を実行することができる。例えば、頻度プロセッサ124は、サーチエンジン156が特定の言語の記事について正確な分割語句を検索を実行できるように、引用符によって囲まれた各候補言語について各分割結果を検索クエリーとしてサーチエンジン156に送信することができる。一実施形態として、各分割結果について、サーチエンジン156は、検索クエリーに応答して、多くの記事識別子を有する検索結果セットを生成することができる。サーチエンジン156は、ネットワーク106を介してもとの頻度プロセッサ124へ、分割結果のそれぞれについて検索結果セットを送信することができる。頻度プロセッサ124は、各分割結果が出現する頻度を、記事識別子の数に基づいて、各検索結果から決定することができる。
In one embodiment, the
他の実施形態として、頻度プロセッサ124は、ネットワーク106を介して索引装置158に、選択分割結果のトップを送信することができる。索引装置158は、分割結果が出現した特定の言語についての記事の数を決定するために、インデックス160にアクセスすることができるとともに、選択分割結果のそれぞれにこれをすることができる。一実施形態として、インデックス160は複数のインデックスとしてもよく、索引装置158は各分割結果について総合インデックスの一部分を検査することができる。そこで、索引装置158は、ネットワーク106を介して頻度プロセッサ124に、各分割結果に関連する出現数を渡すことができる。
In another embodiment, the
また、他の実施形態として、頻度プロセッサ124は、検索クエリーにおける分割結果の出現数を決定するために、ネットワーク106を介してサーチエンジン156に、選択分割結果のトップを送信することができる。例えば、サーチエンジン156は、関連言語の中の各分割結果について、分割結果が検索クエリーまたは検索クエリーの一部として使用された回数を決定することができる。各分割結果についての検索クエリーの中の出現数は、ネットワーク106を介して頻度プロセッサ124に、サーチエンジン156によって送信することができる。
In another embodiment, the
例えば、分割化プロセッサ122が、英語の文字列「usedrugs」について「used rugs」、「use drugs」および「us ed rugs」として選択分割結果を決定するとき、頻度プロセッサ124は、これらの分割結果と他の候補言語に関連する分割結果とをサーチエンジン156に送信することができる。例えば、サーチエンジン156は、検索クエリーとしてこれらの結果を使用することができるとともに、各分割結果について検索結果セットを生成することができる。例えば、サーチエンジン156は、検索クエリーとして「used rugs」を使用することができるとともに、語句「used rugs」を有する英語の記事に関連する記事識別子を有する前記検索クエリーについて検索結果セットを決定することができる。サーチエンジン156は、他の候補言語に関連する分割結果に同じことをすることができる。他の実施形態として、サーチエンジン156は、優先的に容認された検索クエリーを有する関連検索ログから、受信された分割結果を有する検索クエリーの回数を、決定することができる。例えば、サーチエンジン156は、受信された語句「used rugs」を有する検索クエリーの回数について検索ログを検索することができる。また、他の実施形態として、サーチエンジン156の索引装置158は、検索結果を受信することができるとともに、分割結果を有するインデックス160またはインデックス160の一部の中の記事の数を決定することができる。例えば、索引装置158は、「used rugs」を有する英語の記事の数について、インデックス160またはインデックス160の一部を介して検索することができる。
For example, when the
また、スペルチェック機能が前記頻度検索の中に含まれることとすることができる。例えば、頻度プロセッサ124は、選択分割結果をスペルチェックできる、トップのために、スペルチェック機能を有することができ、または呼ぶことができる。前記スペルチェック機能は、各分割結果の中の個々のトークンについて正しいまたは好ましいスペルを決定することができる。頻度プロセッサ124は、両方の結果について出現頻度を決定するために、あらゆるスペル修正済み分割結果のみならず、最高分割結果についても頻度検索を実行することができる。例えば、分割結果が「basebal game」であるとともに、スペル修正結果が「baseball game」であるとき、頻度検索はこれらの結果の両方について実行することができる。
Also, a spell check function can be included in the frequency search. For example, the
一実施形態として、前記分割結果についての各出現頻度は、特定言語の中の全ての記事または検索クエリーの数に基づいて正規化された値である。例えば、英語についての分割結果が70の英語記事または検索クエリーの中で出現するとともに、総数1000の英語記事または検索クエリーがある場合、この英語分割結果についての出現頻度は0.07(70/1000)である。同様に、フランス語の分割結果が60のフランス語記事または検索クエリーで出現するとともに、総数400のフランス語記事または検索クエリーがある場合、このフランス語分割結果についての出現頻度は0.15(60/400)である。このように、出現頻度は、記事または検索結果の収集資料の中の特定言語の普及率を考慮するとともに、より一般的な言語に固有の重み付けをしない。 In one embodiment, each appearance frequency for the segmentation result is a value normalized based on the number of all articles or search queries in a specific language. For example, if the segmentation result for English appears in 70 English articles or search queries, and there are a total of 1000 English articles or search queries, the appearance frequency for this English segmentation result is 0.07 (70/1000 ). Similarly, if the French segmentation result appears in 60 French articles or search queries and there are a total of 400 French articles or search queries, the frequency of occurrence for this French segmentation result is 0.15 (60/400). is there. Thus, the appearance frequency considers the penetration rate of a specific language in the collected material of articles or search results, and does not give a weight specific to a more general language.
ブロック212には、ブロック214が続く。ブロック214では、実行可能言語および実行可能分割結果が特定される。一実施形態として、頻度プロセッサ124は、前記実行可能言語および実行可能分割結果を特定することができる。例えば、前記頻度プロセッサ124は、最高関連出現頻度を持つ前記分割結果を選択することができる。上記のように、前記出現頻度は、分割結果を有する記事または検索クエリーの数、および特定言語の中の記事または検索クエリーの総数、に基づいて、正規化された値とすることができる。また、付加信号が実施可能分割結果を決定することに使用できる。例えば、頻度プロセッサ124は、各分割結果を有する前記記事の客観的ランキング(ページランク(登録商標)のようなウェブ記事のためのランキング・アルゴリズム)を考慮することができるとともに、各分割結果を有する記事を評価するために前記客観的ランキングを使用することができる。また、記事で出現する前記分割結果の回数と、前記記事の中の前記分割結果の位置とは、分割結果を有する前記記事を評価することに使用することができる。前記実施可能分割結果に関連する候補言語は、前記実施可能言語として選択されることができる。
一実施形態として、ブロック206において前記候補言語の特定に使用される前記言語信号は、前記実施可能言語の決定に使用されることとしてもよい。文字列を示す言語信号が十中八九特定言語である場合、これらの信号は、この言語についてのより大きな重みとして使用されることができる。例えば、言語学、関連ユーザのIPアドレス、文字列で使用された文字セット、ユーザに関連するブラウザ・アプリケーション・プログラムのブラウザ設定、文字列に関連する最上位のドメイン、のような言語信号は、例えば、フランス語のような、文字列に関連する言語が特定言語であることを示すものとすることができる。例えば、英語のような、他の言語における分割結果についての情報の出現頻度は、フランス語における他の分割結果についての情報の出現頻度に、近いまたは越えるものとしてもよい。前記言語信号は、本例における有効言語としてフランス語の選択をもたらすために、フランス語の重み付けに使用されることができる。216において、方法200が終了する。
In one embodiment, the language signal used to identify the candidate language at
前記実施可能言語および実施可能分割結果は、様々な方法で使用されることができる。実施可能言語および/または実施可能分割結果は、広告の選択で使用されることができる。例えば、ユーザ112aは、ウェブサイト「usedrugs.com」について、ブラウザ・アプリケーションの中にこの文字列を入力することによって、自身のブラウザ・アプリケーションでナビゲートすることを試みてもよい。ドメインネーム「usedrugs.com」にウェブサイトが存在していない場合などは、ユーザのブラウザ・アプリケーションが第三者ウェブサイトに転送されることとしてもよい。前記第三者ウェブサイトは、ユーザによって見られているウェブページでユーザによって入力されたドメインネームに関連する広告および/またはリンクを置くことが好ましい。前記第三者ウェブサイトは、ドメインネーム「usedrugs.com」を分割化エンジン120に送信することができる。分割化エンジン120は、前記ウェブサイトに関連する前記第三者ウェブサイトまたは広告サーバに、実施可能言語および実施可能分割結果を返すために、上記方法およびシステムを使用することができる。例えば、前記実施可能分割結果は「used rugs」とすることができ、前記実施可能言語は英語とすることができる。前記第三者ウェブサイトまたは広告サーバは、ユーザによって見られるウェブページ上で、英語の語句「used rugs」に関連する広告および/またはリンクを表示することができるとともに、前記ウェブサイト上で使用される言語が英語であることを確実にすることができる。また、前記実施可能言語は、ユーザに表示されたステータスメッセージで使用される言語の選択に使用されることができる。
The executable language and the executable partitioning result can be used in various ways. The actionable language and / or actionable segmentation result can be used in the selection of advertisements. For example, the
<全般>
上述の説明は多くの特定の内容を有しているが、これらは本発明の範囲を限定するものと理解すべきではなく、単なる開示された実施形態として理解すべきである。当業者は、本発明の範囲内のあらゆる他の実施可能な変形をなすことができる。前記用語の第1および第2は、単に、1つの物を他の物から区別するものとして、本明細書では使用されている。前記用語の第1および第2は、明らかな注記がない場合、時間についての第1または第2、リストについての第1または第2、または他の順番、を示すためには使用されない。例えば、「第2」は、他の方法で明らかに示されていない限り、時間について、または「第1」の前のリストについて、のものとしてもよい。
<General>
Although the above description has many specific details, they should not be understood as limiting the scope of the invention, but merely as disclosed embodiments. Those skilled in the art can make all other possible variations within the scope of the present invention. The terms first and second are used herein simply to distinguish one thing from another. The terms first and second are not used to indicate first or second for time, first or second for list, or other order, unless explicitly noted. For example, “second” may be for time or for the list before “first” unless explicitly indicated otherwise.
100 システム
102a−n クライアント装置
104 サーバ装置
106 ネットワーク
116 プロセッサ
118 メモリ
120 分割化エンジン
122 分割化プロセッサ
124 頻度プロセッサ
126 言語プロセッサ
126 トークン・データベース
150 サーバ装置
152 プロセッサ
154 メモリ
156 サーチエンジン
158 索引装置
160 インデックス
DESCRIPTION OF
Claims (14)
特定の規則および情報を使用して、前記文字列において使用されていると予想される言語として第1候補言語および第2候補言語を少なくとも特定するステップ(206)と、
前記文字列に対して前記第1候補言語に関連づけられた第1の複数のトークンを有する第1分割結果を少なくとも決定するとともに、前記文字列に対して前記第2候補言語に関連づけられた第2の複数のトークンを有する第2分割結果を少なくとも決定するステップ(208)と、
サーチエンジン(156)によって受信されたサーチエンジン・インデックスまたは検索クエリーのログの少なくとも一つにおける前記第1分割結果の第1出現頻度を決定するとともに、サーチエンジン(156)によって受信されたサーチエンジン・インデックスまたは検索クエリーのログの少なくとも一つにおける前記第2分割結果の第2出現頻度を決定するステップ(210,212)と、
少なくとも前記第1出現頻度および第2出現頻度の一部に基づいて、前記第1候補言語および第2候補言語から実施可能言語を特定(214)して出力するステップと、
を有することを特徴とするコンピュータで実行される方法(200)。Receiving a string that does not have a token representing a split (204);
Identifying (206) at least a first candidate language and a second candidate language as languages expected to be used in the string using specific rules and information ;
The character with at least determining a first segmentation result having a first plurality of tokens associated with the first candidate language for column, second associated with the second candidate languages for the string Determining (208) at least a second split result having a plurality of tokens;
Determining a first frequency of occurrence of the first segmentation result in at least one of a search engine index or a search query log received by the search engine (156) and a search engine received by the search engine (156); Determining a second frequency of appearance of the second segmentation result in at least one of an index or a search query log;
Specifying (214) an executable language from the first candidate language and the second candidate language based on at least a part of the first appearance frequency and the second appearance frequency, and outputting,
A computer-implemented method (200) comprising:
検索クエリーのログにおける前記第1分割結果の前記第1出現頻度を決定するステップ(212)は、前記第1候補言語に対応する前記ログにおける検索クエリーの数に基づいて前記第1出現頻度を標準化するステップを有する請求項1に記載のコンピュータで実行される方法(200)。The step of determining (212) the first appearance frequency of the first division result in the search engine index is based on the number of search engine index entries corresponding to the first candidate language. Having a standardization step,
The step (212) of determining the first appearance frequency of the first division result in the search query log normalizes the first appearance frequency based on the number of search queries in the log corresponding to the first candidate language. The computer-implemented method (200) of claim 1, comprising the steps of:
前記文字列から前記第1候補言語における複数の分割結果を決定するステップと、
前記複数の分割結果のそれぞれに関連づけられた確率値に基づき前記複数の分割結果から前記第1分割結果を特定するステップと
を有し、
前記の各分割結果は、他の分割結果のそれぞれとは異なった複数のトークンを有している請求項1に記載のコンピュータで実行される方法(200)。The step of determining the first division result includes:
Determining a plurality of division results in the first candidate language from the character string;
Identifying the first division result from the plurality of division results based on a probability value associated with each of the plurality of division results;
The computer-implemented method (200) of claim 1, wherein each split result comprises a plurality of tokens that are different from each other split result.
前記第2出現頻度を決定するステップ(212)は、前記第2分割結果を有する第2クエリーに対応する前記第2候補言語における記事の数を特定するために前記サーチエンジン(156)使用するステップを有する請求項1に記載のコンピュータで実行される方法(200)。The step (212) of determining the first appearance frequency uses the search engine (156) to identify the number of articles in the first candidate language corresponding to the first query having the first segmentation result. Has steps,
The step of determining the second appearance frequency (212) uses the search engine (156) to identify the number of articles in the second candidate language corresponding to the second query having the second segmentation result. The computer-implemented method (200) of claim 1, comprising:
前記第1分割結果を有する検索クエリーを前記サーチエンジンにおいて実行するステップと、前記検索クエリーの実行結果として前記サーチエンジンによって生成された結果セットを識別する記事の数を決定するステップとを有する請求項9に記載のコンピュータで実行される方法(200)。Using the search engine (156) to identify the number of articles in the first candidate language;
Executing a search query having the first segmentation result in the search engine; and determining a number of articles identifying a result set generated by the search engine as an execution result of the search query. A computer-implemented method (200) of claim 9.
ドメインネームに関連したウェブページに関連づけて前記広告の表示をするステップと
をさらに有し、
前記広告は、前記実施可能言語のテキストを有する請求項1に記載のコンピュータで実行される方法(200)。Selecting an advertisement based on at least a portion of the enablement language;
Displaying the advertisement in association with a web page associated with a domain name;
The computer-implemented method (200) of claim 1, wherein the advertisement comprises text in the executable language.
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US10/955,660 | 2004-09-30 | ||
US10/955,660 US7996208B2 (en) | 2004-09-30 | 2004-09-30 | Methods and systems for selecting a language for text segmentation |
PCT/US2005/035010 WO2006039398A2 (en) | 2004-09-30 | 2005-09-28 | Methods and systems for selecting a language for text segmentation |
Publications (3)
Publication Number | Publication Date |
---|---|
JP2008515107A JP2008515107A (en) | 2008-05-08 |
JP2008515107A5 JP2008515107A5 (en) | 2008-12-04 |
JP5148278B2 true JP5148278B2 (en) | 2013-02-20 |
Family
ID=35985934
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2007534758A Active JP5148278B2 (en) | 2004-09-30 | 2005-09-28 | Method and system for selecting a language for text segmentation |
Country Status (8)
Country | Link |
---|---|
US (4) | US7996208B2 (en) |
EP (2) | EP1800224B1 (en) |
JP (1) | JP5148278B2 (en) |
CN (3) | CN102708095B (en) |
CA (1) | CA2581902C (en) |
DK (1) | DK1800224T3 (en) |
ES (1) | ES2395168T3 (en) |
WO (1) | WO2006039398A2 (en) |
Families Citing this family (142)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8645137B2 (en) | 2000-03-16 | 2014-02-04 | Apple Inc. | Fast, language-independent method for user authentication by voice |
US7680648B2 (en) | 2004-09-30 | 2010-03-16 | Google Inc. | Methods and systems for improving text segmentation |
US8677377B2 (en) | 2005-09-08 | 2014-03-18 | Apple Inc. | Method and apparatus for building an intelligent automated assistant |
US8380488B1 (en) | 2006-04-19 | 2013-02-19 | Google Inc. | Identifying a property of a document |
US8442965B2 (en) | 2006-04-19 | 2013-05-14 | Google Inc. | Query language identification |
US8762358B2 (en) * | 2006-04-19 | 2014-06-24 | Google Inc. | Query language determination using query terms and interface language |
US8255376B2 (en) | 2006-04-19 | 2012-08-28 | Google Inc. | Augmenting queries with synonyms from synonyms map |
US7689408B2 (en) * | 2006-09-01 | 2010-03-30 | Microsoft Corporation | Identifying language of origin for words using estimates of normalized appearance frequency |
GB2454147B (en) * | 2006-09-01 | 2014-03-12 | Research In Motion Ltd | Method for identifying language of text in a handheld electronic device and a handheld electronic device incorporating the same |
US9318108B2 (en) | 2010-01-18 | 2016-04-19 | Apple Inc. | Intelligent automated assistant |
US8423908B2 (en) * | 2006-09-08 | 2013-04-16 | Research In Motion Limited | Method for identifying language of text in a handheld electronic device and a handheld electronic device incorporating the same |
EP1901534B1 (en) * | 2006-09-18 | 2010-09-01 | LG Electronics Inc. | Method of managing a language information for a text input and method of inputting a text and a mobile terminal |
WO2008111048A2 (en) * | 2007-03-09 | 2008-09-18 | Ghost, Inc. | System and method for browser within a web site and proxy server |
US8977255B2 (en) | 2007-04-03 | 2015-03-10 | Apple Inc. | Method and system for operating a multi-function portable electronic device using voice-activation |
US9754022B2 (en) * | 2007-10-30 | 2017-09-05 | At&T Intellectual Property I, L.P. | System and method for language sensitive contextual searching |
US8165869B2 (en) * | 2007-12-10 | 2012-04-24 | International Business Machines Corporation | Learning word segmentation from non-white space languages corpora |
US9330720B2 (en) | 2008-01-03 | 2016-05-03 | Apple Inc. | Methods and apparatus for altering audio output signals |
US8996376B2 (en) | 2008-04-05 | 2015-03-31 | Apple Inc. | Intelligent text-to-speech conversion |
US10496753B2 (en) | 2010-01-18 | 2019-12-03 | Apple Inc. | Automatically adapting user interfaces for hands-free interaction |
US8464150B2 (en) * | 2008-06-07 | 2013-06-11 | Apple Inc. | Automatic language identification for dynamic text processing |
US20100030549A1 (en) | 2008-07-31 | 2010-02-04 | Lee Michael M | Mobile device having human language translation capability with positional feedback |
US12238246B2 (en) | 2008-08-05 | 2025-02-25 | Salesforce, Inc. | Call center mobile messaging |
US8561118B2 (en) | 2008-08-05 | 2013-10-15 | Mediafriends, Inc. | Apparatus and methods for TV social applications |
US20120221962A1 (en) | 2008-08-05 | 2012-08-30 | Eugene Lee Lew | Social messaging hub system |
US11172067B1 (en) | 2008-08-05 | 2021-11-09 | HeyWire, Inc. | Call center mobile messaging |
US9356907B2 (en) | 2008-08-05 | 2016-05-31 | HeyWire, Inc. | Messaging system having multiple number, dual mode phone support |
US10706373B2 (en) | 2011-06-03 | 2020-07-07 | Apple Inc. | Performing actions associated with task items that represent tasks to perform |
US9858925B2 (en) | 2009-06-05 | 2018-01-02 | Apple Inc. | Using context information to facilitate processing of commands in a virtual assistant |
US10241644B2 (en) | 2011-06-03 | 2019-03-26 | Apple Inc. | Actionable reminder entries |
US10241752B2 (en) | 2011-09-30 | 2019-03-26 | Apple Inc. | Interface for a virtual digital assistant |
US9431006B2 (en) | 2009-07-02 | 2016-08-30 | Apple Inc. | Methods and apparatuses for automatic speech recognition |
KR101083455B1 (en) * | 2009-07-17 | 2011-11-16 | 엔에이치엔(주) | User Query Correction System and Method Based on Statistical Data |
US10679605B2 (en) | 2010-01-18 | 2020-06-09 | Apple Inc. | Hands-free list-reading by intelligent automated assistant |
US10553209B2 (en) | 2010-01-18 | 2020-02-04 | Apple Inc. | Systems and methods for hands-free notification summaries |
US10705794B2 (en) | 2010-01-18 | 2020-07-07 | Apple Inc. | Automatically adapting user interfaces for hands-free interaction |
US10276170B2 (en) | 2010-01-18 | 2019-04-30 | Apple Inc. | Intelligent automated assistant |
US8682667B2 (en) | 2010-02-25 | 2014-03-25 | Apple Inc. | User profiling for selecting user specific voice input processing information |
US8635205B1 (en) * | 2010-06-18 | 2014-01-21 | Google Inc. | Displaying local site name information with search results |
CN101882226B (en) * | 2010-06-24 | 2013-07-24 | 汉王科技股份有限公司 | Method and device for improving language discrimination among characters |
US20120004899A1 (en) * | 2010-07-04 | 2012-01-05 | Taymoor Arshi | Dynamic ad selection for ad delivery systems |
CN102455997A (en) * | 2010-10-27 | 2012-05-16 | 鸿富锦精密工业(深圳)有限公司 | Component name extraction system and method |
US9262612B2 (en) | 2011-03-21 | 2016-02-16 | Apple Inc. | Device access using voice authentication |
US10057736B2 (en) | 2011-06-03 | 2018-08-21 | Apple Inc. | Active transport based notifications |
US8994660B2 (en) | 2011-08-29 | 2015-03-31 | Apple Inc. | Text correction processing |
US10134385B2 (en) | 2012-03-02 | 2018-11-20 | Apple Inc. | Systems and methods for name pronunciation |
US9483461B2 (en) | 2012-03-06 | 2016-11-01 | Apple Inc. | Handling speech synthesis of content for multiple languages |
US9280610B2 (en) | 2012-05-14 | 2016-03-08 | Apple Inc. | Crowd sourcing information to fulfill user requests |
US9721563B2 (en) | 2012-06-08 | 2017-08-01 | Apple Inc. | Name recognition system |
US9495129B2 (en) | 2012-06-29 | 2016-11-15 | Apple Inc. | Device, method, and user interface for voice-activated navigation and browsing of a document |
CN103631802B (en) * | 2012-08-24 | 2015-05-20 | 腾讯科技(深圳)有限公司 | Song information searching method, device and corresponding server |
US9576574B2 (en) | 2012-09-10 | 2017-02-21 | Apple Inc. | Context-sensitive handling of interruptions by intelligent digital assistant |
US9547647B2 (en) | 2012-09-19 | 2017-01-17 | Apple Inc. | Voice-based media searching |
US9218335B2 (en) * | 2012-10-10 | 2015-12-22 | Verisign, Inc. | Automated language detection for domain names |
US8713433B1 (en) * | 2012-10-16 | 2014-04-29 | Google Inc. | Feature-based autocorrection |
US9368114B2 (en) | 2013-03-14 | 2016-06-14 | Apple Inc. | Context-sensitive handling of interruptions |
WO2014144579A1 (en) | 2013-03-15 | 2014-09-18 | Apple Inc. | System and method for updating an adaptive speech recognition model |
CN105027197B (en) | 2013-03-15 | 2018-12-14 | 苹果公司 | Training at least partly voice command system |
WO2014197336A1 (en) | 2013-06-07 | 2014-12-11 | Apple Inc. | System and method for detecting errors in interactions with a voice-based digital assistant |
WO2014197334A2 (en) | 2013-06-07 | 2014-12-11 | Apple Inc. | System and method for user-specified pronunciation of words for speech synthesis and recognition |
US9582608B2 (en) | 2013-06-07 | 2017-02-28 | Apple Inc. | Unified ranking with entropy-weighted information for phrase-based semantic auto-completion |
WO2014197335A1 (en) | 2013-06-08 | 2014-12-11 | Apple Inc. | Interpreting and acting upon commands that involve sharing information with remote devices |
US10176167B2 (en) | 2013-06-09 | 2019-01-08 | Apple Inc. | System and method for inferring user intent from speech inputs |
CN110442699A (en) | 2013-06-09 | 2019-11-12 | 苹果公司 | Operate method, computer-readable medium, electronic equipment and the system of digital assistants |
JP2016521948A (en) | 2013-06-13 | 2016-07-25 | アップル インコーポレイテッド | System and method for emergency calls initiated by voice command |
US9213910B2 (en) | 2013-11-06 | 2015-12-15 | Xerox Corporation | Reinforcement learning approach to character level segmentation of license plate images |
US9785630B2 (en) | 2014-05-30 | 2017-10-10 | Apple Inc. | Text prediction using combined word N-gram and unigram language models |
US9715875B2 (en) | 2014-05-30 | 2017-07-25 | Apple Inc. | Reducing the need for manual start/end-pointing and trigger phrases |
US9430463B2 (en) | 2014-05-30 | 2016-08-30 | Apple Inc. | Exemplar-based natural language processing |
US10170123B2 (en) | 2014-05-30 | 2019-01-01 | Apple Inc. | Intelligent assistant for home automation |
US9760559B2 (en) | 2014-05-30 | 2017-09-12 | Apple Inc. | Predictive text input |
US10078631B2 (en) | 2014-05-30 | 2018-09-18 | Apple Inc. | Entropy-guided text prediction using combined word and character n-gram language models |
WO2015184186A1 (en) | 2014-05-30 | 2015-12-03 | Apple Inc. | Multi-command single utterance input method |
US9842101B2 (en) | 2014-05-30 | 2017-12-12 | Apple Inc. | Predictive conversion of language input |
US9740687B2 (en) | 2014-06-11 | 2017-08-22 | Facebook, Inc. | Classifying languages for objects and entities |
US10659851B2 (en) | 2014-06-30 | 2020-05-19 | Apple Inc. | Real-time digital assistant knowledge updates |
US9338493B2 (en) | 2014-06-30 | 2016-05-10 | Apple Inc. | Intelligent automated assistant for TV user interactions |
US10446141B2 (en) | 2014-08-28 | 2019-10-15 | Apple Inc. | Automatic speech recognition based on user feedback |
US9818400B2 (en) | 2014-09-11 | 2017-11-14 | Apple Inc. | Method and apparatus for discovering trending terms in speech requests |
US10789041B2 (en) | 2014-09-12 | 2020-09-29 | Apple Inc. | Dynamic thresholds for always listening speech trigger |
US10074360B2 (en) | 2014-09-30 | 2018-09-11 | Apple Inc. | Providing an indication of the suitability of speech recognition |
US10127911B2 (en) | 2014-09-30 | 2018-11-13 | Apple Inc. | Speaker identification and unsupervised speaker adaptation techniques |
US9886432B2 (en) | 2014-09-30 | 2018-02-06 | Apple Inc. | Parsimonious handling of word inflection via categorical stem + suffix N-gram language models |
US9668121B2 (en) | 2014-09-30 | 2017-05-30 | Apple Inc. | Social reminders |
US9646609B2 (en) | 2014-09-30 | 2017-05-09 | Apple Inc. | Caching apparatus for serving phonetic pronunciations |
US10552013B2 (en) | 2014-12-02 | 2020-02-04 | Apple Inc. | Data detection |
US9711141B2 (en) | 2014-12-09 | 2017-07-18 | Apple Inc. | Disambiguating heteronyms in speech synthesis |
US9865280B2 (en) | 2015-03-06 | 2018-01-09 | Apple Inc. | Structured dictation using intelligent automated assistants |
US9886953B2 (en) | 2015-03-08 | 2018-02-06 | Apple Inc. | Virtual assistant activation |
US10567477B2 (en) | 2015-03-08 | 2020-02-18 | Apple Inc. | Virtual assistant continuity |
US9721566B2 (en) | 2015-03-08 | 2017-08-01 | Apple Inc. | Competing devices responding to voice triggers |
US9899019B2 (en) | 2015-03-18 | 2018-02-20 | Apple Inc. | Systems and methods for structured stem and suffix language models |
US9842105B2 (en) | 2015-04-16 | 2017-12-12 | Apple Inc. | Parsimonious continuous-space phrase representations for natural language processing |
US10360309B2 (en) * | 2015-04-30 | 2019-07-23 | Salesforce.Com, Inc. | Call center SMS-MMS language router |
US10083688B2 (en) | 2015-05-27 | 2018-09-25 | Apple Inc. | Device voice control for selecting a displayed affordance |
US10127220B2 (en) | 2015-06-04 | 2018-11-13 | Apple Inc. | Language identification from short strings |
US9578173B2 (en) | 2015-06-05 | 2017-02-21 | Apple Inc. | Virtual assistant aided communication with 3rd party service in a communication session |
US10101822B2 (en) | 2015-06-05 | 2018-10-16 | Apple Inc. | Language input correction |
US10186254B2 (en) | 2015-06-07 | 2019-01-22 | Apple Inc. | Context-based endpoint detection |
US11025565B2 (en) | 2015-06-07 | 2021-06-01 | Apple Inc. | Personalized prediction of responses for instant messaging |
US10255907B2 (en) | 2015-06-07 | 2019-04-09 | Apple Inc. | Automatic accent detection using acoustic models |
US10671428B2 (en) | 2015-09-08 | 2020-06-02 | Apple Inc. | Distributed personal assistant |
US10747498B2 (en) | 2015-09-08 | 2020-08-18 | Apple Inc. | Zero latency digital assistant |
US9734142B2 (en) | 2015-09-22 | 2017-08-15 | Facebook, Inc. | Universal translation |
US9697820B2 (en) | 2015-09-24 | 2017-07-04 | Apple Inc. | Unit-selection text-to-speech synthesis using concatenation-sensitive neural networks |
US10366158B2 (en) | 2015-09-29 | 2019-07-30 | Apple Inc. | Efficient word encoding for recurrent neural network language models |
US11010550B2 (en) | 2015-09-29 | 2021-05-18 | Apple Inc. | Unified language modeling framework for word prediction, auto-completion and auto-correction |
US11587559B2 (en) | 2015-09-30 | 2023-02-21 | Apple Inc. | Intelligent device identification |
CN108776709B (en) * | 2015-10-27 | 2020-05-19 | 上海智臻智能网络科技股份有限公司 | Computer-readable storage medium and dictionary updating method |
US10691473B2 (en) | 2015-11-06 | 2020-06-23 | Apple Inc. | Intelligent automated assistant in a messaging environment |
US10049668B2 (en) | 2015-12-02 | 2018-08-14 | Apple Inc. | Applying neural network language models to weighted finite state transducers for automatic speech recognition |
US10223066B2 (en) | 2015-12-23 | 2019-03-05 | Apple Inc. | Proactive assistance based on dialog communication between devices |
US10446143B2 (en) | 2016-03-14 | 2019-10-15 | Apple Inc. | Identification of voice inputs providing credentials |
US10430485B2 (en) | 2016-05-10 | 2019-10-01 | Go Daddy Operating Company, LLC | Verifying character sets in domain name requests |
US10180930B2 (en) | 2016-05-10 | 2019-01-15 | Go Daddy Operating Company, Inc. | Auto completing domain names comprising multiple languages |
US9934775B2 (en) | 2016-05-26 | 2018-04-03 | Apple Inc. | Unit-selection text-to-speech synthesis based on predicted concatenation parameters |
US9972304B2 (en) | 2016-06-03 | 2018-05-15 | Apple Inc. | Privacy preserving distributed evaluation framework for embedded personalized systems |
US10249300B2 (en) | 2016-06-06 | 2019-04-02 | Apple Inc. | Intelligent list reading |
US10049663B2 (en) | 2016-06-08 | 2018-08-14 | Apple, Inc. | Intelligent automated assistant for media exploration |
DK179588B1 (en) | 2016-06-09 | 2019-02-22 | Apple Inc. | Intelligent automated assistant in a home environment |
US10192552B2 (en) | 2016-06-10 | 2019-01-29 | Apple Inc. | Digital assistant providing whispered speech |
US10509862B2 (en) | 2016-06-10 | 2019-12-17 | Apple Inc. | Dynamic phrase expansion of language input |
US10490187B2 (en) | 2016-06-10 | 2019-11-26 | Apple Inc. | Digital assistant providing automated status report |
US10586535B2 (en) | 2016-06-10 | 2020-03-10 | Apple Inc. | Intelligent digital assistant in a multi-tasking environment |
US10067938B2 (en) | 2016-06-10 | 2018-09-04 | Apple Inc. | Multilingual word prediction |
DK179415B1 (en) | 2016-06-11 | 2018-06-14 | Apple Inc | Intelligent device arbitration and control |
DK179343B1 (en) | 2016-06-11 | 2018-05-14 | Apple Inc | Intelligent task discovery |
DK201670540A1 (en) | 2016-06-11 | 2018-01-08 | Apple Inc | Application integration with a digital assistant |
DK179049B1 (en) | 2016-06-11 | 2017-09-18 | Apple Inc | Data driven natural language event detection and classification |
US10348671B2 (en) | 2016-07-11 | 2019-07-09 | Salesforce.Com, Inc. | System and method to use a mobile number in conjunction with a non-telephony internet connected device |
US10043516B2 (en) | 2016-09-23 | 2018-08-07 | Apple Inc. | Intelligent automated assistant |
US10380247B2 (en) | 2016-10-28 | 2019-08-13 | Microsoft Technology Licensing, Llc | Language-based acronym generation for strings |
US10593346B2 (en) | 2016-12-22 | 2020-03-17 | Apple Inc. | Rank-reduced token representation for automatic speech recognition |
US10180935B2 (en) * | 2016-12-30 | 2019-01-15 | Facebook, Inc. | Identifying multiple languages in a content item |
DK201770439A1 (en) | 2017-05-11 | 2018-12-13 | Apple Inc. | Offline personal assistant |
DK179745B1 (en) | 2017-05-12 | 2019-05-01 | Apple Inc. | SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT |
DK179496B1 (en) | 2017-05-12 | 2019-01-15 | Apple Inc. | USER-SPECIFIC Acoustic Models |
DK201770432A1 (en) | 2017-05-15 | 2018-12-21 | Apple Inc. | Hierarchical belief states for digital assistants |
DK201770431A1 (en) | 2017-05-15 | 2018-12-20 | Apple Inc. | Optimizing dialogue policy decisions for digital assistants using implicit feedback |
DK179560B1 (en) | 2017-05-16 | 2019-02-18 | Apple Inc. | Far-field extension for digital assistant services |
CN109492225A (en) * | 2018-11-08 | 2019-03-19 | 大连瀚闻资讯有限公司 | Method for processing public opinion information text of Chinese country |
CN111079408B (en) * | 2019-12-26 | 2023-05-30 | 北京锐安科技有限公司 | A language recognition method, device, equipment and storage medium |
US11915167B2 (en) | 2020-08-12 | 2024-02-27 | State Farm Mutual Automobile Insurance Company | Claim analysis based on candidate functions |
Family Cites Families (104)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4839853A (en) | 1988-09-15 | 1989-06-13 | Bell Communications Research, Inc. | Computer information retrieval using latent semantic structure |
US5325298A (en) | 1990-11-07 | 1994-06-28 | Hnc, Inc. | Methods for generating or revising context vectors for a plurality of word stems |
US5423032A (en) | 1991-10-31 | 1995-06-06 | International Business Machines Corporation | Method for extracting multi-word technical terms from text |
CA2140891A1 (en) * | 1992-07-24 | 1994-02-03 | David C. Parmelee | Peptides useful as internal standards for microsequencing and methods for their use |
US5377280A (en) | 1993-04-19 | 1994-12-27 | Xerox Corporation | Method and apparatus for automatic language determination of European script documents |
US5454046A (en) | 1993-09-17 | 1995-09-26 | Penkey Corporation | Universal symbolic handwriting recognition system |
US5619709A (en) | 1993-09-20 | 1997-04-08 | Hnc, Inc. | System and method of context vector generation and retrieval |
US5499360A (en) | 1994-02-28 | 1996-03-12 | Panasonic Technolgies, Inc. | Method for proximity searching with range testing and range adjustment |
US5548507A (en) | 1994-03-14 | 1996-08-20 | International Business Machines Corporation | Language identification process using coded language words |
US5794177A (en) | 1995-07-19 | 1998-08-11 | Inso Corporation | Method and apparatus for morphological analysis and generation of natural language text |
US6067552A (en) | 1995-08-21 | 2000-05-23 | Cnet, Inc. | User interface system and method for browsing a hypertext database |
US5913040A (en) | 1995-08-22 | 1999-06-15 | Backweb Ltd. | Method and apparatus for transmitting and displaying information between a remote network and a local computer |
US5778364A (en) | 1996-01-02 | 1998-07-07 | Verity, Inc. | Evaluation of content of a data set using multiple and/or complex queries |
US5966686A (en) | 1996-06-28 | 1999-10-12 | Microsoft Corporation | Method and system for computing semantic logical forms from syntax trees |
EP0822502A1 (en) | 1996-07-31 | 1998-02-04 | BRITISH TELECOMMUNICATIONS public limited company | Data access system |
US6009382A (en) * | 1996-08-19 | 1999-12-28 | International Business Machines Corporation | Word storage table for natural language determination |
US6002998A (en) * | 1996-09-30 | 1999-12-14 | International Business Machines Corporation | Fast, efficient hardware mechanism for natural language determination |
US5778363A (en) | 1996-12-30 | 1998-07-07 | Intel Corporation | Method for measuring thresholded relevance of a document to a specified topic |
US6285999B1 (en) | 1997-01-10 | 2001-09-04 | The Board Of Trustees Of The Leland Stanford Junior University | Method for node ranking in a linked database |
US7437351B2 (en) | 1997-01-10 | 2008-10-14 | Google Inc. | Method for searching media |
US6076051A (en) | 1997-03-07 | 2000-06-13 | Microsoft Corporation | Information retrieval utilizing semantic representation of text |
US6119164A (en) | 1997-04-15 | 2000-09-12 | Full Circle Software, Inc. | Method and apparatus for distributing over a network unsolicited information to a targeted audience |
US6006222A (en) | 1997-04-25 | 1999-12-21 | Culliss; Gary | Method for organizing information |
US6185559B1 (en) | 1997-05-09 | 2001-02-06 | Hitachi America, Ltd. | Method and apparatus for dynamically counting large itemsets |
US6233575B1 (en) | 1997-06-24 | 2001-05-15 | International Business Machines Corporation | Multilevel taxonomy based on features derived from training documents classification using fisher values as discrimination values |
US6505150B2 (en) | 1997-07-02 | 2003-01-07 | Xerox Corporation | Article and method of automatically filtering information retrieval results using test genre |
US5933822A (en) | 1997-07-22 | 1999-08-03 | Microsoft Corporation | Apparatus and methods for an information retrieval system that employs natural language processing of search results to improve overall precision |
US6760746B1 (en) | 1999-09-01 | 2004-07-06 | Eric Schneider | Method, product, and apparatus for processing a data request |
US6078916A (en) | 1997-08-01 | 2000-06-20 | Culliss; Gary | Method for organizing information |
US6014665A (en) | 1997-08-01 | 2000-01-11 | Culliss; Gary | Method for organizing information |
US6182068B1 (en) | 1997-08-01 | 2001-01-30 | Ask Jeeves, Inc. | Personalized search methods |
US5845278A (en) | 1997-09-12 | 1998-12-01 | Inioseek Corporation | Method for automatically selecting collections to search in full text searches |
US5974412A (en) | 1997-09-24 | 1999-10-26 | Sapient Health Network | Intelligent query system for automatically indexing information in a database and automatically categorizing users |
US6134532A (en) | 1997-11-14 | 2000-10-17 | Aptex Software, Inc. | System and method for optimal adaptive matching of users to most relevant entity and information in real-time |
US6230168B1 (en) * | 1997-11-26 | 2001-05-08 | International Business Machines Corp. | Method for automatically constructing contexts in a hypertext collection |
US6289342B1 (en) | 1998-01-05 | 2001-09-11 | Nec Research Institute, Inc. | Autonomous citation indexing and literature browsing using citation context |
US6640006B2 (en) | 1998-02-13 | 2003-10-28 | Microsoft Corporation | Word segmentation in chinese text |
US6421675B1 (en) | 1998-03-16 | 2002-07-16 | S. L. I. Systems, Inc. | Search engine |
US6272456B1 (en) | 1998-03-19 | 2001-08-07 | Microsoft Corporation | System and method for identifying the language of written text having a plurality of different length n-gram profiles |
GB9806085D0 (en) * | 1998-03-23 | 1998-05-20 | Xerox Corp | Text summarisation using light syntactic parsing |
US6044375A (en) | 1998-04-30 | 2000-03-28 | Hewlett-Packard Company | Automatic extraction of metadata using a neural network |
US6334131B2 (en) | 1998-08-29 | 2001-12-25 | International Business Machines Corporation | Method for cataloging, filtering, and relevance ranking frame-based hierarchical information structures |
US6466901B1 (en) * | 1998-11-30 | 2002-10-15 | Apple Computer, Inc. | Multi-language document search and retrieval system |
US6298348B1 (en) | 1998-12-03 | 2001-10-02 | Expanse Networks, Inc. | Consumer profiling system |
US6324519B1 (en) | 1999-03-12 | 2001-11-27 | Expanse Networks, Inc. | Advertisement auction system |
US6167369A (en) * | 1998-12-23 | 2000-12-26 | Xerox Company | Automatic language identification using both N-gram and word information |
US6269189B1 (en) | 1998-12-29 | 2001-07-31 | Xerox Corporation | Finding selected character strings in text and providing information relating to the selected character strings |
US6678681B1 (en) | 1999-03-10 | 2004-01-13 | Google Inc. | Information extraction from a database |
US6826559B1 (en) | 1999-03-31 | 2004-11-30 | Verizon Laboratories Inc. | Hybrid category mapping for on-line query tool |
US6493702B1 (en) | 1999-05-05 | 2002-12-10 | Xerox Corporation | System and method for searching and recommending documents in a collection using share bookmarks |
US6493703B1 (en) * | 1999-05-11 | 2002-12-10 | Prophet Financial Systems | System and method for implementing intelligent online community message board |
US7065500B2 (en) | 1999-05-28 | 2006-06-20 | Overture Services, Inc. | Automatic advertiser notification for a system for providing place and price protection in a search result list generated by a computer network search engine |
US6269361B1 (en) | 1999-05-28 | 2001-07-31 | Goto.Com | System and method for influencing a position on a search result list generated by a computer network search engine |
US6314419B1 (en) | 1999-06-04 | 2001-11-06 | Oracle Corporation | Methods and apparatus for generating query feedback based on co-occurrence patterns |
WO2000079436A2 (en) | 1999-06-24 | 2000-12-28 | Simpli.Com | Search engine interface |
US6601026B2 (en) | 1999-09-17 | 2003-07-29 | Discern Communications, Inc. | Information retrieval by natural language querying |
US6754873B1 (en) | 1999-09-20 | 2004-06-22 | Google Inc. | Techniques for finding related hyperlinked documents using link-based analysis |
US6453315B1 (en) | 1999-09-22 | 2002-09-17 | Applied Semantics, Inc. | Meaning-based information organization and retrieval |
US6816857B1 (en) | 1999-11-01 | 2004-11-09 | Applied Semantics, Inc. | Meaning-based advertising and document relevance determination |
JP2001101186A (en) * | 1999-09-30 | 2001-04-13 | Oki Electric Ind Co Ltd | Machine translating device |
CA2389186A1 (en) | 1999-10-29 | 2001-05-03 | British Telecommunications Public Limited Company | Method and apparatus for processing queries |
US6968308B1 (en) | 1999-11-17 | 2005-11-22 | Microsoft Corporation | Method for segmenting non-segmented text using syntactic parse |
JP3803219B2 (en) * | 1999-12-14 | 2006-08-02 | 三菱電機株式会社 | Full-text search device and full-text search method |
US6691108B2 (en) | 1999-12-14 | 2004-02-10 | Nec Corporation | Focused search engine and method |
US6678409B1 (en) | 2000-01-14 | 2004-01-13 | Microsoft Corporation | Parameterized word segmentation of unsegmented text |
US6615209B1 (en) | 2000-02-22 | 2003-09-02 | Google, Inc. | Detecting query-specific duplicate documents |
US20020002452A1 (en) * | 2000-03-28 | 2002-01-03 | Christy Samuel T. | Network-based text composition, translation, and document searching |
US6754872B2 (en) * | 2000-05-22 | 2004-06-22 | Sarnoff Corporation | Method and apparatus for reducing channel distortion in a wireless communications network |
GB2362971B (en) | 2000-05-30 | 2004-03-24 | Com Nation Ltd | A method of searching the internet and an internet search engine |
SE517005C2 (en) | 2000-05-31 | 2002-04-02 | Hapax Information Systems Ab | Segmentation of text |
US6529903B2 (en) | 2000-07-06 | 2003-03-04 | Google, Inc. | Methods and apparatus for using a modified index to provide search results in response to an ambiguous search query |
US7136854B2 (en) | 2000-07-06 | 2006-11-14 | Google, Inc. | Methods and apparatus for providing search results in response to an ambiguous search query |
US6654993B2 (en) * | 2000-07-28 | 2003-12-02 | The Penn State Research Foundation | Process for fabricating hollow electroactive devices |
US6766320B1 (en) | 2000-08-24 | 2004-07-20 | Microsoft Corporation | Search engine with natural language-based robust parsing for user query and relevance feedback learning |
CA2323883C (en) | 2000-10-19 | 2016-02-16 | Patrick Ryan Morin | Method and device for classifying internet objects and objects stored oncomputer-readable media |
US6917937B1 (en) | 2000-11-01 | 2005-07-12 | Sas Institute Inc. | Server-side object filtering |
US7054803B2 (en) * | 2000-12-19 | 2006-05-30 | Xerox Corporation | Extracting sentence translations from translated documents |
US6714939B2 (en) | 2001-01-08 | 2004-03-30 | Softface, Inc. | Creation of structured data from plain text |
US6658423B1 (en) | 2001-01-24 | 2003-12-02 | Google, Inc. | Detecting duplicate and near-duplicate files |
US6526440B1 (en) | 2001-01-30 | 2003-02-25 | Google, Inc. | Ranking search results by reranking the results based on local inter-connectivity |
JP3408525B2 (en) | 2001-02-08 | 2003-05-19 | 松下電器産業株式会社 | SRAM device |
JP2002245470A (en) * | 2001-02-16 | 2002-08-30 | Merukomu Service Kk | Language specifying device, translating device, and language specifying method |
US8001118B2 (en) | 2001-03-02 | 2011-08-16 | Google Inc. | Methods and apparatus for employing usage statistics in document retrieval |
US7860706B2 (en) * | 2001-03-16 | 2010-12-28 | Eli Abir | Knowledge system method and appparatus |
US6738764B2 (en) | 2001-05-08 | 2004-05-18 | Verity, Inc. | Apparatus and method for adaptively ranking search results |
JPWO2002095614A1 (en) * | 2001-05-24 | 2004-11-25 | 鈴木 泉 | Language / character code system identification processing method |
JP2003186789A (en) * | 2001-12-18 | 2003-07-04 | Logo Vista Corp | Electronic mail translation system |
US6978264B2 (en) | 2002-01-03 | 2005-12-20 | Microsoft Corporation | System and method for performing a search and a browse on a query |
US7716161B2 (en) | 2002-09-24 | 2010-05-11 | Google, Inc, | Methods and apparatus for serving relevant advertisements |
US8517795B2 (en) | 2002-11-06 | 2013-08-27 | Nomura Plating Co., Ltd. | Surface treatment method for vacuum member |
US7249012B2 (en) * | 2002-11-20 | 2007-07-24 | Microsoft Corporation | Statistical method and apparatus for learning translation relationships among phrases |
FR2848688A1 (en) * | 2002-12-17 | 2004-06-18 | France Telecom | Text language identifying device for linguistic analysis of text, has analyzing unit to analyze chain characters of words extracted from one text, where each chain is completed so that each time chains are found in word |
US20040119740A1 (en) | 2002-12-24 | 2004-06-24 | Google, Inc., A Corporation Of The State Of California | Methods and apparatus for displaying and replying to electronic messages |
AU2003232839A1 (en) | 2003-05-28 | 2005-01-21 | Leonardo Badino | Automatic segmentation of texts comprising chunsks without separators |
US7493322B2 (en) | 2003-10-15 | 2009-02-17 | Xerox Corporation | System and method for computing a measure of similarity between documents |
US20050086065A1 (en) | 2003-10-16 | 2005-04-21 | Nokia Corporation | Automatic field completion in capacity-constrained media |
US20050131872A1 (en) | 2003-12-16 | 2005-06-16 | Microsoft Corporation | Query recognizer |
US8392249B2 (en) | 2003-12-31 | 2013-03-05 | Google Inc. | Suggesting and/or providing targeting criteria for advertisements |
US7359851B2 (en) * | 2004-01-14 | 2008-04-15 | Clairvoyance Corporation | Method of identifying the language of a textual passage using short word and/or n-gram comparisons |
US20050289473A1 (en) | 2004-03-17 | 2005-12-29 | Carl Gustafson | Method and system for providing search information via a communications network |
US7409334B1 (en) * | 2004-07-22 | 2008-08-05 | The United States Of America As Represented By The Director, National Security Agency | Method of text processing |
US7792814B2 (en) | 2005-09-30 | 2010-09-07 | Sap, Ag | Apparatus and method for parsing unstructured data |
US7761458B1 (en) | 2006-02-01 | 2010-07-20 | Hewlett-Packard Development Company, L.P. | Segmentation of a data sequence |
US7747633B2 (en) | 2007-07-23 | 2010-06-29 | Microsoft Corporation | Incremental parsing of hierarchical files |
-
2004
- 2004-09-30 US US10/955,660 patent/US7996208B2/en active Active
-
2005
- 2005-09-28 CA CA2581902A patent/CA2581902C/en not_active Expired - Fee Related
- 2005-09-28 CN CN201210063033.1A patent/CN102708095B/en active Active
- 2005-09-28 EP EP05802157A patent/EP1800224B1/en active Active
- 2005-09-28 CN CN201210288916.2A patent/CN102831107B/en active Active
- 2005-09-28 DK DK05802157.7T patent/DK1800224T3/en active
- 2005-09-28 WO PCT/US2005/035010 patent/WO2006039398A2/en active Application Filing
- 2005-09-28 JP JP2007534758A patent/JP5148278B2/en active Active
- 2005-09-28 ES ES05802157T patent/ES2395168T3/en active Active
- 2005-09-28 EP EP12175207.5A patent/EP2511832B1/en active Active
- 2005-09-29 CN CN2005800411370A patent/CN101095138B/en active Active
-
2011
- 2011-08-08 US US13/205,087 patent/US8306808B2/en not_active Expired - Fee Related
-
2012
- 2012-09-15 US US13/620,752 patent/US20130018648A1/en not_active Abandoned
- 2012-09-15 US US13/620,821 patent/US8489387B2/en not_active Expired - Lifetime
Also Published As
Publication number | Publication date |
---|---|
EP1800224B1 (en) | 2012-08-29 |
US20060074628A1 (en) | 2006-04-06 |
US20110301939A1 (en) | 2011-12-08 |
CA2581902A1 (en) | 2006-04-13 |
WO2006039398A3 (en) | 2006-07-06 |
EP2511832A3 (en) | 2013-03-20 |
WO2006039398A8 (en) | 2007-03-22 |
WO2006039398A2 (en) | 2006-04-13 |
CN101095138A (en) | 2007-12-26 |
CN102831107A (en) | 2012-12-19 |
EP2511832B1 (en) | 2014-05-14 |
US20130013288A1 (en) | 2013-01-10 |
US20130018648A1 (en) | 2013-01-17 |
ES2395168T3 (en) | 2013-02-08 |
EP1800224A2 (en) | 2007-06-27 |
JP2008515107A (en) | 2008-05-08 |
CN102708095A (en) | 2012-10-03 |
US8306808B2 (en) | 2012-11-06 |
EP2511832A2 (en) | 2012-10-17 |
CN102831107B (en) | 2016-01-20 |
CN102708095B (en) | 2015-09-30 |
CN101095138B (en) | 2012-08-29 |
DK1800224T3 (en) | 2012-11-19 |
US8489387B2 (en) | 2013-07-16 |
US7996208B2 (en) | 2011-08-09 |
CA2581902C (en) | 2013-05-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5148278B2 (en) | Method and system for selecting a language for text segmentation | |
US8849852B2 (en) | Text segmentation | |
US9104772B2 (en) | System and method for providing tag-based relevance recommendations of bookmarks in a bookmark and tag database | |
US7516118B1 (en) | Methods and systems for assisted network browsing | |
JP4857075B2 (en) | Method and computer program for efficiently retrieving dates in a collection of web documents | |
JP5069285B2 (en) | Propagating useful information between related web pages, such as web pages on a website | |
US8417695B2 (en) | Identifying related concepts of URLs and domain names | |
US8412517B2 (en) | Dictionary word and phrase determination | |
US8271486B2 (en) | System and method for searching a bookmark and tag database for relevant bookmarks | |
US7310633B1 (en) | Methods and systems for generating textual information | |
JP2005182817A (en) | Query recognizer | |
US9652529B1 (en) | Methods and systems for augmenting a token lexicon | |
KR100485321B1 (en) | A method of managing web sites registered in search engine and a system thereof | |
CN112380337A (en) | Highlight method and device based on rich text | |
US20100153365A1 (en) | Phrase identification using break points | |
US7302645B1 (en) | Methods and systems for identifying manipulated articles | |
KR20040086732A (en) | A method of managing web sites registered in search engine and a system thereof | |
JP2006072949A (en) | Document search system, and document search engine program |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20080926 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20080926 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20081017 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20110913 |
|
A601 | Written request for extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A601 Effective date: 20111213 |
|
A602 | Written permission of extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A602 Effective date: 20111220 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20120309 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20121030 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20121128 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5148278 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20151207 Year of fee payment: 3 |
|
R154 | Certificate of patent or utility model (reissue) |
Free format text: JAPANESE INTERMEDIATE CODE: R154 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
S533 | Written request for registration of change of name |
Free format text: JAPANESE INTERMEDIATE CODE: R313533 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |