JP5148278B2 - Method and system for selecting a language for text segmentation - Google Patents

Method and system for selecting a language for text segmentation Download PDF

Info

Publication number
JP5148278B2
JP5148278B2 JP2007534758A JP2007534758A JP5148278B2 JP 5148278 B2 JP5148278 B2 JP 5148278B2 JP 2007534758 A JP2007534758 A JP 2007534758A JP 2007534758 A JP2007534758 A JP 2007534758A JP 5148278 B2 JP5148278 B2 JP 5148278B2
Authority
JP
Japan
Prior art keywords
language
result
computer
search engine
determining
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2007534758A
Other languages
Japanese (ja)
Other versions
JP2008515107A5 (en
JP2008515107A (en
Inventor
ギラード・イスラエル・エルバス
ジェイコブ・レオン・マンデルソン
Original Assignee
グーグル・インコーポレーテッド
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by グーグル・インコーポレーテッド filed Critical グーグル・インコーポレーテッド
Publication of JP2008515107A publication Critical patent/JP2008515107A/en
Publication of JP2008515107A5 publication Critical patent/JP2008515107A5/ja
Application granted granted Critical
Publication of JP5148278B2 publication Critical patent/JP5148278B2/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/232Orthographic correction, e.g. spell checking or vowelisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/263Language identification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Machine Translation (AREA)
  • Information Transfer Between Computers (AREA)
  • Document Processing Apparatus (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

本発明は、概してテキスト分割に関するものであり、特に、テキスト分割のために言語を選択することに関するものである。   The present invention relates generally to text segmentation, and more particularly to selecting a language for text segmentation.

テキストを示すデータの解釈を試みるテキスト処理方法およびシステムが存在している。テキスト処理は、言葉または他のトークンを示して分割できない文字列を有するテキストが受け取られたとき、より困難となる。トークンは、単語、頭文字語、簡略名、固有名、地理的名称、株式市場ティッカーシンボル、または他のトークンとすることができる。一般に、文字列は、既存の方法およびシステムを使用して、分割された文字列の複数の組合せに分割することができる。そのテキストを選択して使用するために正確な言葉を選択することで、より有意義な結果を出すことができる。   Text processing methods and systems exist that attempt to interpret data representing text. Text processing becomes more difficult when text is received that has a string that cannot be split to indicate words or other tokens. Tokens can be words, acronyms, short names, proper names, geographic names, stock market ticker symbols, or other tokens. In general, a string can be split into multiple combinations of split strings using existing methods and systems. Choosing the exact words to select and use the text can yield more meaningful results.

本発明の実施形態は、テキスト分割のために言語を選択する方法およびシステムを有している。本発明の一実施形態は、文字列に関連付けられている第1候補言語および第2候補言語を少なくとも特定するステップと、前記文字列から前記第1候補言語に関連付けられている第1分割結果を少なくとも決定するとともに、前記文字列から前記第2候補言語に関連付けられている第2分割結果を少なくとも決定するステップと、前記第1分割結果について第1出現頻度を決定するとともに、前記第2分割結果について第2出現頻度を決定するステップと、少なくとも前記第1出現頻度および第2出現頻度の一部に基づいて、前記第1候補言語および第2候補言語から実施可能言語を特定するステップと、を有する。   Embodiments of the invention have a method and system for selecting a language for text segmentation. According to an embodiment of the present invention, at least a first candidate language and a second candidate language associated with a character string are specified, and a first division result associated with the first candidate language from the character string Determining at least a second division result associated with the second candidate language from the character string; determining a first appearance frequency for the first division result; and determining the second division result. Determining a second appearance frequency for, and identifying an executable language from the first candidate language and the second candidate language based on at least a part of the first appearance frequency and the second appearance frequency. Have.

この例示的実施形態は、本発明を限定または定義するものではないが、本発明についての理解を支援するための本発明の実施形態の一例を提供する。例示的実施形態が詳細な説明において記載されており、さらにそこで本発明の詳細が記載されている。本発明の様々な実施形態で示された利点は、本明細書を検討することによってさらに理解することができる。   This exemplary embodiment does not limit or define the invention, but provides an example of an embodiment of the invention to assist in understanding the invention. Illustrative embodiments are described in the detailed description, and further details of the invention are described there. The advantages demonstrated in the various embodiments of the present invention can be further understood by reviewing the specification.

本発明のこれらおよび他の特徴、態様および利点は、以下の詳細な説明が添付図面を参照して読み取られることで、より良く理解される。   These and other features, aspects and advantages of the present invention will be better understood when the following detailed description is read with reference to the accompanying drawings, in which:

<序論>
本発明の実施形態は、テキスト分割のために言語を選択する方法およびシステムを有する。本発明について複数の実施形態がある。序論および実施形態として、本発明の一例の実施形態は、複数のトークンまたは単語の中のドメインネームのような、文字列の正確な言語を選択することで、文字列の分割を改善する方法として提供される。文字列についての多くの可能(potential)または候補言語が、前記文字列に関連している言語、ユーザに関連しているIPアドレス、前記文字列で使用された文字セット、前記ユーザに関連づけられたブラウザ・アプリケーション・プログラムのブラウザ設定、および前記文字列に関連づけられた最上位のドメインのような、様々な信号に基づいて選択することができる。文字列は、各候補言語を使用して多くの分割結果に区分することができる。各分割結果は、単語または他のトークンの特定の組合せとなることができる。例えば、文字列「usedrugs」は、英語についての以下の分割結果に分割することができる。
「used rugs」、「use drugs」、「us ed rugs」など。
各候補言語の分割結果のこの数から、実施可能分割結果および実施可能言語が前記実施可能分割結果を含む前記実施可能言語の中の文書または検索クエリーの数に基づいて特定できる。
<Introduction>
Embodiments of the invention have a method and system for selecting a language for text segmentation. There are several embodiments of the present invention. As an introduction and embodiment, an example embodiment of the present invention is a method for improving string segmentation by selecting the exact language of a string, such as a domain name in multiple tokens or words. Provided. Many potential or candidate languages for a string are associated with the language associated with the string, the IP address associated with the user, the character set used in the string, and the user The selection can be based on various signals, such as the browser settings of the browser application program and the top-level domain associated with the string. The character string can be divided into a number of division results using each candidate language. Each split result can be a specific combination of words or other tokens. For example, the character string “usedrugs” can be divided into the following division results for English.
“Used rugs”, “use drugs”, “us ed rugs”, etc.
From this number of segmentation results for each candidate language, the feasible segmentation result and the feasible language can be identified based on the number of documents or search queries in the feasible language that includes the feasible segmentation result.

例えば、最良の実施可能分割結果になるための最高確率の分割結果が各候補言語について選択できる。サーチエンジンは、選択された分割結果を有する文書または検索クエリーの数を決定することができるとともに、各候補言語の中の各選択された分割結果についてこれをすることができる。一実施形態として、特定の言語における文書または検索クエリーの中で最大頻度で生じる分割結果は、最良の実施可能分割結果として特定することができる。前記最良の実施可能分割結果に関連している言語は、最良の実施可能言語として特定することができる。また、前記候補言語の決定に使用された言語信号は、前記実施可能言語の選択に使用することができる。前記実施可能分割結果および実施可能言語は、言語および結果に基づいて広告を選択することを有する各種の機能を使用することができる。   For example, the division result with the highest probability to be the best feasible division result can be selected for each candidate language. The search engine can determine the number of documents or search queries that have the selected segmentation result and can do this for each selected segmentation result in each candidate language. In one embodiment, the segmentation result that occurs most frequently in a document or search query in a particular language can be identified as the best feasible segmentation result. The language associated with the best feasible partitioning result can be identified as the best feasible language. The language signal used for determining the candidate language can be used for selecting the executable language. The feasible segmentation result and the feasible language may use various functions including selecting an advertisement based on the language and the result.

この序論は、本発明の一般的な内容を利用者に紹介するためにある。本発明は、そのような内容に決して限定されない。一例としての実施形態が以下で説明されている。   This introduction is in order to introduce the general contents of the present invention to the user. The present invention is in no way limited to such contents. An exemplary embodiment is described below.

<システム構造>
本発明に従った様々なシステムが構成できる。図1は、本発明として動作可能な実施形態の一例のシステムの図を示している。また、本発明は、他のシステムとして、動作可能であるとともに、実施可能である。参照している図面では、いくつかの図面を通して同様の要素には同様の番号が付いており、図1は、本発明の実施形態を実施するための環境の一例を示す図である。図1に示すシステム100は、ネットワーク106を渡ってサーバ装置104およびサーバ装置150と通信する複数のクライアント装置102a−nを有する。一実施形態として、示されたネットワーク106は、インターネットを有する。他の実施形態として、イントラネット、WANまたはLANのような、他のネットワークを使用することができる。さらに、本発明に係る方法は、1台のコンピュータで動作することもできる。
<System structure>
Various systems according to the present invention can be configured. FIG. 1 shows a diagram of an example system that is operable as the present invention. In addition, the present invention can be operated and implemented as another system. In the referenced drawings, like elements are numbered similarly throughout the several views, and FIG. 1 is a diagram illustrating an example environment for practicing embodiments of the present invention. A system 100 illustrated in FIG. 1 includes a plurality of client devices 102 a-n that communicate with a server device 104 and a server device 150 across a network 106. In one embodiment, the network 106 shown has the Internet. In other embodiments, other networks can be used, such as an intranet, WAN or LAN. Furthermore, the method according to the invention can also be operated on a single computer.

図1に示されたクライアント装置102a−nは、プロセッサ110に接続されたランダム・アクセス・メモリ(RAM)108のような、コンピュータ読み取り可能媒体を、それぞれ有している。プロセッサ110は、メモリ108に記憶されたコンピュータ実行可能なプログラム命令を実行する。そのようなプロセッサは、マイクロプロセッサ、ASIC、および状態マシンを有するものとしてもよい。また、そのようなプロセッサは、例えば、コンピュータ読み取り可能な媒体などの媒体と通信するものとしてもよい。前記コンピュータ読み取り可能な媒体は、ここに記載されたステップを実行するように前記プロセッサを動作させるものであって、前記プロセッサによって実行される命令を記憶する。コンピュータ読み取り可能媒体は、電子式、光学式、磁気式または他の記憶装置を有し、またはクライアント102aのプロセッサ110ようなプロセッサに、コンピュータ読み取り可能な命令を提供することが可能な他の伝送装置を有するが、これらに限定されない。適当な媒体の他の実施形態としては、プロッピーディスク(登録商標)、CD−ROM、DVD、磁気ディスク、メモリチップ、ROM、RAM、ASIC、構成プロセッサ、全ての光学媒体、全ての磁気テープ、または他の磁気媒体、またはコンピュータプロセッサが命令を読み取ることができるあらゆる他の適当な媒体を有するが、これらに限定されない。また、コンピュータ読み取り可能な媒体の様々な他の形式が、ルータ、私的のまたは公的ネットワーク、または他の伝送装置またはチャネル、有線および無線の両方を有して、命令をコンピュータに伝送するまたは運ぶことができる。前記命令は、例えば、C、C++、ビジュアルベーシック、ジャバ、パイソン、パール、およびジャバスクリプトなどを含む、あらゆるコンピュータ・プログラミング言語のコードを有することとしてもよい。   The client devices 102a-n shown in FIG. 1 each have a computer readable medium, such as a random access memory (RAM) 108 connected to the processor 110. The processor 110 executes computer-executable program instructions stored in the memory 108. Such a processor may have a microprocessor, an ASIC, and a state machine. Such a processor may also communicate with a medium such as a computer readable medium. The computer readable medium operates the processor to perform the steps described herein and stores instructions executed by the processor. The computer readable medium may include electronic, optical, magnetic, or other storage device, or other transmission device capable of providing computer readable instructions to a processor, such as processor 110 of client 102a. However, it is not limited to these. Other embodiments of suitable media include Proppy Disk (registered trademark), CD-ROM, DVD, magnetic disk, memory chip, ROM, RAM, ASIC, configuration processor, all optical media, all magnetic tape, Or other, but not limited to, any magnetic medium, or any other suitable medium from which a computer processor can read instructions. Also, various other forms of computer readable media have routers, private or public networks, or other transmission devices or channels, both wired and wireless, to transmit instructions to a computer or Can carry. The instructions may have code in any computer programming language including, for example, C, C ++, Visual Basic, Java, Python, Pearl, Javascript, and the like.

また、クライアント装置102a−nは、マウス、CD−ROM、DVD、キーボード、ディスプレイ、または他の入出力装置のような、多くの外部または内部装置を有することとしてもよい。クライアント装置102a−nの実施形態としては、パーソナルコンピュータ、デジタル・アシスタント、携帯情報端末、携帯電話、移動電話、スマートフォン、ページャ、デジタルタブレット、ラップトップコンピュータ、インターネット接続専用端末、および他のプロセッサベースの装置が挙げられる。一般に、クライアント装置102aは、ネットワーク106に接続されて一つ以上の応用プログラムと対話処理するものであって、あらゆる適当なタイプのプロセッサベースのプラットフォームとすることができる。クライアント装置102a−nは、マイクロソフト(登録商標)のウィンドウズ(登録商標)またはリナックスのような、ブラウザまたはブラウザで動作するアプリケーションをサポート可能なあらゆるオペレーティング上で動作するものとしてもよい。クライアント装置102a−nは、例えば、マイクロソフト社のインターネットエクスプローラ(登録商標)、ネットスケープコーポレーションズのネットスケープナビゲータ(登録商標)およびアップルコンピュータ社のサファリ(登録商標)のような、ブラウザ・アプリケーション・プログラムを実行するパーソナルコンピュータを含むものを示す。   The client devices 102a-n may also have many external or internal devices, such as a mouse, CD-ROM, DVD, keyboard, display, or other input / output device. Embodiments of client devices 102a-n include personal computers, digital assistants, personal digital assistants, mobile phones, mobile phones, smartphones, pagers, digital tablets, laptop computers, dedicated terminals for Internet connection, and other processor-based Apparatus. In general, client device 102a is connected to network 106 and interacts with one or more application programs and can be any suitable type of processor-based platform. The client devices 102a-n may operate on any operating system that can support a browser or an application running on the browser, such as Microsoft® Windows® or Linux. The client apparatuses 102a-n execute browser application programs such as Internet Explorer (registered trademark) of Microsoft Corporation, Netscape Navigator (registered trademark) of Netscape Corporation, and Safari (registered trademark) of Apple Computer Corporation. Including those that include a personal computer.

クライアント装置102a−nを介して、ユーザ112a−nは、ネットワーク106に接続された他のシステムおよび装置と、ネットワーク106を渡って、相互に通信することができる。また、図1に示すように、サーバ装置104およびサーバ装置150は、ネットワーク106に接続されている。   Via client devices 102 a-n, users 112 a-n can communicate with each other across network 106 with other systems and devices connected to network 106. As shown in FIG. 1, the server device 104 and the server device 150 are connected to the network 106.

サーバ装置104は分割化エンジン・アプリケーションプログラムを実行するサーバを有するものとすることができ、サーバ装置150はサーチエンジン・アプリケーションプログラムを実行するサーバを有するものとすることができる。クライアント装置102a−nと同様に、図1に示すサーバ装置104およびサーバ装置150は、コンピュータ読み取り可能メモリ118に接続されたプロセッサ116と、コンピュータ読み取り可能メモリ154に接続されたプロセッサ152とを、それぞれを有する。1台のコンピュータシステムのように表現されているサーバ装置104および150は、コンピュータプロセッサのネットワークとして実現されるものとしてもよい。サーバ装置104,150の実施形態は、サーバ、メインフレーム・コンピュータ、ネットワーク・コンピュータ、プロセッサベース装置、および同様なタイプのシステムおよび装置とすることができる。クライアント・プロセッサ110およびサーバプロセッサ116,152は、カルフォルニア州サンタクララのインテル社およびイリノイ州スカンバーブのモトローラ社のプロセッサのような、上記の多くのコンピュータプロセッサのいずれかとすることができる。   The server device 104 may include a server that executes the split engine application program, and the server device 150 may include a server that executes the search engine application program. Similar to the client devices 102a-n, the server device 104 and the server device 150 shown in FIG. 1 each include a processor 116 connected to the computer readable memory 118 and a processor 152 connected to the computer readable memory 154, respectively. Have Server devices 104 and 150 expressed as a single computer system may be realized as a network of computer processors. Embodiments of server devices 104 and 150 may be servers, mainframe computers, network computers, processor-based devices, and similar types of systems and devices. The client processor 110 and server processors 116, 152 may be any of the many computer processors described above, such as Intel's processor in Santa Clara, California and Motorola's processor in Scambarb, Illinois.

また、メモリ118は、分割化エンジン120として知られている分割化アプリケーションプログラムを有している。サーバ装置104または関連装置は、ネットワーク106に接続された他の装置またはシステムから文字列を受信するために、ネットワーク106にアクセスすることができる。文字は、例えば、ASCII、ユニコード、ISO8859−1、Shift−JIS、および拡張2進化10進符号またはあらゆる他の適当な文字セットのような、文字を表すデータに含まれる書記体型で使用されるマークまたはシンボルを有するものとすることができる。一実施形態として、分割化エンジン120は、ユーザ112aがアクティブでないドメインネームをウェブブラウザ・アプリケーションに指示するとき、ネットワーク106上のサーバ装置から、ドメインネームのような文字列を受信することができる。   The memory 118 also has a segmented application program known as the segmentation engine 120. Server device 104 or related devices can access network 106 to receive strings from other devices or systems connected to network 106. Characters are marks used in the typeface type included in the data representing the characters, such as ASCII, Unicode, ISO8859-1, Shift-JIS, and extended binary-coded decimal codes or any other suitable character set Or it can have a symbol. In one embodiment, the segmentation engine 120 may receive a character string such as a domain name from a server device on the network 106 when the user 112a indicates an inactive domain name to the web browser application.

一実施形態として、分割化エンジン120は、前記文字列についての候補言語を特定し、各候補言語についてトークンの潜在的(potential)組合せに前記文字列を分割するとともに、前記文字列に関連する特定の言語および組合せを選択する。トークンは、単語、固有名、地名、簡略名、頭文字語、株式市場ティッカーシンボル、または他のトークンを有するものとすることができる。分割化エンジン120は、分割化プロセッサ122、頻度プロセッサ124および言語プロセッサ126を有するものとすることができる。図1に示す実施形態では、それぞれがメモリ118に具備されているコンピュータ・コードを有している。   In one embodiment, the segmentation engine 120 identifies candidate languages for the strings, divides the strings into potential combinations of tokens for each candidate language, and identifies associated with the strings. Select a language and combination. Tokens can have words, unique names, place names, short names, acronyms, stock market ticker symbols, or other tokens. The partitioning engine 120 may include a partitioning processor 122, a frequency processor 124, and a language processor 126. In the embodiment shown in FIG. 1, each has computer code provided in memory 118.

言語プロセッサ126は、候補言語または文字列の言語を特定することができる。一実施形態として、言語プロセッサ126は、文字列について多くの候補言語を特定するために、信号を使用することができる。例えば、前記言語プロセッサは、言語学と、ユーザのIPアドレスと、文字列で使用された文字セットと、ユーザに関連づけられたブラウザ・アプリケーション・プログラムのブラウザ設定と、前記文字列に関連づけられた最上位のドメインとを、前記文字列の候補言語決定するために、使用することができる。   The language processor 126 can identify the candidate language or the language of the string. In one embodiment, the language processor 126 can use the signal to identify a number of candidate languages for the string. For example, the language processor may include linguistics, a user's IP address, a character set used in a character string, browser settings of a browser application program associated with the user, and a maximum associated with the character string. The upper domain can be used to determine the candidate language for the string.

分割化プロセッサ122は、各候補言語について文字列からトークンまたは分割結果の潜在的組合せのリストを決定することができる。一実施形態として、トークンプロセッサ124は、前記リストの中の各分割結果の確率を決定するとともに、前記確率に基づいて各言語について最高分割結果を選択する。分割結果についての前記確率は、前記結果における個々のトークンに関連する頻度値に基づくものとすることができる。一実施形態として、分割されていない文字列が分割結果として含まれているものとしてもよい。   The segmentation processor 122 can determine a list of potential combinations of tokens or segmentation results from the strings for each candidate language. In one embodiment, the token processor 124 determines the probability of each split result in the list and selects the highest split result for each language based on the probability. The probabilities for segmentation results may be based on frequency values associated with individual tokens in the results. As an embodiment, a character string that is not divided may be included as a result of division.

頻度プロセッサ124は、頻度検索を実行すること、または各候補言語の最高に選択された分割結果について実行することができる。頻度プロセッサ124は、選択された分割結果についてスペルチェックを実行するために、スペルチェック機能を有することができ、または他の場所にあるスペルチェック機能を呼ぶことができる。あらゆるスペル修正結果が前記頻度検索に含まれることとすることができる。一実施形態として、頻度プロセッサは、選択された分割結果について頻度検索を実行するために、選択された分割結果をサーバ装置150に送信する。頻度検索は、以下で説明するように、各特定分割結果について出現頻度を決定することができる。前記頻度検索に基づいて、最高または実施可能分割結果が分割化プロセッサ122によって特定することができる。前記実施可能な結果に関連する言語は、文字列についての実施可能言語として分割化プロセッサ122によって特定できる。一実施形態として、実施可能分割結果および実施可能言語は、広告サーバに送信することができる。広告サーバは、前記実施可能言語および前記選択された結果の一方または両方に基づいて、対象とする広告を選択することができる。分割化プロセッサ122と、頻度プロセッサ124と、言語プロセッサ126との他の機能および特徴は、さらに以下で説明される。   The frequency processor 124 can perform a frequency search or perform on the highest selected segmentation result for each candidate language. The frequency processor 124 may have a spell check function or may call a spell check function elsewhere to perform a spell check on the selected segmentation result. Any spelling correction result can be included in the frequency search. In one embodiment, the frequency processor transmits the selected division result to the server device 150 in order to perform a frequency search for the selected division result. The frequency search can determine the appearance frequency for each specific division result, as will be described below. Based on the frequency search, the highest or feasible partition result can be identified by the partition processor 122. The language associated with the feasible result can be identified by the segmentation processor 122 as the feasible language for the string. In one embodiment, the feasible segmentation result and the feasible language can be sent to the advertisement server. The advertisement server may select a target advertisement based on one or both of the executable language and the selected result. Other functions and features of the partitioning processor 122, the frequency processor 124, and the language processor 126 are further described below.

また、サーバ装置104は、トークン・データベース120が示された実施形態において、トークン記憶要素のような、他の記憶要素へのアクセスを提供する。トークン・データベース120は、トークンおよび各トークンに関連する頻度情報を記憶することに使用することができる。また、トークン・データベース120は、言語または各トークンに関連する言語を記憶することができる。データ記憶要素は、データ記憶方法として、無制限の包含と、配列と、ハッシュテーブルと、リストと、組とのいずか一つまたは組合せを有することとしてもよい。サーバ装置104は、他の同様なタイプのデータ記憶装置にアクセスすることができる。   Server device 104 also provides access to other storage elements, such as token storage elements, in the embodiment in which token database 120 is shown. The token database 120 can be used to store tokens and frequency information associated with each token. The token database 120 can also store languages or languages associated with each token. The data storage element may have any one or combination of unlimited inclusion, array, hash table, list, and set as a data storage method. Server device 104 may access other similar types of data storage devices.

サーバ装置150は、グーグル(登録商標)サーチエンジンのようなサーチエンジン・アプリケーションプログラムを実行するサーバを有することができる。他の実施形態として、サーな装置150は、関連情報サーバまたは広告サーバを有することができる。他の実施形態として、多重サーバ装置150とすることができる。   The server device 150 may include a server that executes a search engine application program such as a Google (registered trademark) search engine. As another example, the smart device 150 may have a related information server or an advertisement server. As another embodiment, the multi-server device 150 may be used.

メモリ154は、また、サーチエンジン156として知られているサーチエンジン・アプリケーションプログラムを有している。サーチエンジン156は、ユーザ112aからの検索クエリーに対応して、ネットワーク106から関連情報の場所を見つけることができるとともに、検索クエリーの検索ログを維持することができる。また、サーチエンジン156は、頻度プロセッサ124からの頻度検索要求に対応して、頻度検索を実行することができる。サーチエンジン156は、ネットワーク106を介して、ユーザ112aに検索結果セットを提供することができ、または、分割化エンジン120に頻度情報を提供することができる。   Memory 154 also has a search engine application program known as search engine 156. The search engine 156 can find the location of relevant information from the network 106 and maintain a search query search log in response to the search query from the user 112a. Further, the search engine 156 can execute a frequency search in response to a frequency search request from the frequency processor 124. The search engine 156 can provide a search result set to the user 112 a via the network 106, or can provide frequency information to the segmentation engine 120.

一実施形態として、サーバ装置150、または関連装置は、ネットワーク106に接続された他の装置またはシステムに記憶された、ウェブページのような記事(article)の場所を見つけるために、ネットワーク106を巡回すること(crawl)を事前に実行する。記事には、例えば、文書、メール、インスタントメッセンジャメッセージ、データベースエントリ、様々なフォーマットのウェブページ、HTMLや、XMLや、XHTMLや、ポータブル・ドキュメント・フォーマット(PDF)ファイルや、雑誌新聞広告欄案内などのような、イメージ・ファイルや、オーディオファイルや、ビデオファイルや、またはあらゆる他の文書など、または文書グループまたはあらゆる適当なタイプの全ての情報などが含まれる。索引装置(indexer)158は、インデックス160のような、メモリ154または他のデータ記憶装置内の前記記事に索引をつけることに使用することができる。また、インデックスは、言語または各記事に関連する言語を有することとしてもよい。一実施形態として、総合記事索引の部分をそれぞれ有している複数のインデックスがある。巡回すること(crawling)の代わりとなる、または組み合わされる、記事に索引をつける他の適当な方法がある、と理解されるべきである。   In one embodiment, the server device 150, or associated device, crawls the network 106 to locate an article, such as a web page, stored on another device or system connected to the network 106. Do things (crawl) in advance. Articles include, for example, documents, emails, instant messenger messages, database entries, web pages in various formats, HTML, XML, XHTML, portable document format (PDF) files, magazine newspaper advertisements, etc. Image files, audio files, video files, or any other document, or a document group or any appropriate type of all information. An indexer 158 can be used to index the articles in memory 154 or other data storage, such as index 160. The index may have a language or a language related to each article. In one embodiment, there are a plurality of indexes each having a general article index portion. It should be understood that there are other suitable ways of indexing articles that can be substituted for or combined with crawling.

サーチエンジン156は、多くの適当な方法で頻度検索を実行することができる。一実施形態として、サーチエンジン156は、検索クエリーとしてそれぞれの最高選択分割結果を使用することでウェブ検索を実行することができるとともに、分割結果の候補言語の中で検索クエリーを有する記事を検索することができる。本実施形態において、頻度検索結果セットは、生成できるとともに、1つ以上の記事識別子を有することとすることができる。例えば、記事識別子は、全域資源位置指示子(URL)、ファイル名、リンク、アイコン、ローカルファイルのためのパス、または記事を特定する他の何か、とすることができる。一実施形態として、記事識別子は、記事に関連するURLを有することができる。   The search engine 156 can perform a frequency search in many suitable ways. In one embodiment, the search engine 156 can perform a web search by using each of the highest selected segmentation results as a search query, and searches for articles having the search query in the candidate languages of the segmentation results. be able to. In the present embodiment, the frequency search result set can be generated and can have one or more article identifiers. For example, an article identifier can be a global resource location indicator (URL), a file name, a link, an icon, a path for a local file, or something else that identifies an article. As one embodiment, the article identifier may have a URL associated with the article.

頻度プロセッサ124は、各分割結果の発生回数を表示するものとして、各頻度検索結果セットの中での記事識別子の数を使用することができる。他の実施形態としては、頻度プロセッサ124は、索引装置158に直接インターフェースすることができる。索引装置158は、分割結果が現れる関連候補言語の中の記事の数を、それぞれの最高選択分割結果について、決定することができる。この情報は、頻度プロセッサ124に送信することができる。また、他の実施形態として、サーチエンジン156および/または頻度プロセッサ124は、検索ログの中から関連候補言語の中の検索クエリーの発生回数を、それぞれの選択分割結果について、決定することができるとともに、頻度プロセッサ124は、この検索ログ情報に基づいた出現頻度を、決定することができる。一実施形態として、分割結果に関連する頻度検索における記事または検索クエリーの数は、関連言語の中の記事または検索クエリーの総数に基づいて正規化するものとしてもよい。   The frequency processor 124 can use the number of article identifiers in each frequency search result set as an indication of the number of occurrences of each division result. In other embodiments, the frequency processor 124 can interface directly to the index device 158. The indexing device 158 can determine the number of articles in the associated candidate language in which the split results appear for each highest selected split result. This information can be sent to the frequency processor 124. As another embodiment, the search engine 156 and / or the frequency processor 124 can determine the number of occurrences of the search query in the related candidate language from the search log for each selection division result. The frequency processor 124 can determine the appearance frequency based on the search log information. In one embodiment, the number of articles or search queries in a frequency search related to segmentation results may be normalized based on the total number of articles or search queries in the related language.

本発明は、図1に示されたものとは異なる構造のシステムを有することとしてもよいことに留意するべきである。例えば、本発明に従った何らかのシステムにおいて、サーバ装置104は、1台の物理的または論理的サーバを有することとしてもよい。図1に示すシステム100は、単なる例であるとともに、図2に示す方法の説明を補助するために使用される。   It should be noted that the present invention may have a system with a different structure than that shown in FIG. For example, in any system according to the present invention, the server device 104 may have one physical or logical server. The system 100 shown in FIG. 1 is merely an example and is used to help explain the method shown in FIG.

<処理>
本発明の実施形態に係る様々な方法が実施できる。本発明に従った一例の方法は、文字列に関連する第1候補言語および第2候補言語を少なくとも特定するステップと、前記文字列から前記第1候補言語に関連する第1分割結果を少なくとも決定するとともに、前記文字列から前記第2候補言語に関連する第2分割結果を少なくとも決定するステップと、前記第1分割結果について第1出現頻度を決定するとともに、前記第2分割結果について第2出現頻度を決定するステップと、前記第1出現頻度および第2出現頻度の一部に少なくとも基づいて、前記第1候補言語および第2候補言語から実施可能言語を特定するステップと、を有する。2つ以上の候補言語が特定できるとともに、2つ以上の分割結果が決定できる。例えば、3つの候補言語が特定できるとともに、4つの分割結果が各候補言語について決定できる。
<Processing>
Various methods according to embodiments of the present invention can be implemented. An example method according to the invention includes at least identifying a first candidate language and a second candidate language associated with a character string, and at least determining a first segmentation result associated with the first candidate language from the character string. And determining at least a second division result related to the second candidate language from the character string; determining a first appearance frequency for the first division result; and a second appearance for the second division result Determining a frequency, and identifying an executable language from the first candidate language and the second candidate language based at least on part of the first appearance frequency and the second appearance frequency. Two or more candidate languages can be specified, and two or more division results can be determined. For example, three candidate languages can be identified and four division results can be determined for each candidate language.

前記実施可能言語は、前記第1出現頻度および第2出現頻度の一部に少なくとも基づく第1分割結果および第2分割結果から、実施可能分割結果を特定するものの一部に基づいて決定することができる。第1候補言語および第2候補言語は、1つ以上の言語信号の一部に基づいて特定されることとしてもよい。前記言語信号は、前記文字列に関連づけられた言語学と、前記文字列に関連づけられたユーザのIPアドレスと、前記文字列に使用された文字セットと、前記文字列に関連づけられたユーザに関連するブラウザ・アプリケーション・プログラムのブラウザ設定と、前記文字列に関連する最上位のドメインと、の少なくとも一つを有することができる。一実施形態として、前記実施可能言語を特定することは、言語信号の一部に少なくとも基づくものとしてもよい。   The executable language may be determined based on a part of what specifies the executable division result from the first division result and the second division result based at least on a part of the first appearance frequency and the second appearance frequency. it can. The first candidate language and the second candidate language may be specified based on a part of one or more language signals. The linguistic signal is associated with the linguistics associated with the string, the IP address of the user associated with the string, the character set used for the string, and the user associated with the string. At least one of a browser setting of a browser application program and a top-level domain related to the character string. In one embodiment, identifying the enablement language may be based at least on a portion of the language signal.

一実施形態として、前記第1出現頻度および第2出現頻度の一部に少なくとも基づいて、前記第1候補言語および前記第2候補言語から前記実施可能言語を特定することは、前記第1出現頻度が前記第2出現頻度よりも大きいときに、前記第1候補言語を選択すること、を有することとすることができる。前記文字列は、ドメインネームを有することができる。前記第1分割結果はトークンの第1組合せを有することができるとともに、前記第2分割結果はトークンの第2組合せを有することができる。   As one embodiment, specifying the executable language from the first candidate language and the second candidate language based at least on a part of the first appearance frequency and the second appearance frequency is the first appearance frequency. Can be selected when the second appearance frequency is greater than the second appearance frequency. The character string may have a domain name. The first split result may have a first combination of tokens, and the second split result may have a second combination of tokens.

一実施形態として、前記第1分割結果について前記第1出現頻度を決定することは、前記第1分割結果を有している前記第1候補言語における記事の数を決定することと、前記第1候補言語における記事の総数に基づいて記事の数を標準化することと、を有することができ、さらに、前記第1言語において記事の数を決定することは、前記第1分割結果を有している検索クエリーに対応して生成された検索結果セットを識別する記事の数を決定することを有することができる。   As one embodiment, determining the first appearance frequency for the first division result is determining the number of articles in the first candidate language having the first division result; and Standardizing the number of articles based on the total number of articles in the candidate language, and further, determining the number of articles in the first language comprises the first segmentation result. Determining the number of articles that identify the search result set generated in response to the search query may be included.

一実施形態として、前記第1言語において記事の数を決定することは、前記第1分割結果が記事のインデックスにアクセスすることを有することとすることができる。他の実施形態として、前記第1出現頻度を決定することは、前記第1候補言語の中の複数の検索クエリーにおける前記第1分割結果の出現数を決定することと、前記第1候補言語の中の検索クエリーの総数に基づいて前記出現数を標準化することとを有することとすることができる。   In one embodiment, determining the number of articles in the first language may include the first segmentation result accessing an index of articles. In another embodiment, determining the first appearance frequency includes determining the number of appearances of the first division result in a plurality of search queries in the first candidate language, and determining the first candidate language And standardizing the number of occurrences based on the total number of search queries within.

また、前記方法は、前記実施可能言語または前記実施可能分割結果の一部(または両方)に少なくとも基づいて選択することを有することとしてもよく、前記記事は、広告を有することとしてもよい。一実施形態として、前記第1分割結果を決定することは、前記文字列から前記第1候補言語における複数の分割結果を決定することと、前記第1候補言語の中の前記複数の分割結果から前記第1分割結果を特定することとを有することとすることができる。前記第1分割結果を特定することは、前記複数の分割結果それぞれについて確率値を計算することを有することとすることができる。前記第1分割結果に関連する第1確率値は、前記第1分割結果における各トークンの頻度の一部に少なくとも基づくものとすることができる。   In addition, the method may include selecting based on at least a part (or both) of the executable language or the executable division result, and the article may include an advertisement. In one embodiment, determining the first division result includes determining a plurality of division results in the first candidate language from the character string and from the plurality of division results in the first candidate language. Specifying the first division result. Specifying the first division result may include calculating a probability value for each of the plurality of division results. The first probability value related to the first division result may be based at least on a part of the frequency of each token in the first division result.

他の例の方法としては、ドメインネームから第1候補言語の中で第1分割結果を決定するとともに、ドメインネームから第2候補言語の中で第2分割結果を決定することと、記事インデックスと、テキストインデックスと、検索結果セットとの少なく一つの中で、前記第1分割結果について第1出現頻度を決定することと、前記第2分割結果について第2出現頻度決定することと、前記第1出現頻度が前記第2出現頻度よりも大きいとき、実施可能言語として前記第1候補言語を選択することと、前記第2出現頻度が前記第1出現頻度よりも大きいとき、実施可能言語として前記第2候補言語を選択することと、前記実施可能言語の一部に少なくとも基づいて広告を選択すること、前記ドメインネームに関連づけられたウェブページに関連づけて前記広告の表示をすることとを有する。前記広告は、前記実施可能言語のテキストを有している。   Another example method is to determine the first segmentation result in the first candidate language from the domain name, determine the second segmentation result in the second candidate language from the domain name, Determining a first appearance frequency for the first division result, determining a second appearance frequency for the second division result in at least one of the text index and the search result set; When the appearance frequency is higher than the second appearance frequency, the first candidate language is selected as an executable language, and when the second appearance frequency is higher than the first appearance frequency, the first language is selected as the executable language. 2 selecting a candidate language, selecting an advertisement based at least in part on the executable language, and relating to a web page associated with the domain name. And a to the display of the advertisement Te. The advertisement has text in the executable language.

図2は、本発明の一実施形態に従って、テキスト分割のために言語を選択する方法の一例の方法200を示している。本例の方法は、本発明に従った方法を実行するための様々な方法があるなかの一例として提供する。図2に示されている方法200は、1つのシステムでまたは様々なシステムの組合せで実行することができ、また他の方法で実行することもできる。方法200は、実施形態として図1に示されたシステム100によって実行されるものとして以下で説明されるとともに、システム100の様々な要素が図2の実施形態方法を説明するために参照される。   FIG. 2 illustrates an example method 200 of a method for selecting a language for text segmentation in accordance with one embodiment of the present invention. The method of this example is provided as an example among various ways to carry out the method according to the present invention. The method 200 shown in FIG. 2 can be performed in one system or a combination of various systems, and can be performed in other ways. The method 200 is described below as being performed by the system 100 shown in FIG. 1 as an embodiment, and various elements of the system 100 are referenced to describe the embodiment method of FIG.

図2を参照すると、ブロック202において実施形態方法が開始する。ブロック202には、ブロック204が続く。ブロック204では、文字列が分割化エンジン120によってアクセスされる。文字列は、例えば、ネットワーク106に接続された装置または他の装置から受信またはアクセスできる。一実施形態として、前記文字列は、ドメインネームに関連する広告サーバから受信する、無効または実在しないウェブサイトに関連するドメインネームとすることができる。   Referring to FIG. 2, the embodiment method begins at block 202. Block 202 is followed by block 204. In block 204, the string is accessed by the segmentation engine 120. The character string can be received or accessed from a device connected to the network 106 or another device, for example. In one embodiment, the string may be a domain name associated with an invalid or non-existing website received from an ad server associated with the domain name.

ブロック204には、ブロック206が続く。ブロック206では、文字列についての候補言語が特定される。一実施形態として、言語プロセッサ126は、前記文字列について多くの候補言語を決定するために、一つ以上の言語信号を使用することができる。例えば、前記言語プロセッサは、前記文字列について、英語、フランス語およびスペイン語を3つの候補言語として、言語信号に基づいて、特定することができる。   Block 204 is followed by block 206. At block 206, candidate languages for the character string are identified. In one embodiment, the language processor 126 can use one or more language signals to determine a number of candidate languages for the string. For example, the language processor can identify the character string based on a language signal, with English, French and Spanish as three candidate languages.

例えば、使用されたいくつかの言語信号は、前記文字列に関連する言語学と、前記文字列に関連するユーザのIPアドレスと、前記文字列で使用された文字セットと、前記文字列に関連するユーザに関連するブラウザ・アプリケーション・プログラムのブラウザ設定と、前記文字列に関連する最上位のドメインとにすることができる。例えば、言語学は、特定の言語においてそれを示す前記文字列の構成または特徴を決定することに使用することができる。例えば、ある言語は、ある文字のグループにおける開始または終了に傾向をもっているとともに、一般的なパターンを使用する。前記ユーザのIPアドレスは、前記ユーザの位置および国を示すことができる。国情報から言語または国に関連する言語は、候補言語として使用することができる。文字列の文字セットは、言語または前記文字列に関連する言語を示すことができる。例えば、「キリル文字」の文字セットは、ロシア語または他のスラヴ言語を示すことができる。文字列に関連するユーザのブラウザ・アプリケーション・プログラムのブラウザ設定は、前記文字列に関連する言語および/または文字セットを示すことができる。例えば、ユーザのブラウザ・アプリケーション・プログラムの設定による前記言語および文字セットは、前記文字列に伴うHTTPヘッダで渡されることができる。文字列に関連する最上位ドメインは、国を示すことができる。最上位ドメインは、ルートに従う階層の最高水準になることができる。ドメインネームにおいて、最上位ドメインは、右側に最も遠く現れるドメインネームの一部である。例えば、ドメインネーム「usedrugs.co.uk」において、最上位ドメインは、「.uk」であるとともに、「イギリス(United Kingdom)」を示すことができる。最上位ドメイン「.ru」は、ロシアを示すことができる。最上位ドメインに関連する国は、ロシアを示す「ru」のような、候補言語を決定する際に使用されることができる。ここで、関連文字列はロシア言語になり得ることを示している。何らかの最上位ドメインは、1つ以上の言語を示すものとしてもよい。
例えば、「.ch」は、スイスを示すことができるとともに、文字列がフランス語、ドイツ語またはイタリア語に関連し得ることを示すことができる。文字列についての候補言語を特定する他の適当な信号および方法が使用されることとしてもよい。
For example, some linguistic signals used include the linguistics associated with the string, the user's IP address associated with the string, the character set used in the string, and the string The browser setting of the browser application program related to the user to be used and the top-level domain related to the character string. For example, linguistics can be used to determine the composition or characteristics of the string that represents it in a particular language. For example, some languages tend to start or end in a group of characters and use common patterns. The user's IP address may indicate the user's location and country. The language from the country information or the language related to the country can be used as a candidate language. The character set of the character string can indicate a language or a language associated with the character string. For example, a “Cyrillic” character set may indicate Russian or other Slavic languages. The browser settings of the user's browser application program associated with the string may indicate the language and / or character set associated with the string. For example, the language and character set according to the settings of the user's browser application program can be passed in an HTTP header associated with the character string. The top domain associated with a string can indicate a country. The top-level domain can be the highest level of the hierarchy that follows the root. In a domain name, the top domain is the part of the domain name that appears farthest to the right. For example, in the domain name “usedrugs.co.uk”, the highest domain is “.uk” and “United Kingdom” can be indicated. The top domain “.ru” can indicate Russia. The country associated with the top-level domain can be used in determining candidate languages, such as “ru” for Russia. Here, it is shown that the related character string can be in Russian language. Any top level domain may indicate one or more languages.
For example, “.ch” can indicate Switzerland and can indicate that the string can be associated with French, German or Italian. Other suitable signals and methods for identifying candidate languages for strings may be used.

ブロック206には、ブロック208が続く。ブロック208では、複数の分割結果が各候補言語について文字列を分割することによって文字列から生成される。文字列を分割することは、トークンの複数の組合せに文字列の中の文字を解析することを有することとしてもよく、さらに、分割化プロセッサ122によって実行することができる。分割化プロセッサ122は、各候補言語について分割結果のリストを発生させることができる。各分割結果は、トークンまたは信号トークンの組合せを特定することができる。例えば、文字列「assocomunicazioni」は、他の分割結果として「asso comunicazioni」にイタリア語で分割できるとともに、他の分割結果として「asso com uni cazioni」にフランス語で分割できる。他の実施形態として、文字列「maisonblanche」は、他の分割結果として「maison blanche」にフランス語で分割できるとともに、他の分割結果として「mai son blanc he」に英語で分割できる。他の実施形態として、文字列「usedrugs」は、「used rugs」、「use drugs」、「us ed rugs」、「u sed rugs」、「usedrugs」などを有する分割結果に英語で分割できる。また、分割結果は、フランス語およびドイツ語など、上記実施形態のような、他の候補言語について生成されることができる。分割されていない文字列が分割結果に含まれることとしてもよい。   Block 206 is followed by block 208. At block 208, a plurality of segmentation results are generated from the character string by dividing the character string for each candidate language. Splitting the string may include parsing the characters in the string into multiple combinations of tokens and may be further performed by the segmentation processor 122. The segmentation processor 122 can generate a list of segmentation results for each candidate language. Each segmentation result can specify a token or a combination of signal tokens. For example, the character string “assocomunicazioni” can be divided into “asso comunicazioni” in Italian as another division result, and can be divided into “asso com uni cazioni” in French as another division result. As another embodiment, the character string “maisonblanche” can be divided into “maison blanche” in French as another division result, and can be divided into English as “mai son blanc he” as another division result. As another embodiment, the string “usedrugs” can be split in English into splitting results having “used rugs”, “use drugs”, “us ed rugs”, “used rugs”, “usedrugs”, and the like. Also, the segmentation results can be generated for other candidate languages, such as the above embodiment, such as French and German. A character string that is not divided may be included in the division result.

分割化プロセッサ122は、分割化処理においてトークン・データベース126からトークンを利用することができる。PCT国際特許出願番号PCT/US03/41609、発明の名称「テキスト分割方法およびシステム」、出願日2003年12月30日に開示されたセグメンテーション手法のような、様々な方法が文字列を分割するために使用することができるとともに、その全てがここに引用されることによってここに組み込まれている。   The segmentation processor 122 can use the token from the token database 126 in the segmentation process. Various methods such as PCT International Patent Application No. PCT / US03 / 41609, the title of the invention “Text Splitting Method and System”, the segmentation technique disclosed on Dec. 30, 2003, for splitting strings. All of which are hereby incorporated by reference herein.

ブロック208には、ブロック210が続く。ブロック210では、各候補言語について最高分割結果が決定される。最高分割結果は、分割化プロセッサ122によって決定されることができるとともに、最良または実施可能分割結果となる最高確率の結果とすることができる。一実施形態として、分割結果は、各分割結果について決定された確率値に基づいてランキング分けされることができる。一実施形態として、確率値は、個々の分割結果の中の個々のトークンに関連する加算頻度値によって決定されることができる。他の実施形態として、確率値は、それぞれの個別分割結果の中の個々のトークンに関連する頻度値の対数の合計を伴う複素関数によって決定されることができる。そして、多くの上位分割結果が選択できる。例えば、各候補言語についての分割結果がランキング分けされることができるとともに、各候補言語の上位3つの結果が選択できる。   Block 208 is followed by block 210. At block 210, the highest segmentation result is determined for each candidate language. The highest partition result can be determined by the partitioning processor 122 and can be the highest probability result that is the best or feasible partition result. In one embodiment, the segmentation results can be ranked based on the probability values determined for each segmentation result. In one embodiment, the probability value can be determined by an additive frequency value associated with individual tokens in individual segmentation results. As another embodiment, the probability value can be determined by a complex function with a logarithmic sum of frequency values associated with individual tokens in each individual split result. A large number of upper division results can be selected. For example, the division results for each candidate language can be ranked and the top three results for each candidate language can be selected.

ブロック210には、ブロック212が続く。ブロック212では、各候補言語について分割結果を選択して、頻度検索がトップについて実行される。前記頻度検索は、サーチエンジン156とともに頻度プロセッサ124によって実行されることができる。一実施形態として、分割化プロセッサ122は、頻度プロセッサ124に選択分割結果を渡すことができる。頻度プロセッサ124は、記事または検索クエリーの収集資料の中の各分割結果について出現頻度を決定することができる。   Block 210 is followed by block 212. At block 212, a segmentation result is selected for each candidate language and a frequency search is performed on the top. The frequency search can be performed by the frequency processor 124 along with the search engine 156. As one embodiment, the segmentation processor 122 can pass the selected segmentation results to the frequency processor 124. The frequency processor 124 can determine the appearance frequency for each segmentation result in the collected material of the article or search query.

一実施形態として、頻度プロセッサ124は、サーチエンジン156によって索引を付けられた記事に基づいて分割結果について出現頻度を決定することができる。一実施形態として、頻度プロセッサ124は、ネットワーク106を介してサーチエンジン156に、トップ選択分割結果を送信することができる。サーチエンジン156は、検索クエリーとして各分割結果を使用して索引を付けられた記事の中の各分割結果について検索を実行することができる。例えば、頻度プロセッサ124は、サーチエンジン156が特定の言語の記事について正確な分割語句を検索を実行できるように、引用符によって囲まれた各候補言語について各分割結果を検索クエリーとしてサーチエンジン156に送信することができる。一実施形態として、各分割結果について、サーチエンジン156は、検索クエリーに応答して、多くの記事識別子を有する検索結果セットを生成することができる。サーチエンジン156は、ネットワーク106を介してもとの頻度プロセッサ124へ、分割結果のそれぞれについて検索結果セットを送信することができる。頻度プロセッサ124は、各分割結果が出現する頻度を、記事識別子の数に基づいて、各検索結果から決定することができる。   In one embodiment, the frequency processor 124 can determine the frequency of appearance for segmentation results based on articles indexed by the search engine 156. In one embodiment, the frequency processor 124 can send the top selection split results to the search engine 156 via the network 106. The search engine 156 can perform a search for each segmented result in articles indexed using each segmented result as a search query. For example, the frequency processor 124 may provide the search engine 156 with each segmentation result as a search query for each candidate language surrounded by quotation marks so that the search engine 156 can perform an exact segment search for articles in a particular language. Can be sent. In one embodiment, for each segmented result, search engine 156 can generate a search result set having a number of article identifiers in response to the search query. The search engine 156 can send a search result set for each of the split results to the original frequency processor 124 via the network 106. The frequency processor 124 can determine the frequency at which each division result appears from each search result based on the number of article identifiers.

他の実施形態として、頻度プロセッサ124は、ネットワーク106を介して索引装置158に、選択分割結果のトップを送信することができる。索引装置158は、分割結果が出現した特定の言語についての記事の数を決定するために、インデックス160にアクセスすることができるとともに、選択分割結果のそれぞれにこれをすることができる。一実施形態として、インデックス160は複数のインデックスとしてもよく、索引装置158は各分割結果について総合インデックスの一部分を検査することができる。そこで、索引装置158は、ネットワーク106を介して頻度プロセッサ124に、各分割結果に関連する出現数を渡すことができる。   In another embodiment, the frequency processor 124 can send the top of the selected split results to the index device 158 via the network 106. The indexer 158 can access the index 160 to determine the number of articles for a particular language in which the split results appear, and can do this for each of the selected split results. In one embodiment, the index 160 may be a plurality of indexes, and the index device 158 can examine a portion of the overall index for each split result. Thus, the indexing device 158 can pass the number of occurrences related to each division result to the frequency processor 124 via the network 106.

また、他の実施形態として、頻度プロセッサ124は、検索クエリーにおける分割結果の出現数を決定するために、ネットワーク106を介してサーチエンジン156に、選択分割結果のトップを送信することができる。例えば、サーチエンジン156は、関連言語の中の各分割結果について、分割結果が検索クエリーまたは検索クエリーの一部として使用された回数を決定することができる。各分割結果についての検索クエリーの中の出現数は、ネットワーク106を介して頻度プロセッサ124に、サーチエンジン156によって送信することができる。   In another embodiment, the frequency processor 124 can send the top of the selected split results to the search engine 156 via the network 106 to determine the number of occurrences of the split results in the search query. For example, the search engine 156 can determine, for each segmentation result in the related language, the number of times the segmentation result has been used as a search query or as part of a search query. The number of occurrences in the search query for each segmentation result can be transmitted by the search engine 156 to the frequency processor 124 via the network 106.

例えば、分割化プロセッサ122が、英語の文字列「usedrugs」について「used rugs」、「use drugs」および「us ed rugs」として選択分割結果を決定するとき、頻度プロセッサ124は、これらの分割結果と他の候補言語に関連する分割結果とをサーチエンジン156に送信することができる。例えば、サーチエンジン156は、検索クエリーとしてこれらの結果を使用することができるとともに、各分割結果について検索結果セットを生成することができる。例えば、サーチエンジン156は、検索クエリーとして「used rugs」を使用することができるとともに、語句「used rugs」を有する英語の記事に関連する記事識別子を有する前記検索クエリーについて検索結果セットを決定することができる。サーチエンジン156は、他の候補言語に関連する分割結果に同じことをすることができる。他の実施形態として、サーチエンジン156は、優先的に容認された検索クエリーを有する関連検索ログから、受信された分割結果を有する検索クエリーの回数を、決定することができる。例えば、サーチエンジン156は、受信された語句「used rugs」を有する検索クエリーの回数について検索ログを検索することができる。また、他の実施形態として、サーチエンジン156の索引装置158は、検索結果を受信することができるとともに、分割結果を有するインデックス160またはインデックス160の一部の中の記事の数を決定することができる。例えば、索引装置158は、「used rugs」を有する英語の記事の数について、インデックス160またはインデックス160の一部を介して検索することができる。   For example, when the segmentation processor 122 determines the selected segmentation results as “used rugs”, “use drugs”, and “us ed rugs” for the English string “usedrugs”, the frequency processor 124 Segmentation results related to other candidate languages can be transmitted to the search engine 156. For example, the search engine 156 can use these results as a search query and can generate a search result set for each split result. For example, the search engine 156 may use “used rugs” as a search query and determine a search result set for the search query having an article identifier associated with an English article having the phrase “used rugs”. Can do. The search engine 156 can do the same for segmentation results associated with other candidate languages. As another example, the search engine 156 can determine the number of search queries having a received segmentation result from an associated search log having a preferentially accepted search query. For example, the search engine 156 can search the search log for the number of search queries that have the received phrase “used rugs”. In another embodiment, the index device 158 of the search engine 156 can receive the search results and determine the number of articles in the index 160 or a part of the index 160 that has the segmentation results. it can. For example, the index device 158 can search through the index 160 or a portion of the index 160 for the number of English articles having “used rugs”.

また、スペルチェック機能が前記頻度検索の中に含まれることとすることができる。例えば、頻度プロセッサ124は、選択分割結果をスペルチェックできる、トップのために、スペルチェック機能を有することができ、または呼ぶことができる。前記スペルチェック機能は、各分割結果の中の個々のトークンについて正しいまたは好ましいスペルを決定することができる。頻度プロセッサ124は、両方の結果について出現頻度を決定するために、あらゆるスペル修正済み分割結果のみならず、最高分割結果についても頻度検索を実行することができる。例えば、分割結果が「basebal game」であるとともに、スペル修正結果が「baseball game」であるとき、頻度検索はこれらの結果の両方について実行することができる。   Also, a spell check function can be included in the frequency search. For example, the frequency processor 124 can have or call a spell check function for the top, which can spell check the selected split results. The spell check function can determine the correct or preferred spell for each token in each split result. The frequency processor 124 can perform a frequency search on the highest split result as well as any spell-corrected split results to determine the appearance frequency for both results. For example, when the division result is “basebal game” and the spelling correction result is “baseball game”, a frequency search can be performed for both of these results.

一実施形態として、前記分割結果についての各出現頻度は、特定言語の中の全ての記事または検索クエリーの数に基づいて正規化された値である。例えば、英語についての分割結果が70の英語記事または検索クエリーの中で出現するとともに、総数1000の英語記事または検索クエリーがある場合、この英語分割結果についての出現頻度は0.07(70/1000)である。同様に、フランス語の分割結果が60のフランス語記事または検索クエリーで出現するとともに、総数400のフランス語記事または検索クエリーがある場合、このフランス語分割結果についての出現頻度は0.15(60/400)である。このように、出現頻度は、記事または検索結果の収集資料の中の特定言語の普及率を考慮するとともに、より一般的な言語に固有の重み付けをしない。   In one embodiment, each appearance frequency for the segmentation result is a value normalized based on the number of all articles or search queries in a specific language. For example, if the segmentation result for English appears in 70 English articles or search queries, and there are a total of 1000 English articles or search queries, the appearance frequency for this English segmentation result is 0.07 (70/1000 ). Similarly, if the French segmentation result appears in 60 French articles or search queries and there are a total of 400 French articles or search queries, the frequency of occurrence for this French segmentation result is 0.15 (60/400). is there. Thus, the appearance frequency considers the penetration rate of a specific language in the collected material of articles or search results, and does not give a weight specific to a more general language.

ブロック212には、ブロック214が続く。ブロック214では、実行可能言語および実行可能分割結果が特定される。一実施形態として、頻度プロセッサ124は、前記実行可能言語および実行可能分割結果を特定することができる。例えば、前記頻度プロセッサ124は、最高関連出現頻度を持つ前記分割結果を選択することができる。上記のように、前記出現頻度は、分割結果を有する記事または検索クエリーの数、および特定言語の中の記事または検索クエリーの総数、に基づいて、正規化された値とすることができる。また、付加信号が実施可能分割結果を決定することに使用できる。例えば、頻度プロセッサ124は、各分割結果を有する前記記事の客観的ランキング(ページランク(登録商標)のようなウェブ記事のためのランキング・アルゴリズム)を考慮することができるとともに、各分割結果を有する記事を評価するために前記客観的ランキングを使用することができる。また、記事で出現する前記分割結果の回数と、前記記事の中の前記分割結果の位置とは、分割結果を有する前記記事を評価することに使用することができる。前記実施可能分割結果に関連する候補言語は、前記実施可能言語として選択されることができる。   Block 212 is followed by block 214. At block 214, an executable language and an executable partition result are identified. In one embodiment, the frequency processor 124 can identify the executable language and the executable partitioning result. For example, the frequency processor 124 can select the segmentation result with the highest associated appearance frequency. As described above, the appearance frequency may be a normalized value based on the number of articles or search queries having a segmentation result and the total number of articles or search queries in a specific language. Further, the additional signal can be used to determine the feasible division result. For example, the frequency processor 124 can take into account an objective ranking of the article with each segmentation result (a ranking algorithm for web articles such as PageRank®) and has each segmentation result. The objective ranking can be used to rate articles. Further, the number of division results appearing in an article and the position of the division result in the article can be used for evaluating the article having the division result. A candidate language related to the feasible division result may be selected as the feasible language.

一実施形態として、ブロック206において前記候補言語の特定に使用される前記言語信号は、前記実施可能言語の決定に使用されることとしてもよい。文字列を示す言語信号が十中八九特定言語である場合、これらの信号は、この言語についてのより大きな重みとして使用されることができる。例えば、言語学、関連ユーザのIPアドレス、文字列で使用された文字セット、ユーザに関連するブラウザ・アプリケーション・プログラムのブラウザ設定、文字列に関連する最上位のドメイン、のような言語信号は、例えば、フランス語のような、文字列に関連する言語が特定言語であることを示すものとすることができる。例えば、英語のような、他の言語における分割結果についての情報の出現頻度は、フランス語における他の分割結果についての情報の出現頻度に、近いまたは越えるものとしてもよい。前記言語信号は、本例における有効言語としてフランス語の選択をもたらすために、フランス語の重み付けに使用されることができる。216において、方法200が終了する。   In one embodiment, the language signal used to identify the candidate language at block 206 may be used to determine the enablement language. If the linguistic signals that represent the strings are in most specific languages, these signals can be used as a greater weight for this language. For example, linguistic signals such as linguistics, the IP address of the associated user, the character set used in the string, the browser settings of the browser application program associated with the user, the top level domain associated with the string are: For example, it can indicate that the language related to the character string, such as French, is a specific language. For example, the appearance frequency of information about division results in other languages such as English may be close to or exceeds the appearance frequency of information about other division results in French. The language signal can be used for French weighting to provide a French selection as the effective language in this example. At 216, method 200 ends.

前記実施可能言語および実施可能分割結果は、様々な方法で使用されることができる。実施可能言語および/または実施可能分割結果は、広告の選択で使用されることができる。例えば、ユーザ112aは、ウェブサイト「usedrugs.com」について、ブラウザ・アプリケーションの中にこの文字列を入力することによって、自身のブラウザ・アプリケーションでナビゲートすることを試みてもよい。ドメインネーム「usedrugs.com」にウェブサイトが存在していない場合などは、ユーザのブラウザ・アプリケーションが第三者ウェブサイトに転送されることとしてもよい。前記第三者ウェブサイトは、ユーザによって見られているウェブページでユーザによって入力されたドメインネームに関連する広告および/またはリンクを置くことが好ましい。前記第三者ウェブサイトは、ドメインネーム「usedrugs.com」を分割化エンジン120に送信することができる。分割化エンジン120は、前記ウェブサイトに関連する前記第三者ウェブサイトまたは広告サーバに、実施可能言語および実施可能分割結果を返すために、上記方法およびシステムを使用することができる。例えば、前記実施可能分割結果は「used rugs」とすることができ、前記実施可能言語は英語とすることができる。前記第三者ウェブサイトまたは広告サーバは、ユーザによって見られるウェブページ上で、英語の語句「used rugs」に関連する広告および/またはリンクを表示することができるとともに、前記ウェブサイト上で使用される言語が英語であることを確実にすることができる。また、前記実施可能言語は、ユーザに表示されたステータスメッセージで使用される言語の選択に使用されることができる。   The executable language and the executable partitioning result can be used in various ways. The actionable language and / or actionable segmentation result can be used in the selection of advertisements. For example, the user 112a may attempt to navigate the website “usedrugs.com” with his browser application by entering this string into the browser application. When the website does not exist in the domain name “usedrugs.com”, the user's browser application may be transferred to a third party website. The third party website preferably places advertisements and / or links related to the domain name entered by the user on the web page being viewed by the user. The third party website can transmit the domain name “usedrugs.com” to the segmentation engine 120. The segmentation engine 120 can use the above methods and systems to return an executable language and an executable segmentation result to the third party website or ad server associated with the website. For example, the feasible division result may be “used rugs”, and the feasible language may be English. The third party website or ad server can display advertisements and / or links related to the English phrase “used rugs” on a web page viewed by a user and is used on the website You can be sure that your language is English. In addition, the executable language can be used to select a language used in a status message displayed to the user.

<全般>
上述の説明は多くの特定の内容を有しているが、これらは本発明の範囲を限定するものと理解すべきではなく、単なる開示された実施形態として理解すべきである。当業者は、本発明の範囲内のあらゆる他の実施可能な変形をなすことができる。前記用語の第1および第2は、単に、1つの物を他の物から区別するものとして、本明細書では使用されている。前記用語の第1および第2は、明らかな注記がない場合、時間についての第1または第2、リストについての第1または第2、または他の順番、を示すためには使用されない。例えば、「第2」は、他の方法で明らかに示されていない限り、時間について、または「第1」の前のリストについて、のものとしてもよい。
<General>
Although the above description has many specific details, they should not be understood as limiting the scope of the invention, but merely as disclosed embodiments. Those skilled in the art can make all other possible variations within the scope of the present invention. The terms first and second are used herein simply to distinguish one thing from another. The terms first and second are not used to indicate first or second for time, first or second for list, or other order, unless explicitly noted. For example, “second” may be for time or for the list before “first” unless explicitly indicated otherwise.

図1は、本発明の一実施形態に係るシステムの図を示している。FIG. 1 shows a diagram of a system according to an embodiment of the present invention. 図2は、本発明によって実施される方法の一実施形態のフローチャートを示している。FIG. 2 shows a flowchart of one embodiment of a method implemented by the present invention.

符号の説明Explanation of symbols

100 システム
102a−n クライアント装置
104 サーバ装置
106 ネットワーク
116 プロセッサ
118 メモリ
120 分割化エンジン
122 分割化プロセッサ
124 頻度プロセッサ
126 言語プロセッサ
126 トークン・データベース
150 サーバ装置
152 プロセッサ
154 メモリ
156 サーチエンジン
158 索引装置
160 インデックス
DESCRIPTION OF SYMBOLS 100 System 102a-n Client apparatus 104 Server apparatus 106 Network 116 Processor 118 Memory 120 Segmentation engine 122 Segmentation processor 124 Frequency processor 126 Language processor 126 Token database 150 Server apparatus 152 Processor 154 Memory 156 Search engine 158 Index apparatus 160 Index

Claims (14)

分割を表現しているトークンを持っていない文字列を受信するステップ(204)と、
特定の規則および情報を使用して、前記文字列において使用されていると予想される言語として第1候補言語および第2候補言語を少なくとも特定するステップ(206)と、
前記文字列に対して前記第1候補言語に関連づけられた第1の複数のトークンを有する第1分割結果を少なくとも決定するとともに、前記文字列に対して前記第2候補言語に関連づけられた第2の複数のトークンを有する第2分割結果を少なくとも決定するステップ(208)と、
サーチエンジン(156)によって受信されたサーチエンジン・インデックスまたは検索クエリーのログの少なくとも一つにおける前記第1分割結果の第1出現頻度を決定するとともに、サーチエンジン(156)によって受信されたサーチエンジン・インデックスまたは検索クエリーのログの少なくとも一つにおける前記第2分割結果の第2出現頻度を決定するステップ(210,212)と、
少なくとも前記第1出現頻度および第2出現頻度の一部に基づいて、前記第1候補言語および第2候補言語から実施可能言語を特定(214)して出力するステップと、
を有することを特徴とするコンピュータで実行される方法(200)。
Receiving a string that does not have a token representing a split (204);
Identifying (206) at least a first candidate language and a second candidate language as languages expected to be used in the string using specific rules and information ;
The character with at least determining a first segmentation result having a first plurality of tokens associated with the first candidate language for column, second associated with the second candidate languages for the string Determining (208) at least a second split result having a plurality of tokens;
Determining a first frequency of occurrence of the first segmentation result in at least one of a search engine index or a search query log received by the search engine (156) and a search engine received by the search engine (156); Determining a second frequency of appearance of the second segmentation result in at least one of an index or a search query log;
Specifying (214) an executable language from the first candidate language and the second candidate language based on at least a part of the first appearance frequency and the second appearance frequency, and outputting,
A computer-implemented method (200) comprising:
前記第1候補言語の特定(206)は、前記文字列に関連づけられたユーザのIPアドレスに含まれる情報と、前記文字列に関連づけられたユーザに関連づけられたブラウザ・アプリケーション・プログラムのブラウザ設定と、前記文字列に関連づけられた最上位のドメインとで構成されるグループから選択された少なくとも一つの情報に基づいて前記第1候補言語を特定することを有する請求項1に記載のコンピュータで実行される方法(200)。The identification (206) of the first candidate language includes information included in the IP address of the user associated with the character string, and browser settings of the browser application program associated with the user associated with the character string. 2. The computer-implemented method of claim 1, further comprising: identifying the first candidate language based on at least one information selected from a group consisting of a top-level domain associated with the character string. Method (200). 前記実施可能言語を特定するステップ(206)は、前記ユーザのIPアドレスに含まれる文字における少なくとも1つの文字の少なくとも一部に基づいて行われる請求項2に記載のコンピュータで実行される方法(200)。The feasible to identify the language step (206), the method (200 performed by a computer according to claim 2 which is performed based on at least a portion of at least one character in a character included in the IP address of the user ). 前記サーチエンジン・インデックスにおける前記第1分割結果の前記第1出現頻度を決定するステップ(212)は、前記第1候補言語に対応するサーチエンジン・インデックスエントリの数に基づいて前記第1出現頻度を標準化するステップを有し
検索クエリーのログにおける前記第1分割結果の前記第1出現頻度を決定するステップ(212)は、前記第1候補言語に対応する前記ログにおける検索クエリーの数に基づいて前記第1出現頻度を標準化するステップを有する請求項1に記載のコンピュータで実行される方法(200)。
The step of determining (212) the first appearance frequency of the first division result in the search engine index is based on the number of search engine index entries corresponding to the first candidate language. Having a standardization step,
The step (212) of determining the first appearance frequency of the first division result in the search query log normalizes the first appearance frequency based on the number of search queries in the log corresponding to the first candidate language. The computer-implemented method (200) of claim 1, comprising the steps of:
前記実施可能言語に基づいて選択された広告を出力するステップをさらに有する請求項1に記載のコンピュータで実行される方法(200)。  The computer-implemented method (200) of claim 1, further comprising outputting an advertisement selected based on the enablement language. 前記第1分割結果を決定するステップは、
前記文字列から前記第1候補言語における複数の分割結果を決定するステップと、
前記複数の分割結果のそれぞれに関連づけられた確率値に基づき前記複数の分割結果から前記第1分割結果を特定するステップと
を有し、
前記の各分割結果は、他の分割結果のそれぞれとは異なった複数のトークンを有している請求項1に記載のコンピュータで実行される方法(200)。
The step of determining the first division result includes:
Determining a plurality of division results in the first candidate language from the character string;
Identifying the first division result from the plurality of division results based on a probability value associated with each of the plurality of division results;
The computer-implemented method (200) of claim 1, wherein each split result comprises a plurality of tokens that are different from each other split result.
前記第1分割結果に関連づけられた第1確率値が、第1分割結果における各トークンの頻度の一部に少なくとも基づいて計算される請求項6に記載のコンピュータで実行される方法(200)。  The computer-implemented method (200) of claim 6, wherein a first probability value associated with the first segmentation result is calculated based at least on a portion of the frequency of each token in the first segmentation result. 前記実施可能言語で表現された記載を含むウェブページを出力するステップをさらに有する請求項1に記載のコンピュータで実行される方法(200)。The computer-implemented method (200) of claim 1, further comprising the step of outputting a web page containing the description expressed in the enablement language. 前記第1出現頻度を決定するステップ(212)は、前記第1分割結果を有する第1クエリーに対応する前記第1候補言語における記事の数を特定するために前記サーチエンジン(156)を使用するステップを有し、
前記第2出現頻度を決定するステップ(212)は、前記第2分割結果を有する第2クエリーに対応する前記第2候補言語における記事の数を特定するために前記サーチエンジン(156)使用するステップを有する請求項1に記載のコンピュータで実行される方法(200)。
The step (212) of determining the first appearance frequency uses the search engine (156) to identify the number of articles in the first candidate language corresponding to the first query having the first segmentation result. Has steps,
The step of determining the second appearance frequency (212) uses the search engine (156) to identify the number of articles in the second candidate language corresponding to the second query having the second segmentation result. The computer-implemented method (200) of claim 1, comprising:
前記第1出現頻度を決定するステップ(212)は、前記サーチエンジンによって索引を付けられた前記第1候補言語における全記事の数に基づいて前記第1出現頻度を標準化するステップを有する請求項9に記載のコンピュータで実行される方法(200)。  The step of determining (212) the first frequency of appearance comprises the step of normalizing the first frequency of occurrence based on the number of all articles in the first candidate language indexed by the search engine. A computer-implemented method (200) according to claim 1. 前記第1候補言語における記事の数を特定するために前記サーチエンジン(156)を使用するステップは、
前記第1分割結果を有する検索クエリーを前記サーチエンジンにおいて実行するステップと、前記検索クエリーの実行結果として前記サーチエンジンによって生成された結果セットを識別する記事の数を決定するステップとを有する請求項9に記載のコンピュータで実行される方法(200)。
Using the search engine (156) to identify the number of articles in the first candidate language;
Executing a search query having the first segmentation result in the search engine; and determining a number of articles identifying a result set generated by the search engine as an execution result of the search query. A computer-implemented method (200) of claim 9.
前記第1候補言語における記事の数を特定するために前記サーチエンジン(156)を使用するステップは、前記第1の複数のトークンの一つ以上に対応した前記サーチエンジン(156)に関連づけられたインデックス(160)におけるエントリの数を決定するステップを有する請求項9に記載のコンピュータで実行される方法(200)。  The step of using the search engine (156) to identify the number of articles in the first candidate language is associated with the search engine (156) corresponding to one or more of the first plurality of tokens. The computer-implemented method (200) of claim 9, comprising determining the number of entries in the index (160). 前記実施可能言語の少なくとも一部に基づいて広告を選択するステップと、
ドメインネームに関連したウェブページに関連づけて前記広告の表示をするステップと
をさらに有し、
前記広告は、前記実施可能言語のテキストを有する請求項1に記載のコンピュータで実行される方法(200)。
Selecting an advertisement based on at least a portion of the enablement language;
Displaying the advertisement in association with a web page associated with a domain name;
The computer-implemented method (200) of claim 1, wherein the advertisement comprises text in the executable language.
求項1から13のいずれか一つの請求項に記載の方法(200)をコンピュータに実行処理させるように構成されたプログラムを記録したコンピュータ読み取り可能記録媒体。Any one of the claims in a computer-readable recording medium recorded with a program configured to execute processing method (200) in a computer as claimed in Motomeko 1 13.
JP2007534758A 2004-09-30 2005-09-28 Method and system for selecting a language for text segmentation Active JP5148278B2 (en)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US10/955,660 2004-09-30
US10/955,660 US7996208B2 (en) 2004-09-30 2004-09-30 Methods and systems for selecting a language for text segmentation
PCT/US2005/035010 WO2006039398A2 (en) 2004-09-30 2005-09-28 Methods and systems for selecting a language for text segmentation

Publications (3)

Publication Number Publication Date
JP2008515107A JP2008515107A (en) 2008-05-08
JP2008515107A5 JP2008515107A5 (en) 2008-12-04
JP5148278B2 true JP5148278B2 (en) 2013-02-20

Family

ID=35985934

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2007534758A Active JP5148278B2 (en) 2004-09-30 2005-09-28 Method and system for selecting a language for text segmentation

Country Status (8)

Country Link
US (4) US7996208B2 (en)
EP (2) EP1800224B1 (en)
JP (1) JP5148278B2 (en)
CN (3) CN102708095B (en)
CA (1) CA2581902C (en)
DK (1) DK1800224T3 (en)
ES (1) ES2395168T3 (en)
WO (1) WO2006039398A2 (en)

Families Citing this family (142)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8645137B2 (en) 2000-03-16 2014-02-04 Apple Inc. Fast, language-independent method for user authentication by voice
US7680648B2 (en) 2004-09-30 2010-03-16 Google Inc. Methods and systems for improving text segmentation
US8677377B2 (en) 2005-09-08 2014-03-18 Apple Inc. Method and apparatus for building an intelligent automated assistant
US8380488B1 (en) 2006-04-19 2013-02-19 Google Inc. Identifying a property of a document
US8442965B2 (en) 2006-04-19 2013-05-14 Google Inc. Query language identification
US8762358B2 (en) * 2006-04-19 2014-06-24 Google Inc. Query language determination using query terms and interface language
US8255376B2 (en) 2006-04-19 2012-08-28 Google Inc. Augmenting queries with synonyms from synonyms map
US7689408B2 (en) * 2006-09-01 2010-03-30 Microsoft Corporation Identifying language of origin for words using estimates of normalized appearance frequency
GB2454147B (en) * 2006-09-01 2014-03-12 Research In Motion Ltd Method for identifying language of text in a handheld electronic device and a handheld electronic device incorporating the same
US9318108B2 (en) 2010-01-18 2016-04-19 Apple Inc. Intelligent automated assistant
US8423908B2 (en) * 2006-09-08 2013-04-16 Research In Motion Limited Method for identifying language of text in a handheld electronic device and a handheld electronic device incorporating the same
EP1901534B1 (en) * 2006-09-18 2010-09-01 LG Electronics Inc. Method of managing a language information for a text input and method of inputting a text and a mobile terminal
WO2008111048A2 (en) * 2007-03-09 2008-09-18 Ghost, Inc. System and method for browser within a web site and proxy server
US8977255B2 (en) 2007-04-03 2015-03-10 Apple Inc. Method and system for operating a multi-function portable electronic device using voice-activation
US9754022B2 (en) * 2007-10-30 2017-09-05 At&T Intellectual Property I, L.P. System and method for language sensitive contextual searching
US8165869B2 (en) * 2007-12-10 2012-04-24 International Business Machines Corporation Learning word segmentation from non-white space languages corpora
US9330720B2 (en) 2008-01-03 2016-05-03 Apple Inc. Methods and apparatus for altering audio output signals
US8996376B2 (en) 2008-04-05 2015-03-31 Apple Inc. Intelligent text-to-speech conversion
US10496753B2 (en) 2010-01-18 2019-12-03 Apple Inc. Automatically adapting user interfaces for hands-free interaction
US8464150B2 (en) * 2008-06-07 2013-06-11 Apple Inc. Automatic language identification for dynamic text processing
US20100030549A1 (en) 2008-07-31 2010-02-04 Lee Michael M Mobile device having human language translation capability with positional feedback
US12238246B2 (en) 2008-08-05 2025-02-25 Salesforce, Inc. Call center mobile messaging
US8561118B2 (en) 2008-08-05 2013-10-15 Mediafriends, Inc. Apparatus and methods for TV social applications
US20120221962A1 (en) 2008-08-05 2012-08-30 Eugene Lee Lew Social messaging hub system
US11172067B1 (en) 2008-08-05 2021-11-09 HeyWire, Inc. Call center mobile messaging
US9356907B2 (en) 2008-08-05 2016-05-31 HeyWire, Inc. Messaging system having multiple number, dual mode phone support
US10706373B2 (en) 2011-06-03 2020-07-07 Apple Inc. Performing actions associated with task items that represent tasks to perform
US9858925B2 (en) 2009-06-05 2018-01-02 Apple Inc. Using context information to facilitate processing of commands in a virtual assistant
US10241644B2 (en) 2011-06-03 2019-03-26 Apple Inc. Actionable reminder entries
US10241752B2 (en) 2011-09-30 2019-03-26 Apple Inc. Interface for a virtual digital assistant
US9431006B2 (en) 2009-07-02 2016-08-30 Apple Inc. Methods and apparatuses for automatic speech recognition
KR101083455B1 (en) * 2009-07-17 2011-11-16 엔에이치엔(주) User Query Correction System and Method Based on Statistical Data
US10679605B2 (en) 2010-01-18 2020-06-09 Apple Inc. Hands-free list-reading by intelligent automated assistant
US10553209B2 (en) 2010-01-18 2020-02-04 Apple Inc. Systems and methods for hands-free notification summaries
US10705794B2 (en) 2010-01-18 2020-07-07 Apple Inc. Automatically adapting user interfaces for hands-free interaction
US10276170B2 (en) 2010-01-18 2019-04-30 Apple Inc. Intelligent automated assistant
US8682667B2 (en) 2010-02-25 2014-03-25 Apple Inc. User profiling for selecting user specific voice input processing information
US8635205B1 (en) * 2010-06-18 2014-01-21 Google Inc. Displaying local site name information with search results
CN101882226B (en) * 2010-06-24 2013-07-24 汉王科技股份有限公司 Method and device for improving language discrimination among characters
US20120004899A1 (en) * 2010-07-04 2012-01-05 Taymoor Arshi Dynamic ad selection for ad delivery systems
CN102455997A (en) * 2010-10-27 2012-05-16 鸿富锦精密工业(深圳)有限公司 Component name extraction system and method
US9262612B2 (en) 2011-03-21 2016-02-16 Apple Inc. Device access using voice authentication
US10057736B2 (en) 2011-06-03 2018-08-21 Apple Inc. Active transport based notifications
US8994660B2 (en) 2011-08-29 2015-03-31 Apple Inc. Text correction processing
US10134385B2 (en) 2012-03-02 2018-11-20 Apple Inc. Systems and methods for name pronunciation
US9483461B2 (en) 2012-03-06 2016-11-01 Apple Inc. Handling speech synthesis of content for multiple languages
US9280610B2 (en) 2012-05-14 2016-03-08 Apple Inc. Crowd sourcing information to fulfill user requests
US9721563B2 (en) 2012-06-08 2017-08-01 Apple Inc. Name recognition system
US9495129B2 (en) 2012-06-29 2016-11-15 Apple Inc. Device, method, and user interface for voice-activated navigation and browsing of a document
CN103631802B (en) * 2012-08-24 2015-05-20 腾讯科技(深圳)有限公司 Song information searching method, device and corresponding server
US9576574B2 (en) 2012-09-10 2017-02-21 Apple Inc. Context-sensitive handling of interruptions by intelligent digital assistant
US9547647B2 (en) 2012-09-19 2017-01-17 Apple Inc. Voice-based media searching
US9218335B2 (en) * 2012-10-10 2015-12-22 Verisign, Inc. Automated language detection for domain names
US8713433B1 (en) * 2012-10-16 2014-04-29 Google Inc. Feature-based autocorrection
US9368114B2 (en) 2013-03-14 2016-06-14 Apple Inc. Context-sensitive handling of interruptions
WO2014144579A1 (en) 2013-03-15 2014-09-18 Apple Inc. System and method for updating an adaptive speech recognition model
CN105027197B (en) 2013-03-15 2018-12-14 苹果公司 Training at least partly voice command system
WO2014197336A1 (en) 2013-06-07 2014-12-11 Apple Inc. System and method for detecting errors in interactions with a voice-based digital assistant
WO2014197334A2 (en) 2013-06-07 2014-12-11 Apple Inc. System and method for user-specified pronunciation of words for speech synthesis and recognition
US9582608B2 (en) 2013-06-07 2017-02-28 Apple Inc. Unified ranking with entropy-weighted information for phrase-based semantic auto-completion
WO2014197335A1 (en) 2013-06-08 2014-12-11 Apple Inc. Interpreting and acting upon commands that involve sharing information with remote devices
US10176167B2 (en) 2013-06-09 2019-01-08 Apple Inc. System and method for inferring user intent from speech inputs
CN110442699A (en) 2013-06-09 2019-11-12 苹果公司 Operate method, computer-readable medium, electronic equipment and the system of digital assistants
JP2016521948A (en) 2013-06-13 2016-07-25 アップル インコーポレイテッド System and method for emergency calls initiated by voice command
US9213910B2 (en) 2013-11-06 2015-12-15 Xerox Corporation Reinforcement learning approach to character level segmentation of license plate images
US9785630B2 (en) 2014-05-30 2017-10-10 Apple Inc. Text prediction using combined word N-gram and unigram language models
US9715875B2 (en) 2014-05-30 2017-07-25 Apple Inc. Reducing the need for manual start/end-pointing and trigger phrases
US9430463B2 (en) 2014-05-30 2016-08-30 Apple Inc. Exemplar-based natural language processing
US10170123B2 (en) 2014-05-30 2019-01-01 Apple Inc. Intelligent assistant for home automation
US9760559B2 (en) 2014-05-30 2017-09-12 Apple Inc. Predictive text input
US10078631B2 (en) 2014-05-30 2018-09-18 Apple Inc. Entropy-guided text prediction using combined word and character n-gram language models
WO2015184186A1 (en) 2014-05-30 2015-12-03 Apple Inc. Multi-command single utterance input method
US9842101B2 (en) 2014-05-30 2017-12-12 Apple Inc. Predictive conversion of language input
US9740687B2 (en) 2014-06-11 2017-08-22 Facebook, Inc. Classifying languages for objects and entities
US10659851B2 (en) 2014-06-30 2020-05-19 Apple Inc. Real-time digital assistant knowledge updates
US9338493B2 (en) 2014-06-30 2016-05-10 Apple Inc. Intelligent automated assistant for TV user interactions
US10446141B2 (en) 2014-08-28 2019-10-15 Apple Inc. Automatic speech recognition based on user feedback
US9818400B2 (en) 2014-09-11 2017-11-14 Apple Inc. Method and apparatus for discovering trending terms in speech requests
US10789041B2 (en) 2014-09-12 2020-09-29 Apple Inc. Dynamic thresholds for always listening speech trigger
US10074360B2 (en) 2014-09-30 2018-09-11 Apple Inc. Providing an indication of the suitability of speech recognition
US10127911B2 (en) 2014-09-30 2018-11-13 Apple Inc. Speaker identification and unsupervised speaker adaptation techniques
US9886432B2 (en) 2014-09-30 2018-02-06 Apple Inc. Parsimonious handling of word inflection via categorical stem + suffix N-gram language models
US9668121B2 (en) 2014-09-30 2017-05-30 Apple Inc. Social reminders
US9646609B2 (en) 2014-09-30 2017-05-09 Apple Inc. Caching apparatus for serving phonetic pronunciations
US10552013B2 (en) 2014-12-02 2020-02-04 Apple Inc. Data detection
US9711141B2 (en) 2014-12-09 2017-07-18 Apple Inc. Disambiguating heteronyms in speech synthesis
US9865280B2 (en) 2015-03-06 2018-01-09 Apple Inc. Structured dictation using intelligent automated assistants
US9886953B2 (en) 2015-03-08 2018-02-06 Apple Inc. Virtual assistant activation
US10567477B2 (en) 2015-03-08 2020-02-18 Apple Inc. Virtual assistant continuity
US9721566B2 (en) 2015-03-08 2017-08-01 Apple Inc. Competing devices responding to voice triggers
US9899019B2 (en) 2015-03-18 2018-02-20 Apple Inc. Systems and methods for structured stem and suffix language models
US9842105B2 (en) 2015-04-16 2017-12-12 Apple Inc. Parsimonious continuous-space phrase representations for natural language processing
US10360309B2 (en) * 2015-04-30 2019-07-23 Salesforce.Com, Inc. Call center SMS-MMS language router
US10083688B2 (en) 2015-05-27 2018-09-25 Apple Inc. Device voice control for selecting a displayed affordance
US10127220B2 (en) 2015-06-04 2018-11-13 Apple Inc. Language identification from short strings
US9578173B2 (en) 2015-06-05 2017-02-21 Apple Inc. Virtual assistant aided communication with 3rd party service in a communication session
US10101822B2 (en) 2015-06-05 2018-10-16 Apple Inc. Language input correction
US10186254B2 (en) 2015-06-07 2019-01-22 Apple Inc. Context-based endpoint detection
US11025565B2 (en) 2015-06-07 2021-06-01 Apple Inc. Personalized prediction of responses for instant messaging
US10255907B2 (en) 2015-06-07 2019-04-09 Apple Inc. Automatic accent detection using acoustic models
US10671428B2 (en) 2015-09-08 2020-06-02 Apple Inc. Distributed personal assistant
US10747498B2 (en) 2015-09-08 2020-08-18 Apple Inc. Zero latency digital assistant
US9734142B2 (en) 2015-09-22 2017-08-15 Facebook, Inc. Universal translation
US9697820B2 (en) 2015-09-24 2017-07-04 Apple Inc. Unit-selection text-to-speech synthesis using concatenation-sensitive neural networks
US10366158B2 (en) 2015-09-29 2019-07-30 Apple Inc. Efficient word encoding for recurrent neural network language models
US11010550B2 (en) 2015-09-29 2021-05-18 Apple Inc. Unified language modeling framework for word prediction, auto-completion and auto-correction
US11587559B2 (en) 2015-09-30 2023-02-21 Apple Inc. Intelligent device identification
CN108776709B (en) * 2015-10-27 2020-05-19 上海智臻智能网络科技股份有限公司 Computer-readable storage medium and dictionary updating method
US10691473B2 (en) 2015-11-06 2020-06-23 Apple Inc. Intelligent automated assistant in a messaging environment
US10049668B2 (en) 2015-12-02 2018-08-14 Apple Inc. Applying neural network language models to weighted finite state transducers for automatic speech recognition
US10223066B2 (en) 2015-12-23 2019-03-05 Apple Inc. Proactive assistance based on dialog communication between devices
US10446143B2 (en) 2016-03-14 2019-10-15 Apple Inc. Identification of voice inputs providing credentials
US10430485B2 (en) 2016-05-10 2019-10-01 Go Daddy Operating Company, LLC Verifying character sets in domain name requests
US10180930B2 (en) 2016-05-10 2019-01-15 Go Daddy Operating Company, Inc. Auto completing domain names comprising multiple languages
US9934775B2 (en) 2016-05-26 2018-04-03 Apple Inc. Unit-selection text-to-speech synthesis based on predicted concatenation parameters
US9972304B2 (en) 2016-06-03 2018-05-15 Apple Inc. Privacy preserving distributed evaluation framework for embedded personalized systems
US10249300B2 (en) 2016-06-06 2019-04-02 Apple Inc. Intelligent list reading
US10049663B2 (en) 2016-06-08 2018-08-14 Apple, Inc. Intelligent automated assistant for media exploration
DK179588B1 (en) 2016-06-09 2019-02-22 Apple Inc. Intelligent automated assistant in a home environment
US10192552B2 (en) 2016-06-10 2019-01-29 Apple Inc. Digital assistant providing whispered speech
US10509862B2 (en) 2016-06-10 2019-12-17 Apple Inc. Dynamic phrase expansion of language input
US10490187B2 (en) 2016-06-10 2019-11-26 Apple Inc. Digital assistant providing automated status report
US10586535B2 (en) 2016-06-10 2020-03-10 Apple Inc. Intelligent digital assistant in a multi-tasking environment
US10067938B2 (en) 2016-06-10 2018-09-04 Apple Inc. Multilingual word prediction
DK179415B1 (en) 2016-06-11 2018-06-14 Apple Inc Intelligent device arbitration and control
DK179343B1 (en) 2016-06-11 2018-05-14 Apple Inc Intelligent task discovery
DK201670540A1 (en) 2016-06-11 2018-01-08 Apple Inc Application integration with a digital assistant
DK179049B1 (en) 2016-06-11 2017-09-18 Apple Inc Data driven natural language event detection and classification
US10348671B2 (en) 2016-07-11 2019-07-09 Salesforce.Com, Inc. System and method to use a mobile number in conjunction with a non-telephony internet connected device
US10043516B2 (en) 2016-09-23 2018-08-07 Apple Inc. Intelligent automated assistant
US10380247B2 (en) 2016-10-28 2019-08-13 Microsoft Technology Licensing, Llc Language-based acronym generation for strings
US10593346B2 (en) 2016-12-22 2020-03-17 Apple Inc. Rank-reduced token representation for automatic speech recognition
US10180935B2 (en) * 2016-12-30 2019-01-15 Facebook, Inc. Identifying multiple languages in a content item
DK201770439A1 (en) 2017-05-11 2018-12-13 Apple Inc. Offline personal assistant
DK179745B1 (en) 2017-05-12 2019-05-01 Apple Inc. SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT
DK179496B1 (en) 2017-05-12 2019-01-15 Apple Inc. USER-SPECIFIC Acoustic Models
DK201770432A1 (en) 2017-05-15 2018-12-21 Apple Inc. Hierarchical belief states for digital assistants
DK201770431A1 (en) 2017-05-15 2018-12-20 Apple Inc. Optimizing dialogue policy decisions for digital assistants using implicit feedback
DK179560B1 (en) 2017-05-16 2019-02-18 Apple Inc. Far-field extension for digital assistant services
CN109492225A (en) * 2018-11-08 2019-03-19 大连瀚闻资讯有限公司 Method for processing public opinion information text of Chinese country
CN111079408B (en) * 2019-12-26 2023-05-30 北京锐安科技有限公司 A language recognition method, device, equipment and storage medium
US11915167B2 (en) 2020-08-12 2024-02-27 State Farm Mutual Automobile Insurance Company Claim analysis based on candidate functions

Family Cites Families (104)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4839853A (en) 1988-09-15 1989-06-13 Bell Communications Research, Inc. Computer information retrieval using latent semantic structure
US5325298A (en) 1990-11-07 1994-06-28 Hnc, Inc. Methods for generating or revising context vectors for a plurality of word stems
US5423032A (en) 1991-10-31 1995-06-06 International Business Machines Corporation Method for extracting multi-word technical terms from text
CA2140891A1 (en) * 1992-07-24 1994-02-03 David C. Parmelee Peptides useful as internal standards for microsequencing and methods for their use
US5377280A (en) 1993-04-19 1994-12-27 Xerox Corporation Method and apparatus for automatic language determination of European script documents
US5454046A (en) 1993-09-17 1995-09-26 Penkey Corporation Universal symbolic handwriting recognition system
US5619709A (en) 1993-09-20 1997-04-08 Hnc, Inc. System and method of context vector generation and retrieval
US5499360A (en) 1994-02-28 1996-03-12 Panasonic Technolgies, Inc. Method for proximity searching with range testing and range adjustment
US5548507A (en) 1994-03-14 1996-08-20 International Business Machines Corporation Language identification process using coded language words
US5794177A (en) 1995-07-19 1998-08-11 Inso Corporation Method and apparatus for morphological analysis and generation of natural language text
US6067552A (en) 1995-08-21 2000-05-23 Cnet, Inc. User interface system and method for browsing a hypertext database
US5913040A (en) 1995-08-22 1999-06-15 Backweb Ltd. Method and apparatus for transmitting and displaying information between a remote network and a local computer
US5778364A (en) 1996-01-02 1998-07-07 Verity, Inc. Evaluation of content of a data set using multiple and/or complex queries
US5966686A (en) 1996-06-28 1999-10-12 Microsoft Corporation Method and system for computing semantic logical forms from syntax trees
EP0822502A1 (en) 1996-07-31 1998-02-04 BRITISH TELECOMMUNICATIONS public limited company Data access system
US6009382A (en) * 1996-08-19 1999-12-28 International Business Machines Corporation Word storage table for natural language determination
US6002998A (en) * 1996-09-30 1999-12-14 International Business Machines Corporation Fast, efficient hardware mechanism for natural language determination
US5778363A (en) 1996-12-30 1998-07-07 Intel Corporation Method for measuring thresholded relevance of a document to a specified topic
US6285999B1 (en) 1997-01-10 2001-09-04 The Board Of Trustees Of The Leland Stanford Junior University Method for node ranking in a linked database
US7437351B2 (en) 1997-01-10 2008-10-14 Google Inc. Method for searching media
US6076051A (en) 1997-03-07 2000-06-13 Microsoft Corporation Information retrieval utilizing semantic representation of text
US6119164A (en) 1997-04-15 2000-09-12 Full Circle Software, Inc. Method and apparatus for distributing over a network unsolicited information to a targeted audience
US6006222A (en) 1997-04-25 1999-12-21 Culliss; Gary Method for organizing information
US6185559B1 (en) 1997-05-09 2001-02-06 Hitachi America, Ltd. Method and apparatus for dynamically counting large itemsets
US6233575B1 (en) 1997-06-24 2001-05-15 International Business Machines Corporation Multilevel taxonomy based on features derived from training documents classification using fisher values as discrimination values
US6505150B2 (en) 1997-07-02 2003-01-07 Xerox Corporation Article and method of automatically filtering information retrieval results using test genre
US5933822A (en) 1997-07-22 1999-08-03 Microsoft Corporation Apparatus and methods for an information retrieval system that employs natural language processing of search results to improve overall precision
US6760746B1 (en) 1999-09-01 2004-07-06 Eric Schneider Method, product, and apparatus for processing a data request
US6078916A (en) 1997-08-01 2000-06-20 Culliss; Gary Method for organizing information
US6014665A (en) 1997-08-01 2000-01-11 Culliss; Gary Method for organizing information
US6182068B1 (en) 1997-08-01 2001-01-30 Ask Jeeves, Inc. Personalized search methods
US5845278A (en) 1997-09-12 1998-12-01 Inioseek Corporation Method for automatically selecting collections to search in full text searches
US5974412A (en) 1997-09-24 1999-10-26 Sapient Health Network Intelligent query system for automatically indexing information in a database and automatically categorizing users
US6134532A (en) 1997-11-14 2000-10-17 Aptex Software, Inc. System and method for optimal adaptive matching of users to most relevant entity and information in real-time
US6230168B1 (en) * 1997-11-26 2001-05-08 International Business Machines Corp. Method for automatically constructing contexts in a hypertext collection
US6289342B1 (en) 1998-01-05 2001-09-11 Nec Research Institute, Inc. Autonomous citation indexing and literature browsing using citation context
US6640006B2 (en) 1998-02-13 2003-10-28 Microsoft Corporation Word segmentation in chinese text
US6421675B1 (en) 1998-03-16 2002-07-16 S. L. I. Systems, Inc. Search engine
US6272456B1 (en) 1998-03-19 2001-08-07 Microsoft Corporation System and method for identifying the language of written text having a plurality of different length n-gram profiles
GB9806085D0 (en) * 1998-03-23 1998-05-20 Xerox Corp Text summarisation using light syntactic parsing
US6044375A (en) 1998-04-30 2000-03-28 Hewlett-Packard Company Automatic extraction of metadata using a neural network
US6334131B2 (en) 1998-08-29 2001-12-25 International Business Machines Corporation Method for cataloging, filtering, and relevance ranking frame-based hierarchical information structures
US6466901B1 (en) * 1998-11-30 2002-10-15 Apple Computer, Inc. Multi-language document search and retrieval system
US6298348B1 (en) 1998-12-03 2001-10-02 Expanse Networks, Inc. Consumer profiling system
US6324519B1 (en) 1999-03-12 2001-11-27 Expanse Networks, Inc. Advertisement auction system
US6167369A (en) * 1998-12-23 2000-12-26 Xerox Company Automatic language identification using both N-gram and word information
US6269189B1 (en) 1998-12-29 2001-07-31 Xerox Corporation Finding selected character strings in text and providing information relating to the selected character strings
US6678681B1 (en) 1999-03-10 2004-01-13 Google Inc. Information extraction from a database
US6826559B1 (en) 1999-03-31 2004-11-30 Verizon Laboratories Inc. Hybrid category mapping for on-line query tool
US6493702B1 (en) 1999-05-05 2002-12-10 Xerox Corporation System and method for searching and recommending documents in a collection using share bookmarks
US6493703B1 (en) * 1999-05-11 2002-12-10 Prophet Financial Systems System and method for implementing intelligent online community message board
US7065500B2 (en) 1999-05-28 2006-06-20 Overture Services, Inc. Automatic advertiser notification for a system for providing place and price protection in a search result list generated by a computer network search engine
US6269361B1 (en) 1999-05-28 2001-07-31 Goto.Com System and method for influencing a position on a search result list generated by a computer network search engine
US6314419B1 (en) 1999-06-04 2001-11-06 Oracle Corporation Methods and apparatus for generating query feedback based on co-occurrence patterns
WO2000079436A2 (en) 1999-06-24 2000-12-28 Simpli.Com Search engine interface
US6601026B2 (en) 1999-09-17 2003-07-29 Discern Communications, Inc. Information retrieval by natural language querying
US6754873B1 (en) 1999-09-20 2004-06-22 Google Inc. Techniques for finding related hyperlinked documents using link-based analysis
US6453315B1 (en) 1999-09-22 2002-09-17 Applied Semantics, Inc. Meaning-based information organization and retrieval
US6816857B1 (en) 1999-11-01 2004-11-09 Applied Semantics, Inc. Meaning-based advertising and document relevance determination
JP2001101186A (en) * 1999-09-30 2001-04-13 Oki Electric Ind Co Ltd Machine translating device
CA2389186A1 (en) 1999-10-29 2001-05-03 British Telecommunications Public Limited Company Method and apparatus for processing queries
US6968308B1 (en) 1999-11-17 2005-11-22 Microsoft Corporation Method for segmenting non-segmented text using syntactic parse
JP3803219B2 (en) * 1999-12-14 2006-08-02 三菱電機株式会社 Full-text search device and full-text search method
US6691108B2 (en) 1999-12-14 2004-02-10 Nec Corporation Focused search engine and method
US6678409B1 (en) 2000-01-14 2004-01-13 Microsoft Corporation Parameterized word segmentation of unsegmented text
US6615209B1 (en) 2000-02-22 2003-09-02 Google, Inc. Detecting query-specific duplicate documents
US20020002452A1 (en) * 2000-03-28 2002-01-03 Christy Samuel T. Network-based text composition, translation, and document searching
US6754872B2 (en) * 2000-05-22 2004-06-22 Sarnoff Corporation Method and apparatus for reducing channel distortion in a wireless communications network
GB2362971B (en) 2000-05-30 2004-03-24 Com Nation Ltd A method of searching the internet and an internet search engine
SE517005C2 (en) 2000-05-31 2002-04-02 Hapax Information Systems Ab Segmentation of text
US6529903B2 (en) 2000-07-06 2003-03-04 Google, Inc. Methods and apparatus for using a modified index to provide search results in response to an ambiguous search query
US7136854B2 (en) 2000-07-06 2006-11-14 Google, Inc. Methods and apparatus for providing search results in response to an ambiguous search query
US6654993B2 (en) * 2000-07-28 2003-12-02 The Penn State Research Foundation Process for fabricating hollow electroactive devices
US6766320B1 (en) 2000-08-24 2004-07-20 Microsoft Corporation Search engine with natural language-based robust parsing for user query and relevance feedback learning
CA2323883C (en) 2000-10-19 2016-02-16 Patrick Ryan Morin Method and device for classifying internet objects and objects stored oncomputer-readable media
US6917937B1 (en) 2000-11-01 2005-07-12 Sas Institute Inc. Server-side object filtering
US7054803B2 (en) * 2000-12-19 2006-05-30 Xerox Corporation Extracting sentence translations from translated documents
US6714939B2 (en) 2001-01-08 2004-03-30 Softface, Inc. Creation of structured data from plain text
US6658423B1 (en) 2001-01-24 2003-12-02 Google, Inc. Detecting duplicate and near-duplicate files
US6526440B1 (en) 2001-01-30 2003-02-25 Google, Inc. Ranking search results by reranking the results based on local inter-connectivity
JP3408525B2 (en) 2001-02-08 2003-05-19 松下電器産業株式会社 SRAM device
JP2002245470A (en) * 2001-02-16 2002-08-30 Merukomu Service Kk Language specifying device, translating device, and language specifying method
US8001118B2 (en) 2001-03-02 2011-08-16 Google Inc. Methods and apparatus for employing usage statistics in document retrieval
US7860706B2 (en) * 2001-03-16 2010-12-28 Eli Abir Knowledge system method and appparatus
US6738764B2 (en) 2001-05-08 2004-05-18 Verity, Inc. Apparatus and method for adaptively ranking search results
JPWO2002095614A1 (en) * 2001-05-24 2004-11-25 鈴木 泉 Language / character code system identification processing method
JP2003186789A (en) * 2001-12-18 2003-07-04 Logo Vista Corp Electronic mail translation system
US6978264B2 (en) 2002-01-03 2005-12-20 Microsoft Corporation System and method for performing a search and a browse on a query
US7716161B2 (en) 2002-09-24 2010-05-11 Google, Inc, Methods and apparatus for serving relevant advertisements
US8517795B2 (en) 2002-11-06 2013-08-27 Nomura Plating Co., Ltd. Surface treatment method for vacuum member
US7249012B2 (en) * 2002-11-20 2007-07-24 Microsoft Corporation Statistical method and apparatus for learning translation relationships among phrases
FR2848688A1 (en) * 2002-12-17 2004-06-18 France Telecom Text language identifying device for linguistic analysis of text, has analyzing unit to analyze chain characters of words extracted from one text, where each chain is completed so that each time chains are found in word
US20040119740A1 (en) 2002-12-24 2004-06-24 Google, Inc., A Corporation Of The State Of California Methods and apparatus for displaying and replying to electronic messages
AU2003232839A1 (en) 2003-05-28 2005-01-21 Leonardo Badino Automatic segmentation of texts comprising chunsks without separators
US7493322B2 (en) 2003-10-15 2009-02-17 Xerox Corporation System and method for computing a measure of similarity between documents
US20050086065A1 (en) 2003-10-16 2005-04-21 Nokia Corporation Automatic field completion in capacity-constrained media
US20050131872A1 (en) 2003-12-16 2005-06-16 Microsoft Corporation Query recognizer
US8392249B2 (en) 2003-12-31 2013-03-05 Google Inc. Suggesting and/or providing targeting criteria for advertisements
US7359851B2 (en) * 2004-01-14 2008-04-15 Clairvoyance Corporation Method of identifying the language of a textual passage using short word and/or n-gram comparisons
US20050289473A1 (en) 2004-03-17 2005-12-29 Carl Gustafson Method and system for providing search information via a communications network
US7409334B1 (en) * 2004-07-22 2008-08-05 The United States Of America As Represented By The Director, National Security Agency Method of text processing
US7792814B2 (en) 2005-09-30 2010-09-07 Sap, Ag Apparatus and method for parsing unstructured data
US7761458B1 (en) 2006-02-01 2010-07-20 Hewlett-Packard Development Company, L.P. Segmentation of a data sequence
US7747633B2 (en) 2007-07-23 2010-06-29 Microsoft Corporation Incremental parsing of hierarchical files

Also Published As

Publication number Publication date
EP1800224B1 (en) 2012-08-29
US20060074628A1 (en) 2006-04-06
US20110301939A1 (en) 2011-12-08
CA2581902A1 (en) 2006-04-13
WO2006039398A3 (en) 2006-07-06
EP2511832A3 (en) 2013-03-20
WO2006039398A8 (en) 2007-03-22
WO2006039398A2 (en) 2006-04-13
CN101095138A (en) 2007-12-26
CN102831107A (en) 2012-12-19
EP2511832B1 (en) 2014-05-14
US20130013288A1 (en) 2013-01-10
US20130018648A1 (en) 2013-01-17
ES2395168T3 (en) 2013-02-08
EP1800224A2 (en) 2007-06-27
JP2008515107A (en) 2008-05-08
CN102708095A (en) 2012-10-03
US8306808B2 (en) 2012-11-06
EP2511832A2 (en) 2012-10-17
CN102831107B (en) 2016-01-20
CN102708095B (en) 2015-09-30
CN101095138B (en) 2012-08-29
DK1800224T3 (en) 2012-11-19
US8489387B2 (en) 2013-07-16
US7996208B2 (en) 2011-08-09
CA2581902C (en) 2013-05-07

Similar Documents

Publication Publication Date Title
JP5148278B2 (en) Method and system for selecting a language for text segmentation
US8849852B2 (en) Text segmentation
US9104772B2 (en) System and method for providing tag-based relevance recommendations of bookmarks in a bookmark and tag database
US7516118B1 (en) Methods and systems for assisted network browsing
JP4857075B2 (en) Method and computer program for efficiently retrieving dates in a collection of web documents
JP5069285B2 (en) Propagating useful information between related web pages, such as web pages on a website
US8417695B2 (en) Identifying related concepts of URLs and domain names
US8412517B2 (en) Dictionary word and phrase determination
US8271486B2 (en) System and method for searching a bookmark and tag database for relevant bookmarks
US7310633B1 (en) Methods and systems for generating textual information
JP2005182817A (en) Query recognizer
US9652529B1 (en) Methods and systems for augmenting a token lexicon
KR100485321B1 (en) A method of managing web sites registered in search engine and a system thereof
CN112380337A (en) Highlight method and device based on rich text
US20100153365A1 (en) Phrase identification using break points
US7302645B1 (en) Methods and systems for identifying manipulated articles
KR20040086732A (en) A method of managing web sites registered in search engine and a system thereof
JP2006072949A (en) Document search system, and document search engine program

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20080926

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20080926

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20081017

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20110913

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20111213

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20111220

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20120309

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20121030

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20121128

R150 Certificate of patent or registration of utility model

Ref document number: 5148278

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20151207

Year of fee payment: 3

R154 Certificate of patent or utility model (reissue)

Free format text: JAPANESE INTERMEDIATE CODE: R154

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

S533 Written request for registration of change of name

Free format text: JAPANESE INTERMEDIATE CODE: R313533

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250