tag-engine
概要
日本語テキスト文の意味を解析する手法として、タグ判定エンジンを開発しました。
文意には幾つもの要素がありますので、これらをタグ付けすることにより、全体の意味が分かるかも知れません。
タグ判定エンジンは、感情分析にも利用可能な、ポジティブ判定(ポジタグ)、ネガティブ判定(ネガタグ)の他に、挨拶タグ、返答タグ、意向タグ、行動タグが用意されています。
日本語コーパスを基に、キーワードだけに頼るのではなく、構文解析技術を使った判定を行っています。
タグ判定エンジン機能
タグ判定エンジンには3タイプの機能があります。
YOU/挨拶/返答判定
日本語を解析し文章中の挨拶等を判定。。
動詞表現判定
(意向/行動/購買 等のタグ分け)
意欲/行動/購買 等のタグ分けを行います。
ポジネガ判定
入力された文書を分割し、文毎に【ポジネガ】が出力されます。
YOU/挨拶/返答判定
タグ判定(一括処理)
テキスト入力 | タグ判定結果 |
---|---|
1: お早うございます | 1:[‘GREETING’] お早うございます |
2: 先生こんにちは!!よろしくお願いします | 1:[‘YOU’, ‘GREETING’] 先生こんにちは!! 2:[‘GREETING’] よろしくお願いします |
3: 先生!私は仕事が楽しいです。よろしくお願いします。 | 1:[‘YOU’]先生! 2: :[‘POSITIVE’]私は仕事が楽しいです。 3:[‘GREETING’]よろしくお願いします。 |
4: 私は22インチのテレビ買いました!! | 1:[購買タグ:BUY:HAVE]私は22インチのテレビ買いました!! |
5:自動車も買いたいです。 | 1:[意向タグ: BUY:WILL]自動車も買いたいです。 |
挨拶「お久しぶりです」
greetingに「お久しぶりです」が登録されていますが、「お久しぶりです」だけでなく「お久しぶりでした」もマッチします。
greetingの「お待ちして居りました,, tense」には、tenseがついていますが、これによって時制が固定されます。
⇒よって、「お待ちして居ります」にはマッチしません。
(揺らぎ処理)辞書に漢字で登録してあれば、辞書の読みを使って、ひらがなにも対応します。
ポジネガ判定
①テキスト(ユーザー文書)
②テキスト(ユーザー文書)→文分割→文毎に【ポジネガ】が出力される。ポジネガ判定の根拠となったワード(キーワード)が出力される。
キーワード検索との違い
「有難う御座います」を登録していると、
1: ありがとうございます => OK
2: ありがとうございました => OK
3: ありがとうございません => マッチしない
否定によって意味が変わってしまうような3には、マッチしない