”温故知新” なことなど

コメントは、タイトル下の"without comments"を押下して記入ください

Archive for the ‘eスクール’ Category

Hadoop Based Data Mining

without comments

Hw09 Hadoop Based Data Mining Platform For The Telecom Industry
感嘆のため息が漏れました・・・
中国語で読めないところがあったので院生に聞いてみたい。

Written by nextschool

1月 2nd, 2010 at 5:30 am

Posted in eスクール,ゼミ,情報系

Tagged with ,

Natural Language Processing

without comments

自然言語処理の基礎技術
・形態素解析
・・形態素解析(英語)
形態素とは語の不定形、語より小さい単位で意味を持つ最小の単位。文章の中で文法に従って形が定まっている語を”定形”と呼ぶ。文章はその語から成り立っている。語を、それを構成する形態素に分離する処理が形態素解析である。

・・形態素解析(日本語)
日本語は単語ではなく、文節が連なって文を構成しているので文節の形態素解析という。
日本語は膠着語という文法的分類に入れられる。
■コーパスからの語彙知識の獲得
1990年代までは、辞書の定義文や、人手による構文解析済みのコーパスが用いられていた。2000年代以降は言語取得の範囲拡大をし、新聞記事、Webから収集した言語テキストが用いられるようになった。

■共起知識の獲得
コーパス中の数単語程度の近さで共起する2つの単語の間の相互情報量を計算し、統計的な観点から意味のある言語現象を検出する。

■単語間の類似度の測定
「共起知識の獲得」の方法を発展させて、コーパスから主語/動詞/目的語の3項の組の類似性を測定し、相互情報量を類似度として計算した結果で、品詞の同義語を抽出する。

■推論規則・言い換えの獲得
同一の名詞を共起しやすい表現の類似度が高い多用な表現の共起の強さを相互情報量によって測定する。

■翻訳知識の獲得
相互情報量を用いた共起測定法において対訳テキストを情報源として二言語間の出現位置の相関が強いほど、その表現の組は対訳関係が強い可能性が高いといえる。

■未解析コーパス・Webからの獲得
WebのHTML言語からの箇条書きや表形式において、上位語、類義語、属性語が現れやすい。ヒューリスティックを利用して関連語を獲得する手法が提案されている。

■コーパスへの情報付与の自動化
nグラムモデルを用いた日本語形態素解析はある単語の生起のモデル化において、直前のn-1個の単語のみを考慮する培グラムモデルや直前の二単語のみを考慮するトライグラムモデルなどがある。

■意味的曖昧性解消
同意異義語の判別、訳語選択などの処理は分類器を用いて多義性をもつ語の前の文字列、形態素、係り受け関係にある形態素、同一文内の形態素、同一文書内の形態素などの情報が属性(素性)として用いられる。

■仮名漢字変換
仮名漢字変換は文節単位で行う。文節を形態素解析することにより文節内の単語の並び方が形態論的に正しい結果だけを用いることができる。またヒューリスティックな手法を適用することで多数の変換候補に対応できる。

■同音語
仮名漢字変換で最も大きな問題だが形態素解析を用いることで適切なものを区別することができ、自動選択することができる。

Data source from 自然言語処理(オーム社)

Written by nextschool

7月 14th, 2009 at 12:55 am

Posted in eスクール,ゼミ,情報系

Tagged with

研究テーマになやむとき

without comments

思考の整理学-カクテル-

論文を書こうとしている学生にいうことにしている。
「テーマはひとつでは多すぎる。すくなくとも、二つ、できれば、三つもって、スタートしてほしい。」

ひとつで多いというのは、”見つめたナベ”のようになってしまうことから、ひとつがうまくいかないと後がなくなってしまうということからだそうだ。

Written by nextschool

6月 7th, 2009 at 1:53 pm

Posted in eスクール

Tagged with ,

卒業祝賀会 at リーガロイヤル

without comments

2009 年 3 月 7 日

リーガロイヤルホテル東京 2階サファイア

Written by nextschool

1月 26th, 2009 at 12:52 am

Posted in eスクール

Tagged with

もっちサル第18弾

without comments

2009 年 1 月 31 日
12:00 PMto2:00 PM

いつもの神宮コート

Written by nextschool

1月 3rd, 2009 at 6:50 pm

Posted in eスクール

Tagged with