どうも最近グーグルさんの動きが活発なようですね。自分のメモ的意味合いも込めて紹介。まずはグーグルが日本語N-gram自社データを公開したという話。
グーグルの巨大データベース
まず、N-gramとはN-gramは自然言語処理の領域で、単語同士の結びつきを統計的に処理する計算モデル。「グーグルで検索」「グーグルで調べる」「グーグルで探す」のように特定の単語(例では"グーグル")と、他の単語の結びつきを予測できる。 - @ITというものです。グーグルがウェブサイトから収集したデータをもとに1?7-gramまで公開したそうです。
グーグルのような超巨大データベースを持っているところが、このように実用的にも研究的にも非常に貴重なデータを出してくれるというのは、非常に意義深いことだと思います。
外部関連サイト
グーグルが日本語N-gramデータを公開 ? @IT
関連記事
mkataigi