なんちゃって形態素解析

135 タグ一覧

PHP Windows Android iOS Linux iPhone HTML ｊQuery スマートフォンセキュリティーブログ CodeIgniter 携帯ネットワークサーバープログラム docomo server デザイン Google アプリ JavaScript ゲーム SQL ブラウザー iPad TIPS Bootstrap JQuery SEO 開発広告仕事キャリアライフハックモチベーションツールエンジニア趣味 CSS シェル挨拶方向性人工知能環境サービス未来フリー妥協点目標あるべき姿フリーランス学習書籍健康設計近況 Raspberry Pi API 自分用道具リニューアルアップデート経済教育 BOT サバゲー 3Dプリンター振り返り機能追加 WordPress 覚書きフレームワーク人工無能工夫通信テンプレート改修事業アルゴリズム見積もり片手間保守分析ハード勘違い愚痴ローグコマンド形態素解析転職メールアイデア TED コーディング ELECTRON Drawer ドット絵せっけい障害ウォーターフォール bat phina.js 対価受託希望 utnity クロスドメイン SSL 不正キャリアパス仮想通貨屋号ブロックチェーン決済申告 Tableau Vue.js Firebase 検証定番収入メンター Raspberry Pi ドライバー SNS 世相独学格安SIM 言い方サバイバルゲーム業界動向案件独自メニュー将来

Pro Profile

Follow @zeijaku

西日本に棲息しつ、いつも東京のイベントが面白そうで歯痒い思いをしてる底辺技術者

Authentication

Cancel OK

B!コメントする 2013-03-08 10:35:00 by old

無能君の機能のひとつとして会話内容を拾いたかった。
そこでいろいろ調べると形態素解析とかあるとわかったが、サーバーによっては導入できないとかあって断念。
したんだけど、やっぱり何か欲しいと思って本職の人からみたらゴミに見えるかもしれないけどそんな感じのものをつくってみた。

今のところはこんな感じです。

仕組みとしてはシンプル。
いくつかのフィルターを作成し、それらを組み合わせることでなんちゃって形態素解析っぽいものを実現してみました。

フィルターはいくつかあり

句読点
助詞
ひらがな
カタカナ
英数字
漢字
単語・フレーズ

仕組みとしてはシンプル。
いくつかのフィルターを作成し、それらを組み合わせることでなんちゃって形態素解析っぽいものを実現してみました。

フィルターはいくつかあり

句読点
助詞
ひらがな
カタカナ
英数字
漢字
単語・フレーズ

といったもので成り立っています。
それぞれが関数として独立した感じになっていますので、同じ文章でもフィルターを通す順番を変えると結果が変わります。

とりあえず

句読点
カタカナ
英数字
辞書

の順番で処理するとそれっぽい感じにはなってます。
もちろん本職の素解析からみればゴミみたいなもんですがある程度わかればいいので良しとします。

どうでもいいことですが一番苦労したのは辞書の作成と処理の部分で、フリーの辞書とか外国人の方のための日本語教材なんかから1万語ほど抜き出して整理しました。
それでもこの精度の低さには驚愕ではありますが、一致するかどうかしか見てないのでまぁこんなもんかと。
接頭語・接尾語なんかも考慮できたら精度はあがるんでしょうけど、そうなると一気に複雑になりそうなので保留にしました。

そんでもって一致させる部分ですが、面倒だったので1万語ほどをpregmatchに突っ込んでやろうと思ったんですが、速攻でエラーになりました。
エラー内容は先日も書いた内容そのままです。

また仮にこれが出来たとしても（htaccessでRCREの上限を上げてやってみた）実は精度がよくないので、単語やフレーズをさらにいくつかのカテゴリーにわけて、最長一致を順次行っていくように変更しました。

単語部分の処理は

6文字以上のカテゴリーで検索
４～５文字のカテゴリーで検索
3文字のカテゴリーで検索
2文字のカテゴリーで検索
1文字のカテゴリーで検索

という風に変更することで、pregmatchにおけるPCREの上限回避と精度の向上を行いました。

それにしてもプログラムをやっててよく

数学とかもっとちゃんとやっとけばよかったな～

というのはよくあったのですが、今回ほど国語をちゃんとやっとけばよかったな～と思うことはありませんでした。
助詞とか助動詞とかはいいんですが、格助詞とか副助詞とかもうそんなの習ったっけ？みたいなのがあってWikipedia先生にはとてもお世話になりました。

車輪の再発明にすらなっていませんが、やっぱりこういうのつくるのは面白いもんです。
次はこのへんを踏まえてとてもくだらない無能君を作れたらな～と思ってます。

PHP