企業動向

ビッグデータのフィルタリングに ワードデータベースの不適切表現語を強化

Jetrunテクノロジ株式会社(東京都港区 代表取締役:野武 浩,以下Jetrunテクノロジ http://www.jetrun.co.jp/)は,各種アプリ・サービスに組み込んで利用できるデータベース提供サービス「WordGRID」において,有害ワードフィルタリングに利用できる不適切表現データベースを強化した。

アプリやメディアプラットフォームにおいて,ユーザ同士のコミュニケーション機能はいまや不可欠となっている。たとえば,ソーシャルメディアをはじめ,コミュニケーションアプリやオンラインゲームにおけるチャット機能,動画サイトのコメント,ECサイトのユーザレビューなど,ユーザ発信によるテキストデータが,日々ビッグデータとして蓄積されている。

その一方で,メディアやサイトでのユーザコミュニケーションの促進や活性化と同時に,薬物売買や援助交際,またいじめ問題など,サイト内に潜むネットを媒体とした犯罪リスクも増大する。しかし,多くのユーザコミュニケーションと結びつくサービスやアプリにおいて,日々蓄積するデータの量が膨大であるがために,目視によるリスク検知はますます困難となる。

このような背景から,Jetrunテクノロジでは「不適切表現」のワードデータベースを強化した。とりわけ「隠語」や「スラング」を中心に拡充し,また,TwitterやFacebookをはじめとする海外サービスも広く普及していることから「英語スラング」を約13,000語から約17,000語へ拡充した。
その他,蔑称や放送禁止用語,自殺誘導語,アダルト表現などの不適切・不快表現と捉えられるキーワード・カテゴリを拡充した。それぞれ「表記ゆらぎ」にも対応し,その数は総計20万語以上となっているため,ユーザごとに異なる書き方や伏せ字表記にも対応可能となる。

Jetrunテクノロジでは,大手企業各社へテキストマイニングソリューションを提供しており,これまでに培った数千万語以上を保有するテキストマイニングの多機能辞書を基に,データベース提供サービスを展開している。各種専門用語から新語・流行語など多岐にわたって詳細にカテゴリ分類されたキーワードと,それぞれに「表記ゆらぎ」や「よみがな」などの情報を付与したデータベース形式での提供となり,各種アプリやサービス等に組み込んで利用することができる。

その中でも,「不適切表現」に関するワードデータベースは,約70カテゴリから成り,各種アプリやメディアのレギュレーションに合わせてカテゴリを選択し,利用することができる。
また,その他にも「よみがな」や「意訳(※)」といった項目(カラム)を保有しており,音声検索アプリやコミュニティサイトの監視事業など,利用シーンに合わせて項目の設定が可能,カスタマイズにも対応している。

データベース販売は,カテゴリ単位で提供しており,ワード数や項目(カラム)数等に応じて価格が変動する。なお,購入検討の場合には,カテゴリとその一部のワードを見ることができるサンプルデータの提供(無償)も行っている。

※意訳…キーワードの意味を記述した項目(カラム)を保有。主に「英語スラング」および「隠語」データベースに付与されている。


【WordGRID 不適切表現ワードデータベース 概要】
◆データ数: 約200,000語
◆カテゴリ数:約70カテゴリ
(例)隠語(いじめ,自殺(誘導語),出会い系,薬物など)
   英語スラング(人種・差別・モラル,アダルト,出会い系など)ほか
◆基本価格:5万円~/1,000語
 ※カテゴリ種別,ワード(レコード)数,項目(カラム)数等に応じて変動する
 ※ワード(レコード)数においては,ボリュームディスカウントが可能

【関連URL】
不適切表現 ワードデータベース | 多次元データバンク WordGRID:
http://wordgrid.jp/data/inappropriate_words.html

【本件に関するお問い合わせ先】
Jetrunテクノロジ株式会社 
営業担当:小橋川(こばしがわ)
TEL  :03-6436-4275

【Jetrunテクノロジ株式会社 会社概要】
会社名 Jetrunテクノロジ株式会社
URL  http://www.jetrun.co.jp/
所在地 〒106-0045 東京都港区麻布十番3丁目6-2 NS麻布十番ビル9階
代表者 代表取締役社長 兼 CEO 野武 浩(のたけ ひろし)
資本金 9,400万円

事業内容
■TrueText®(高速,高機能なテキストマイニングソリューション)
■Premium Search & Ads(広告配信システム・クラスタサーチエンジン)
■マーケティングレポート事業
■WordGRID® 多次元データバンク(データベース販売)
■jetrun 検索機能満載のWebブラウザ(スマートフォン向けブラウザアプリ)

Jetrunテクノロジでは,高速,高機能なテキストマイニングTrueTextを基盤とした,ソーシャルメディアのユーザ投稿解析や,サーチエンジン,リスティングエンジン(広告配信エンジン),フィルタリングサービス,データベース販売等を展開している。

※ TrueText®,jetrun,WordGRID®はJetrunテクノロジの登録商標です。
※ FacebookはFacebook.Incの商標です。
※ Twitterは,米国Twitter Inc.の米国およびその他の国における商標です。


【付帯情報】
・多次元データバンク WordGRID by Jetrun
http://itm.news2u.net/items/output/101744/1
・アプリ開発者・メディア事業者向けワードデータベース提供
http://itm.news2u.net/items/output/101744/2
・フィルタリング向け不適切表現のワードデータを強化
http://itm.news2u.net/items/output/101744/3


News2uリリース詳細へ

多次元データバンク WordGRID by Jetrun

多次元データバンク WordGRID by Jetrun

アプリ開発者・メディア事業者向けワードデータベース提供

アプリ開発者・メディア事業者向けワードデータベース提供

フィルタリング向け不適切表現のワードデータを強化

フィルタリング向け不適切表現のワードデータを強化

関連リンク:http://wordgrid.jp/data/inappropriate_words.html