JP7626566B2 - ポインティングに基づく情報提供方法およびシステム - Google Patents
ポインティングに基づく情報提供方法およびシステム Download PDFInfo
- Publication number
- JP7626566B2 JP7626566B2 JP2023155442A JP2023155442A JP7626566B2 JP 7626566 B2 JP7626566 B2 JP 7626566B2 JP 2023155442 A JP2023155442 A JP 2023155442A JP 2023155442 A JP2023155442 A JP 2023155442A JP 7626566 B2 JP7626566 B2 JP 7626566B2
- Authority
- JP
- Japan
- Prior art keywords
- user
- word
- coordinates
- image
- finger
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/40—Processing or translation of natural language
- G06F40/58—Use of machine translation, e.g. for multi-lingual retrieval, for server-side translation for client devices or for real-time translation
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/01—Input arrangements or combined input and output arrangements for interaction between user and computer
- G06F3/03—Arrangements for converting the position or the displacement of a member into a coded form
- G06F3/041—Digitisers, e.g. for touch screens or touch pads, characterised by the transducing means
- G06F3/042—Digitisers, e.g. for touch screens or touch pads, characterised by the transducing means by opto-electronic means
- G06F3/0425—Digitisers, e.g. for touch screens or touch pads, characterised by the transducing means by opto-electronic means using a single imaging device like a video camera for tracking the absolute position of a single or a plurality of objects with respect to an imaged reference surface, e.g. video camera imaging a display or a projection screen, a table or a wall surface, on which a computer generated image is displayed or projected
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/002—Specific input/output arrangements not covered by G06F3/01 - G06F3/16
- G06F3/005—Input arrangements through a video camera
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/01—Input arrangements or combined input and output arrangements for interaction between user and computer
- G06F3/011—Arrangements for interaction with the human body, e.g. for user immersion in virtual reality
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/16—Sound input; Sound output
- G06F3/167—Audio in a user interface, e.g. using voice commands for navigating, audio feedback
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/14—Image acquisition
- G06V30/148—Segmentation of character regions
- G06V30/153—Segmentation of character regions using recognition of characters or words
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/20—Movements or behaviour, e.g. gesture recognition
- G06V40/28—Recognition of hand or arm movements, e.g. recognition of deaf sign language
-
- G—PHYSICS
- G09—EDUCATION; CRYPTOGRAPHY; DISPLAY; ADVERTISING; SEALS
- G09B—EDUCATIONAL OR DEMONSTRATION APPLIANCES; APPLIANCES FOR TEACHING, OR COMMUNICATING WITH, THE BLIND, DEAF OR MUTE; MODELS; PLANETARIA; GLOBES; MAPS; DIAGRAMS
- G09B5/00—Electrically-operated educational appliances
- G09B5/04—Electrically-operated educational appliances with audible presentation of the material to be studied
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/0018—Speech coding using phonetic or linguistical decoding of the source; Reconstruction using text-to-speech synthesis
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Human Computer Interaction (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Software Systems (AREA)
- Data Mining & Analysis (AREA)
- Mathematical Physics (AREA)
- Signal Processing (AREA)
- Evolutionary Computation (AREA)
- Medical Informatics (AREA)
- Acoustics & Sound (AREA)
- Computing Systems (AREA)
- Business, Economics & Management (AREA)
- Educational Administration (AREA)
- Educational Technology (AREA)
- Psychiatry (AREA)
- Social Psychology (AREA)
- User Interface Of Digital Computer (AREA)
- Character Discrimination (AREA)
- Position Input By Displaying (AREA)
Description
をさしているが、他の指もオフライン掲示物上に存在する場合の例を示している。
であったが、表5では
という単語が認識された例を示している。この場合、上述したように、情報提供装置300は、マシンラーニングを活用して4つの指座標のうちから1つを選択してよい。上述したように、認識される文字との距離が一定の距離以上の指座標は、予め除去されてもよい。また、指によって隠れている場合、情報提供装置300は、以前のイメージを活用して文字を再認識してもよい。
301:カメラ
302:スピーカ
303:マイク
304:OCRエンジン
310:ユーザ
320:オフライン掲示物
330:サーバ
Claims (12)
- 少なくとも1つのプロセッサを含むコンピュータ装置の情報提供方法であって、
前記少なくとも1つのプロセッサが、ユーザ発話を含むユーザ入力によって発生するトリガーに応答し、オフライン掲示物を撮影したイメージ上でユーザ指定座標を決定する段階、
前記少なくとも1つのプロセッサが、前記イメージ上に含まれた文字のうちから前記決定されたユーザ指定座標に対応する単語を決定する段階、および
前記少なくとも1つのプロセッサが、前記決定された単語の追加情報を提供する段階
を含み、
前記ユーザ指定座標を決定する段階は、
前記イメージ上で認識される手の爪に対する中央座標点を前記ユーザ指定座標として決定することを特徴とする、情報提供方法。 - 前記ユーザ指定座標を決定する段階は、
前記イメージ上で認識されるポインティングツールの座標を前記ユーザ指定座標として決定することを特徴とする、請求項1に記載の情報提供方法。 - 前記イメージ上に含まれた文字は、OCR(Optical Character Reader)によって少なくとも1つの文字を含むボックスの単位で認識され、
前記単語を決定する段階は、
前記ユーザ指定座標との距離が最も近いボックスに含まれた単語を、前記ユーザ指定座標に対応する単語として選択することを特徴とする、請求項1又は2に記載の情報提供方法。 - 前記距離は、前記ユーザ指定座標と前記ボックスを形成する4本のラインのうちの下端ラインとの距離を含むか、または前記ユーザ指定座標と前記下端ラインの中間点との距離を含むことを特徴とする、請求項3に記載の情報提供方法。
- 前記単語を決定する段階は、
前記ボックスに含まれた文字に対する自然語処理(Natural Language Processing)によって前記ボックスから前記単語を抽出する段階
を含むことを特徴とする、請求項3に記載の情報提供方法。 - 前記追加情報を提供する段階は、
オンライン辞書サービスおよびオンライン翻訳サービスのうちの少なくとも1つを提供するサーバから、前記決定された単語の追加情報を受信する段階、
前記受信した追加情報を音声に変換する段階、および
前記変換された音声を出力する段階
を含むことを特徴とする、請求項1~5のうちのいずれか一項に記載の情報提供方法。 - 前記ユーザ指定座標を決定する段階は、
ユーザの発話によって予め設定された意図が認識されることにより、前記トリガーを発生させる段階
を含むことを特徴とする、請求項1~6のうちのいずれか一項に記載の情報提供方法。 - コンピュータ読み取り可能な命令を実行するように実現される少なくとも1つのプロセッサ
を含み、
前記少なくとも1つのプロセッサが、
ユーザ発話を含むユーザ入力によって発生するトリガーに応答し、オフライン掲示物を撮影したイメージ上でユーザ指定座標を決定し、
前記イメージ上に含まれた文字のうちから前記決定されたユーザ指定座標に対応する単語を決定し、及び
前記決定された単語の追加情報を提供し、
前記ユーザ指定座標を決定するために、前記少なくとも1つのプロセッサにより、
前記イメージ上で認識される手の爪に対する中央座標点を前記ユーザ指定座標として決定すること
を特徴とする、コンピュータ装置。 - 前記イメージ上に含まれた文字は、OCR(Optical Character Reader)によって少なくとも1つの文字を含むボックスの単位で認識され、
前記単語を決定するために、前記少なくとも1つのプロセッサにより、
前記ユーザ指定座標との距離が最も近いボックスに含まれた単語を、前記ユーザ指定座標に対応する単語として選択すること
を特徴とする、請求項8に記載のコンピュータ装置。 - 前記追加情報を提供するために、前記少なくとも1つのプロセッサにより、
オンライン辞書サービスおよびオンライン翻訳サービスのうちの少なくとも1つを提供するサーバから、前記決定された単語の追加情報を受信し、
前記受信した追加情報を音声に変換し、
前記変換された音声を出力すること
を特徴とする、請求項8又は9に記載のコンピュータ装置。 - 前記少なくとも1つのプロセッサが、
前記決定された単語の位置を、前記オフライン掲示物に対する読み上げのための開始位置に指定し、
前記開始位置から認識された文字を音声で出力すること
を特徴とする、請求項8~10のうちのいずれか一項に記載のコンピュータ装置。 - 前記少なくとも1つのプロセッサが、
前記決定された単語を含む文章を認識し、
前記認識された文章を複数回にわたり繰り返して音声で出力すること
を特徴とする、請求項8~11のうちのいずれか一項に記載のコンピュータ装置。
Applications Claiming Priority (3)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| KR1020210052876A KR102597069B1 (ko) | 2021-04-23 | 2021-04-23 | 포인팅에 기반한 정보 제공 방법 및 시스템 |
| KR10-2021-0052876 | 2021-04-23 | ||
| JP2021104963A JP7355785B2 (ja) | 2021-04-23 | 2021-06-24 | ポインティングに基づく情報提供方法およびシステム |
Related Parent Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP2021104963A Division JP7355785B2 (ja) | 2021-04-23 | 2021-06-24 | ポインティングに基づく情報提供方法およびシステム |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| JP2024001050A JP2024001050A (ja) | 2024-01-09 |
| JP7626566B2 true JP7626566B2 (ja) | 2025-02-04 |
Family
ID=83852312
Family Applications (2)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP2021104963A Active JP7355785B2 (ja) | 2021-04-23 | 2021-06-24 | ポインティングに基づく情報提供方法およびシステム |
| JP2023155442A Active JP7626566B2 (ja) | 2021-04-23 | 2023-09-21 | ポインティングに基づく情報提供方法およびシステム |
Family Applications Before (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP2021104963A Active JP7355785B2 (ja) | 2021-04-23 | 2021-06-24 | ポインティングに基づく情報提供方法およびシステム |
Country Status (3)
| Country | Link |
|---|---|
| JP (2) | JP7355785B2 (ja) |
| KR (1) | KR102597069B1 (ja) |
| CN (1) | CN115331253A (ja) |
Families Citing this family (1)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| KR20240126632A (ko) * | 2023-02-14 | 2024-08-21 | 네이버 주식회사 | 이미지 내 텍스트 검출 방법 및 장치 |
Citations (6)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2006048324A (ja) | 2004-08-04 | 2006-02-16 | Hitachi Omron Terminal Solutions Corp | 文書翻訳システム |
| JP2011048816A (ja) | 2009-08-25 | 2011-03-10 | Fuji Xerox Co Ltd | 識別方法、識別装置およびコンピュータプログラム |
| WO2018079446A1 (ja) | 2016-10-27 | 2018-05-03 | 日本電気株式会社 | 情報入力装置および情報入力方法 |
| CN111103982A (zh) | 2019-12-26 | 2020-05-05 | 上海纸上绝知智能科技有限公司 | 基于体感交互的数据处理方法以及装置、系统 |
| JP2021006896A (ja) | 2019-06-27 | 2021-01-21 | ネイバー コーポレーションNAVER Corporation | スマートリーディング機器およびその制御方法 |
| US20210109717A1 (en) | 2019-10-14 | 2021-04-15 | UiPath Inc. | Providing Image and Text Data for Automatic Target Selection in Robotic Process Automation |
Family Cites Families (16)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JPH02194470A (ja) * | 1989-01-24 | 1990-08-01 | Seiko Epson Corp | 電子翻訳機 |
| GB9103768D0 (en) * | 1991-02-22 | 1991-04-10 | King Reginald A | Educational apparatus |
| US6115482A (en) * | 1996-02-13 | 2000-09-05 | Ascent Technology, Inc. | Voice-output reading system with gesture-based navigation |
| JP4019114B1 (ja) * | 2006-09-04 | 2007-12-12 | 株式会社I・Pソリューションズ | 情報出力装置 |
| KR20110094569A (ko) * | 2010-02-17 | 2011-08-24 | 최우범 | 일반 책자에 대한 좌표 검출 방식의 뷰어 기능을 갖는 전자책 |
| JP5989479B2 (ja) * | 2012-09-20 | 2016-09-07 | シャープ株式会社 | 文字認識装置、文字認識装置の制御方法、制御プログラム、および制御プログラムを記録したコンピュータ読み取り可能な記録媒体 |
| WO2014197334A2 (en) * | 2013-06-07 | 2014-12-11 | Apple Inc. | System and method for user-specified pronunciation of words for speech synthesis and recognition |
| WO2015049866A1 (ja) * | 2013-10-02 | 2015-04-09 | 日本電気株式会社 | インターフェース装置、モジュール、制御部品、制御方法およびプログラム記憶媒体 |
| US10108907B2 (en) * | 2015-07-17 | 2018-10-23 | Knoema Corporation | Method and system to provide related data |
| CN108536287B (zh) * | 2018-03-26 | 2021-03-02 | 深圳市同维通信技术有限公司 | 一种根据用户指示读书的方法及装置 |
| KR102124466B1 (ko) * | 2018-11-22 | 2020-06-19 | 주식회사 데이터코볼트 | 웹툰 제작을 위한 콘티를 생성하는 장치 및 방법 |
| CN111459443A (zh) * | 2019-01-21 | 2020-07-28 | 北京字节跳动网络技术有限公司 | 一种文字点读方法、装置、设备和可读介质 |
| CN111461095A (zh) * | 2019-01-21 | 2020-07-28 | 北京字节跳动网络技术有限公司 | 一种语音点读方法、装置、设备和可读介质 |
| KR102431663B1 (ko) * | 2019-06-27 | 2022-08-12 | 네이버 주식회사 | 스탠드형 스마트 리딩 기기 및 그 제어 방법 |
| CN110443231A (zh) * | 2019-09-05 | 2019-11-12 | 湖南神通智能股份有限公司 | 一种基于人工智能的单手手指点读文字识别方法和系统 |
| CN111611986B (zh) * | 2020-05-11 | 2023-06-09 | 上海翎腾智能科技有限公司 | 一种基于手指交互的焦点文本提取和识别方法及系统 |
-
2021
- 2021-04-23 KR KR1020210052876A patent/KR102597069B1/ko active Active
- 2021-06-22 CN CN202110691629.5A patent/CN115331253A/zh active Pending
- 2021-06-24 JP JP2021104963A patent/JP7355785B2/ja active Active
-
2023
- 2023-09-21 JP JP2023155442A patent/JP7626566B2/ja active Active
Patent Citations (6)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2006048324A (ja) | 2004-08-04 | 2006-02-16 | Hitachi Omron Terminal Solutions Corp | 文書翻訳システム |
| JP2011048816A (ja) | 2009-08-25 | 2011-03-10 | Fuji Xerox Co Ltd | 識別方法、識別装置およびコンピュータプログラム |
| WO2018079446A1 (ja) | 2016-10-27 | 2018-05-03 | 日本電気株式会社 | 情報入力装置および情報入力方法 |
| JP2021006896A (ja) | 2019-06-27 | 2021-01-21 | ネイバー コーポレーションNAVER Corporation | スマートリーディング機器およびその制御方法 |
| US20210109717A1 (en) | 2019-10-14 | 2021-04-15 | UiPath Inc. | Providing Image and Text Data for Automatic Target Selection in Robotic Process Automation |
| CN111103982A (zh) | 2019-12-26 | 2020-05-05 | 上海纸上绝知智能科技有限公司 | 基于体感交互的数据处理方法以及装置、系统 |
Also Published As
| Publication number | Publication date |
|---|---|
| JP7355785B2 (ja) | 2023-10-03 |
| CN115331253A (zh) | 2022-11-11 |
| JP2024001050A (ja) | 2024-01-09 |
| JP2022167734A (ja) | 2022-11-04 |
| KR20220146058A (ko) | 2022-11-01 |
| KR102597069B1 (ko) | 2023-11-01 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| US10395654B2 (en) | Text normalization based on a data-driven learning network | |
| CN119137658A (zh) | 使用鼠标指向或触摸提示的场境助理 | |
| US5687254A (en) | Searching and Matching unrecognized handwriting | |
| JP4708913B2 (ja) | 情報処理方法及び情報処理装置 | |
| US9093072B2 (en) | Speech and gesture recognition enhancement | |
| KR102677199B1 (ko) | 그래픽 객체를 선택하기 위한 방법 및 대응하는 디바이스 | |
| US20150325237A1 (en) | User query history expansion for improving language model adaptation | |
| JPH07295784A (ja) | 音声による情報処理装置 | |
| US20150039318A1 (en) | Apparatus and method for selecting control object through voice recognition | |
| US20150073801A1 (en) | Apparatus and method for selecting a control object by voice recognition | |
| JP6355823B2 (ja) | 入力表示制御装置、入力表示制御方法及び入力表示システム | |
| JP2006048628A (ja) | マルチモーダル入力方法 | |
| JP2001272995A (ja) | 音声認識方法及び装置 | |
| US10002610B2 (en) | Presentation supporting device, presentation supporting method, and computer-readable recording medium | |
| WO2020107834A1 (zh) | 唇语识别的验证内容生成方法及相关装置 | |
| CN111680177A (zh) | 数据搜索方法及电子设备、计算机可读存储介质 | |
| CN104380374A (zh) | 功能执行指示系统、功能执行指示方法及功能执行指示程序 | |
| JP7363107B2 (ja) | 発想支援装置、発想支援システム及びプログラム | |
| CN116430999A (zh) | 一种语音助手实现指尖视觉交互技术的方法和系统 | |
| JP7626566B2 (ja) | ポインティングに基づく情報提供方法およびシステム | |
| CN109192198B (zh) | 一种基于声波感知的文本输入方法 | |
| JP2002196879A (ja) | 情報処理装置及びその方法、コンピュータ可読メモリ、プログラム | |
| JP7257010B2 (ja) | 検索支援サーバ、検索支援方法及びコンピュータプログラム | |
| JP2020107283A (ja) | 情報処理装置、情報処理方法、プログラム | |
| JP6448838B2 (ja) | 表示制御装置、表示制御方法及びプログラム |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20230921 |
|
| A711 | Notification of change in applicant |
Free format text: JAPANESE INTERMEDIATE CODE: A712 Effective date: 20231130 |
|
| RD03 | Notification of appointment of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7423 Effective date: 20231222 |
|
| A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20240830 |
|
| A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20240917 |
|
| A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20241211 |
|
| TRDD | Decision of grant or rejection written | ||
| A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20241224 |
|
| A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20250121 |
|
| R150 | Certificate of patent or registration of utility model |
Ref document number: 7626566 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |