[go: up one dir, main page]
More Web Proxy on the site http://driver.im/

TWI643076B - 金融非結構化文本分析系統及其方法 - Google Patents

金融非結構化文本分析系統及其方法 Download PDF

Info

Publication number
TWI643076B
TWI643076B TW106135125A TW106135125A TWI643076B TW I643076 B TWI643076 B TW I643076B TW 106135125 A TW106135125 A TW 106135125A TW 106135125 A TW106135125 A TW 106135125A TW I643076 B TWI643076 B TW I643076B
Authority
TW
Taiwan
Prior art keywords
news
index
overall
keyword
financial
Prior art date
Application number
TW106135125A
Other languages
English (en)
Other versions
TW201915777A (zh
Inventor
Liang Chih Yu
禹良治
Li Chuan Liao
廖麗娟
Original Assignee
Yuan Ze University
元智大學
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Yuan Ze University, 元智大學 filed Critical Yuan Ze University
Priority to TW106135125A priority Critical patent/TWI643076B/zh
Priority to CN201710982990.7A priority patent/CN110019389A/zh
Priority to US15/822,140 priority patent/US20190114711A1/en
Application granted granted Critical
Publication of TWI643076B publication Critical patent/TWI643076B/zh
Publication of TW201915777A publication Critical patent/TW201915777A/zh

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q40/00Finance; Insurance; Tax strategies; Processing of corporate or income taxes
    • G06Q40/06Asset management; Financial planning or analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/242Query formulation
    • G06F16/243Natural language query formulation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2462Approximate or statistical queries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2477Temporal data queries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q40/00Finance; Insurance; Tax strategies; Processing of corporate or income taxes
    • G06Q40/04Trading; Exchange, e.g. stocks, commodities, derivatives or currency exchange

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • General Physics & Mathematics (AREA)
  • Finance (AREA)
  • Accounting & Taxation (AREA)
  • Development Economics (AREA)
  • General Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Marketing (AREA)
  • Economics (AREA)
  • General Business, Economics & Management (AREA)
  • Technology Law (AREA)
  • Strategic Management (AREA)
  • Probability & Statistics with Applications (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Game Theory and Decision Science (AREA)
  • Human Resources & Organizations (AREA)
  • Operations Research (AREA)
  • Fuzzy Systems (AREA)
  • Artificial Intelligence (AREA)
  • Software Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本發明揭露一種金融分析系統及其方法,於此金融非結構化文本分析系統中,使用者介面用以輸入關鍵字與顯示分析結果,伺服器用以運行資料庫,記憶體用以儲存分析程式。處理器用以執行分析程式以執行金融非結構化文本分析方法,且此金融非結構化文本分析方法包括:根據關鍵字,透過伺服器於資料庫中搜尋預設時間區段內與關鍵字相關之複數篇新聞;以及針對該些新聞,進行詞性分析運算,以計算出預設時間區段內每個時間點的整體樂觀指數與整體激勵指數作為分析結果。整體樂觀指數代表該些新聞之整體情緒程度,且整體激勵指數代表該些新聞之整體期望程度。

Description

金融非結構化文本分析系統及其方法
本發明乃是關於一種金融非結構化文本分析系統及其方法,特別是指一種能夠將非結構化資訊轉換為結構化指標的金融非結構化文本分析系統及其方法。
於目前的金融分析領域中,針對股票市場的分析大多是以結構化資訊為依據,如:於等時間間隔內對成交量或者股價波動進行分析,這類的分析結果均可以用一個結構化指標(即,量化的數值)來表示。將結構化資訊轉換為結構化指標是目前對於股票市場進行分析的主要手法,即,將等時間間隔內成交量或者股價波動表示成多種0~9之不同定義的指標。
然而,實際影響未來成交量或者股價波動的因素並不在於已發生的成交量或者股價波動,而是在於不斷發生於各產業中的時事新聞。雖說如此,要利用發生於相關產業中的時事新聞來對股票市場進行分析是困難的,原因在於,發生於相關產業中的時事新聞屬於非結構化資訊,而要將屬於非結構化資訊的時事新聞轉換為結構化指標並不容易。
為了能夠根據不斷發生於各產業中的時事新聞,更有效地對未來的股票成交量或者股價波動進行分析,本發明提供了一種能夠將非結構化資訊轉換為結構化指標的金融非結構化文本分析系統及其方法。
於本發明所提供之金融非結構化文本分析系統包括使用者介面、伺服器、記憶體與處理器。使用者介面設置以輸入關鍵字與顯示分析結果。伺服器設置以運行至少一資料庫。記憶體設置以儲存一分析程式。處理器連接於使用者介面、伺服器與記憶體,並設置以執行該分析程式以執行以下操作:根據關鍵字,透過伺服器於資料庫中搜尋預設時間區段內與關鍵字相關之複數篇新聞;以及針對該些新聞,進行詞性分析運算,以計算出預設時間區段內每個時間點的整體樂觀指數與整體激勵指數作為分析結果。需說明地是,整體樂觀指數代表該些新聞之整體情緒程度,且整體激勵指數代表該些新聞之整體期望程度。
於本發明所提供之金融非結構化文本分析系統中,當處理器根據關鍵字於資料庫中搜尋預設時間區段內與關鍵字相關之該些新聞後,處理器執行該分析程式以進一步執行以下操作:根據預設時間區段內一指定時間區段,擷取於該指定時間區段內與關鍵字相關之該些新聞,並根據該些新聞,計算並產生一文字雲以作為分析結果。
另外,本發明所提供之金融非結構化文本分析方法適用於一金融非結構化文本分析系統。此金融非結構化文本分析系統包括使用者介面、伺服器、記憶體與處理器。使用者介面設置以輸入關鍵字與顯示分析結果,伺服器設置以運行至少一資料庫,且記憶體設置以儲存一分析程式。處理器連接於使用者介面、伺服器與記憶體,並設置以執行該分析程式以執行此金融非結構化文本分析方法。此金融非結構化文本分析方法包括:根據關鍵字,透過伺服器於資料庫中搜尋預設時間區段內與關鍵字相關之複數篇 新聞;以及針對該些新聞,進行詞性分析運算,以計算出預設時間區段內每個時間點的整體樂觀指數與整體激勵指數作為分析結果。需說明地是,整體樂觀指數代表該些新聞之整體情緒程度,且整體激勵指數代表該些新聞之整體期望程度。
透過本發明所提供之金融非結構化文本分析系統及其方法,便能使得非結構化數據,如:各產業的新聞報導,轉換為多種結構化的分析結果,使得股票市場的未來趨勢,如:成交量、股價…等,能夠更有依據地被分析與預測。相較於傳統上以結構化資訊(如:目前或過往的成交量或股價波動)為依據的金融非結構化文本分析系統或方法,就股票市場的未來趨勢預測而言,本發明所提供之金融非結構化文本分析系統及其方法所提供的分析結果更具有參考價值。
10‧‧‧處理器
11‧‧‧使用者介面
12‧‧‧伺服器
13‧‧‧資料庫
14‧‧‧記憶體
15‧‧‧分析程式
A‧‧‧顯示區域
B‧‧‧顯示區域
C‧‧‧顯示區域
t‧‧‧時間軸
k1、k2、k3‧‧‧k線
CL1、CL2、CL3‧‧‧文字雲
S201~S205‧‧‧步驟
S301~S307‧‧‧步驟
圖1為根據本發明一例示性實施例繪示之金融非結構化文本分析系統的方塊圖。
圖2為根據本發明一例示性實施例繪示之金融非結構化文本分析方法的方塊圖。
圖3為根據本發明另一例示性實施例繪示之金融非結構化文本分析方法的方塊圖。
圖4為根據本發明一例示性實施例繪示之金融非結構化文本分析系統所產生之分析結果的示意圖。
圖5為根據本發明另一例示性實施例繪示之金融非結構化文本分析系統所產生之分析結果的示意圖。
圖6為根據本發明另一例示性實施例繪示之金融非結構化文本分析系統所產生之分析結果的示意圖。
在下文將參看隨附圖式更充分地描述各種例示性實施例,在隨附圖式中展示一些例示性實施例。然而,本發明概念可能以許多不同形式來體現,且不應解釋為限於本文中所闡述之例示性實施例。確切而言,提供此等例示性實施例使得本發明將為詳盡且完整,且將向熟習此項技術者充分傳達本發明概念的範疇。在諸圖式中,類似數字始終指示類似元件。
大體而言,為了更有依據地分析與預測股票市場的未來趨勢,本發明所提供之金融非結構化文本分析系統及其方法透過將非結構化數據(如:各產業的新聞報導)轉換為多種結構化的資訊來達到讓分析結果具有實際參考價時的目的。以下將以數個實施例來說明本發明所提供之金融非結構化文本分析系統及其方法。
首先說明本發明之金融非結構化文本分析系統的架構,請參照圖1,圖1為根據本發明一例示性實施例繪示之金融非結構化文本分析系統的方塊圖。
如圖1所示,本實施例所提供之金融非結構化文本分析系統包括處理器10、使用者介面11、伺服器12與記憶體14。使用者介面11設置以輸入關鍵字與顯示分析結果。伺服器12設置以運行至少一資料庫。記憶體14設置以儲存一分析程式15。處理器10連接於使用者介面11、12伺服器與記憶體14。本實施例所提供之金融非結構化文本分析系統中的處理器10、使用者介面11與記憶體14可以一電子裝置來實現,如:個人電腦、智慧型手機…等。本實施例所提供之金融非結構化文本分析系統中的伺服器12可以能與電子裝置進行網路通訊的一伺服器設備來實現。
請參照圖2,圖2為根據本發明一例示性實施例繪示之金融非結構化文本分析方法的方塊圖。
本實施例所提供之金融非結構化文本分析方法是由圖1所繪示之金融非結構化文本分析系統中的處理器10執行儲存於記憶體14中的一分析程式15來實現,故請同時參照圖1與圖2以利瞭解。 如圖2所示,大體而言,本實施例所提供之金融非結構化文本分析方法包括以下步驟:根據關鍵字,透過伺服器12於資料庫13中搜尋預設時間區段內與關鍵字相關之複數篇新聞(步驟S201);針對該些新聞,計數關鍵字出現之次數,並根據關鍵字出現之次數計算出一曝光指數以作為分析結果(步驟S202);針對每篇新聞,計算出一樂觀指數與一激勵指數(步驟S203);將該些新聞之該些樂觀指數與該些激勵指數分別平均,以計算出預設時間區段內每個時間點的整體樂觀指數與整體激勵指數(步驟S204);以及判斷每篇新聞之樂觀指數是否大於等於第一預設指數或是否小於第二預設指數,以計算出一正文數與一負文數以作為分析結果(步驟S205)。
接著要說明的是本實施例所提供之金融非結構化文本分析方法中各步驟的細節。
於步驟S201中,當使用者透過使用者介面11輸入一關鍵字時,處理器10便會透過伺服器12於資料庫13中搜尋預設時間區段內與關鍵字相關之複數篇新聞。於本實施例中,使用者所輸入的鍵字可為一股票代碼或一公司名稱。當使用者所輸入的關鍵字為股票代碼時,處理器10便會透過伺服器12於資料庫13中搜尋存在有對應此股票代碼之公司名稱的該些新聞,而當使用者直接輸入公司名稱作為關鍵字時,處理器10便會透過伺服器12於資料庫13中搜尋存在此公司名稱的該些新聞。
須說明地是,前述之「非結構化文本」所指的是非特定格式或非資料庫格式的文本檔案,如:網路文章、社群文章、評論、新聞…等。於本實施例中,伺服器12係運行至少一資料庫13,資料庫13的資料來源可例如為各大新聞網的所發佈的新聞。
舉例來說,若使用者所輸入的關鍵字為「2317」,則處理器10便會透過伺服器12於資料庫13中搜尋存在有對應此股票代碼「2317」之公司名稱(如:A公司)的新聞,而若使用者直接輸入「A 公司」作為關鍵字,處理器10便會透過伺服器12於資料庫13中搜尋存在「A公司」的該些新聞。
再者,使用者另可透過使用者介面11輸入一特定時間區段,以使處理器10根據關鍵字,透過伺服器12於資料庫13中搜尋該預設時間區段內與該關鍵字相關之該些新聞。
舉例來說,若使用者並未透過使用者介面11設定任何一特定時間區段,則處理器10便會透過伺服器12於資料庫13中搜尋預設時間區段(如:由資料搜尋當日回推6個月之時間區段)內與關鍵字相關之複數篇新聞。若使用者透過使用者介面11設定了一個特定時間區段,(如:2017/07/23~2017/08/23),則處理器10便會透過伺服器12於資料庫13中搜尋此特定時間區段(即,2017/07/23~2017/08/23)中與關鍵字相關之複數篇新聞。
於步驟S202中,假設使用者直接輸入「A公司」作為關鍵字,處理器10便會計數「A公司」於該些新聞中出現之次數,並根據所計數出的之次數計算出一曝光指數。須說明地是,此曝光指數代表了「A公司」這個詞於一時間區段內之新聞中的頻率(簡稱為詞頻)。曝光指數越高,便表示「A公司」這個詞於一時間區段內之新聞中的詞頻越高,越頻繁地曝光於媒體的新聞報導中;相反地,曝光指數越低,則表示「A公司」這個詞於一時間區段內之新聞中的詞頻越低,鮮少曝光於媒體的新聞報導中。
接著,於步驟S203中,假設使用者直接輸入「A公司」作為關鍵字,處理器10便會針對每篇新聞的文字內容進行一特徵運算,以計算出一樂觀指數與一激勵指數。此樂觀指數代表了該篇新聞之情緒程度,且此激勵指數代表了該篇新聞之期望程度。情緒程度所指的是讀者得知該篇新聞時,其情緒傾向於開心或難過,而期望程度所指的是讀者對於該篇新聞中發生的事件,其反應是激動或平淡。
進一步說明,處理器10所執行的分析程式15寫入有一預設詞典,此預設詞典中包含複數個情感詞,以及每個情感詞所對應之情緒分數與期望分數,其中此情緒分數與此期望分數皆為一個介於1~9的實數。當一情感詞所對應之情緒分數越高,即表示讀者普遍對於該情感詞具有樂觀的感受,而當該情感詞所對應之情緒分數越低,即表示讀者普遍對於該詞具有悲觀的感受。此外,當一情感詞所對應之期望分數越高,即表示讀者普遍對於該情感詞感到激動,而當該情感詞所對應之期望分數越低,即表示讀者普遍對於該詞沒有特別的情緒起伏。
針對每一篇新聞,處理器10會先根據預設詞典找出出現於該篇新聞中的情感詞,接著再根據預設詞典對應計算出每個出現的情感詞所對應之情緒分數與期望分數。最後,處理器10將該篇新聞中所有情感詞的情緒分數與期望分數分別進行平均,以計算出該篇新聞的樂觀指數與激勵指數。
舉例來說,假設處理器10根據預設詞典在一篇新聞中所找出的情感詞為「成長」與「買超」,根據此預設詞典,情感詞「成長」的情緒分數與期望分數分別為4.8與6.0,且情感詞「買超」的情緒分數與期望分數分別為6.0與6.0。於此例中,處理器10針對該篇新聞所計算出的樂觀指數即為5.4(即,(4.8+6.0)/2),且處理器10針對該篇新聞所計算出的激勵指數即為6.0(即,(6.0+6.0)/2)。
於步驟S204中,假設處理器10計算出預設時間區段內(如:2017/6/23~2017/8/23)某一時間點(如:2017/8/20)的所有新聞(如:三篇)的樂觀指數/激勵指數分別為:5.4/6.0、6.1/6.8與5.2/7.0,則處理器10便會將這三篇新聞的樂觀指數與激勵指數分別平均,以計算出此時間點的整體樂觀指數(即,(5.4+6.1+5.2)/3=5.6)與整體激勵指數(即,(6.0+6.8+7.0)/3=6.6)。
最後,於步驟S205中,處理器10會判斷每篇新聞之樂觀指數是否大於等於第一預設指數或是否小於一第二預設指數,以計算 出預設時間區段內各個時間點下的一正文數與一負文數以作為分析結果,其中,若一新聞之樂觀指數大於等於第一預設指數,則處理器10將正文數加一,而若一新聞之樂觀指數小於第二預設指數,則處理器10將負文數加一。
舉例來說,假設第一預設指數為5.5、第二預設指數為4.5,且處理器10計算出預設時間區段內(如:2017/6/23~2017/8/23)某一時間點(如:2017/8/1)的所有新聞(如:10篇)的樂觀指數分別為:5.1、7.2、5.0、4.6、3.3、6.8、6.7、4.1、6.5與7.4,處理器10便可以計算出於此時間點的正文數為5,而負文數為2。須說明地是,於此舉例中,樂觀指數為5.1、5.0與4.6的新聞會被處理器10判斷為中性文章,此類文章不會對正文數與負文數的技術造成影響。
舉另一例來說,假設第一預設指數為5、第二預設指數亦為4.5,且處理器10計算出預設時間區段內(如:2017/6/23~2017/8/23)某一時間點(如:2017/8/1)的所有新聞(如:10篇)的樂觀指數分別為:5.1、7.2、5.0、4.6、3.3、6.8、6.7、4.1、6.5與7.4,處理器10便可以計算出於此時間點的正文數為7,而負文數為3。也就是說,於本實施例中,第一預設指數與第二預設指數可由系統管理者透過修改分析程式來設定,兩者可相等或不相等,本發明於此必不限制。
透過使用以上所描述之本實施例所提供之金融非結構化文本分析系統及其方法,便能夠將各產業的新聞報導(即,非結構化數據)轉換為具有實際參考價值的分析結果,如:曝光指數、樂觀指數、激勵指數、正文數和負文數。這些分析結果是各產業的新聞報導根據時間序列進行排序後,再針對某時間區段或某時間區段下的各時間點進行分析計算所得到的結構化指標,方便使用者對股票市場的未來趨勢做出判斷。
請參照圖4,圖4為根據本發明一例示性實施例繪示之金融非結構化文本分析系統所產生之分析結果的示意圖。
本實施例所提供之金融非結構化文本分析系統執行圖2所繪示之金融非結構化文本分析方法所產生之分析結果會透過使用者介面11進行顯示。如圖4所示,於本實施例中,使用者介面11的顯示畫面包括顯示區域A與顯示區域B。顯示區域A所顯示的是一般金融分析針對一公司之股票於時間軸t上各時間點所呈現的多種指標,如:成交量、股價、k線。另外,顯示區域B所顯示的即為前述說明中所描述之一公司之股票於時間軸t上各時間點的曝光指數、樂觀指數、激勵指數、正文數和負文數。
接下來請參照圖3,圖3為根據本發明另一例示性實施例繪示之金融非結構化文本分析方法的方塊圖。
本實施例所提供之金融非結構化文本分析方法也是由圖1所繪示之金融非結構化文本分析系統中的處理器10執行儲存於記憶體14中的一分析程式15來實現,故請同時參照圖1與圖3以利瞭解。如圖3所示,大體而言,本實施例所提供之金融非結構化文本分析方法包括以下步驟:根據關鍵字,透過伺服器12於資料庫13中搜尋預設時間區段內與關鍵字相關之複數篇新聞(步驟S301);針對該些新聞,計數關鍵字出現之次數,並根據關鍵字出現之次數計算出一曝光指數以作為分析結果(步驟S302);針對每篇新聞,計算出一樂觀指數與一激勵指數(步驟S303);將該些新聞之該些樂觀指數與該些激勵指數分別平均,以計算出預設時間區段內每個時間點的整體樂觀指數與整體激勵指數(步驟S304);判斷每篇新聞之樂觀指數是否大於等於第一預設指數或是否小於一第二預設指數,以計算出一正文數與一負文數以作為分析結果(步驟S305);根據預設時間區段內一指定時間區段,透過伺服器12擷取於指定時間區段內與關鍵字相關之該些新聞(步驟S306);以及根據指定時間區段內與關鍵字相關之該些新聞,計算並產生一文字雲以作為分析結果(步驟S307)。
接著要說明的是本實施例所提供之金融非結構化文本分析方法中各步驟的細節。本實施例所提供之金融非結構化文本分析方法中步驟S301~S305與圖2所繪示之實施例所提供之金融非結構化文本分析方法中步驟S201~S205類似,因此關於本實施例所提供之金融非結構化文本分析方法中步驟S301~S305的細節可參照關於圖2所繪示之實施例所提供之金融非結構化文本分析方法中步驟S201~S205的描述,以下將僅就本實施例所提供之金融非結構化文本分析方法中步驟S306~S307的細節作說明。
舉一個例子來說,假設使用者所輸入的關鍵字為「2317」,則處理器10便會透過伺服器12於資料庫13中搜尋預設時間區段內(或者由使用者所設定之特定時間區段內)存在有對應此股票代碼「2317」之公司名稱(即,A公司)的新聞。接著,根據被搜尋到的新聞,處理器10便會接著執行步驟S302~S305以產生A公司之股票於時間軸各時間點的曝光指數、樂觀指數、激勵指數、正文數和負文數。
接下來,於步驟S306中,處理器10會根據一指定時間區段,透過伺服器12擷取於指定時間區段內與關鍵字相關之該些新聞。須說明地是,此處的「指定時間區段」所指的是預設時間區段內(或者由使用者所設定之特定時間區段內)的一指定時間區段。
如前述,於使用者輸入關鍵字且處理器10執行步驟S302~S305以產生A公司之股票於時間軸各時間點的曝光指數、樂觀指數、激勵指數、正文數和負文數後,同時,使用者介面11的顯示畫面的顯示區域A中會對應地顯示A公司之股票於時間軸上各時間點所呈現的多種指標,如:成交量、股價、k線…等。此時,舉例來說,使用者可以點選顯示區域A中任一個k線,此k線於時間軸上對應的時間點(如:2017/04/07)即決定了前述之指定時間區段。假設,於本實施例之分析程式15中所設定之指定時間區段定義為被點選之k線於時間軸上對應的時間點往前三天與往後三天的時間區段,則 於此例中,指定時間區段即為2017/04/04~2017/04/10。此時,處理器10便會由步驟S301中所搜尋到的新聞中進一步擷取出2017/04/04~2017/04/10的新聞。
須說明地是,於本實施例與圖2所繪示之實施例中,使用者介面11的顯示畫面之顯示區域A所顯示某公司之股票於時間軸上各時間點所呈現的成交量、股價、k線…等指標,其資訊同樣是由處理器10透過伺服器12於資料庫13中獲得。也就是說,於本實施例與圖2所繪示之實施例中,資料庫13的資料來源亦可例如為各證券交易所所發佈的交易資訊。另須說明地是,於本實施例中,使用者亦可選擇點選顯示區域A中任一個成交量或股價曲線上的一節點,此節點於時間軸上對應的時間點即決定了前述之指定時間區段。
於步驟S307中,處理器10會根據步驟S306中所擷取出的新聞計算並產生一文字雲以作為分析結果。於本實施例中,處理器10會在每篇新聞中以關鍵字為中心建立出一個經設定的距離範圍(如;關鍵字為中心前後50個字),接著再於此距離範圍內計算出出現的詞,最後再以出現的次數將這些詞作出排序。須說明地是,於本實施例中,此經設定的距離範圍可以是於分析程式15中預先設定的距離範圍,或者是由使用者透過使用者介面11所設定的距離範圍。承上例,假設被截取出的一篇新聞中出現了三次「A公司」,則處理器10會在此篇篇新聞中以第一次出現的「A公司」為中心取其前後50個字建立出一個距離範圍,再以第二次出現的「A公司」為中心取其前後50個字建立出另一個距離範圍,最後再以第三次出現的「A公司」為中心取其前後50個字建立出又一個距離範圍。
接著,處理器10會根據一個經設定的顯示詞數量來產生文字雲。於本實施例中,此經設定的顯示詞數量可以是於分析程式15中預先設定的顯示詞數量,或者是由使用者透過使用者介面11所 設定的顯示詞數量。承上例,假設此經設定的顯示詞數量為120個,處理器10會便會根據前述針對被找出的詞所做出的排序挑出排序為前120名的詞來產生文字雲,此文字雲反映了A公司在與被點選之k線對應之指定時間區段內的時事訊息。
請參照圖5,圖5為根據本發明另一例示性實施例繪示之金融非結構化文本分析系統所產生之分析結果的示意圖。
本實施例所提供之金融非結構化文本分析系統執行圖3所繪示之金融非結構化文本分析方法所產生之分析結果會透過使用者介面11進行顯示。於本實施例中,使用者介面11的顯示畫面除了包括前述之顯示區域A與顯示區域B以外,還包括顯示區域C。處理器10執行步驟S301、S306與S307後所產生並顯示於顯示區域C的文字雲可例如為圖5所示之文字雲。
另外,請參照圖6,圖6為根據本發明另一例示性實施例繪示之金融非結構化文本分析系統所產生之分析結果的示意圖。
於本實施例中,當使用者點選了多個k線k1、k2與k3時,處理器10執行步驟S301、S306與S307後會針對k線k1、k2與k3產生三個文字雲CL1、CL2與CL3,其中該些文字雲CL1、CL2與CL3顯示於使用者介面11之顯示畫面的顯示區域C中。該些文字雲CL1、CL2與CL3反映了A公司在與k線k1、k2與k3對應之三個指定時間區段內的時事訊息。舉例來說,k線k1、k2與k3所對應之三個指定時間區段分別為2016/03/1~2016/03/04、2016/03/7~2016/03/10以及2016/05/9~2016/05/12,於是該些文字雲CL1、CL2與CL3便反映了A公司在2016/03/1~2016/03/04、2016/03/7~2016/03/10以及2016/05/9~2016/05/12內的時事訊息。簡言之,圖6所示之分析結果可視為一種具有時序之「訊息流」的呈現。
須說明地是,於本實施例中,產生文字雲的其他技術細節應可由該發明所屬技術領域中具有通常知識者所理解,於此不多做說明。然而,值得注意地是,透過本實施例所提供之金融非結構 化文本分析方法所產生的文字雲與與目前新聞分析或社群分析領域中的常見的文字雲的其中一個差異在於,一般的文字雲是根據被輸入的文章內容並依照文章中各個詞所出現的次數來產生的;但本實施例中的文字雲是根據具有指定之關鍵字的新聞,並依照新聞中以關鍵字為中心的距離範圍內各個詞所出現的次數來產生的。本實施例中的文字雲與一般文字雲的另一個差異在於,於本實施例中,用以產生文字雲之具有指定之關鍵字的新聞均發生於一個指定時間區段,因此,本實施例中根據不同指定時間區段所產生的多個文字雲之間存在有一個時間序列。
簡言之,本實施例中的文字雲與指定之關鍵字(即,特定公司)的關聯程度很高,因此透過本實施例中不同時間點的文字雲,使用者可以較有根據地瞭解該公司的近期營運發展甚至是轉型脈絡,從而制定出較有效的交易策略。
最後須說明地是,雖然特定之方法係參照在本文中所描繪之流程圖來進行描述,但是該發明所屬技術領域中具有通常知識者應該容易地理解,本發明所提供之金融非結構化文本分析方法中各步驟的執行順序並不因此而限制。也就是說,於本發明之其他實施例所提供之金融非結構化文本分析方法中,各步驟之執行順序可以改變、某些步驟可以被組合或者某些步驟可以省略。
[實施例的可能功效]
綜上所述,透過本發明所提供之金融非結構化文本分析系統及其方法,便能使得非結構化數據,如:各產業的新聞報導,轉換為多種結構化的分析結果,使得股票市場的未來趨勢,如:成交量、股價…等,能夠更有依據地被分析與預測。
本發明所提供之金融非結構化文本分析系統於操作上十分容易且直覺,使用者只須透過使用者介面點選顯示畫面中特定公司之股票於時間軸上各時間點所呈現的多種指標(如:成交量、股價、k線…等),本發明所提供之金融非結構化文本分析系統即會產出 多種非結構化之分析結果包括曝光指數、樂觀指數、激勵指數、正文數和負文數,以及文字雲。根據曝光指數、樂觀指數、激勵指數、正文數和負文數,可以瞭解特定公司近期的發展是否活躍,以及近期的營運是否樂觀。另外,根據文字雲,可以快速地獲得與特定公司近期之動向相關的因子。
相較於傳統上以結構化資訊(如:目前或過往的成交量或股價波動)為依據的金融非結構化文本分析系統或方法,就股票市場的未來趨勢預測而言,本發明所提供之金融非結構化文本分析系統及其方法所提供的分析結果更具有參考價值。
以上所述僅為本發明之實施例,其並非用以侷限本發明之專利範圍。

Claims (18)

  1. 一種金融非結構化文本分析系統,包括:一使用者介面,設置以輸入一關鍵字與顯示一分析結果;一伺服器,設置以運行至少一資料庫;一記憶體,設置以儲存一分析程式;以及一處理器,連接於該使用者介面、該伺服器與該記憶體,設置以執行該分析程式以執行以下操作:根據該關鍵字,透過該伺服器於該資料庫中搜尋一預設時間區段內與該關鍵字相關之複數篇新聞;以及針對該些新聞,進行一詞性分析運算,以計算出該預設時間區段內每個時間點的一整體樂觀指數與一整體激勵指數作為該分析結果;其中,該整體樂觀指數代表該些新聞之整體情緒程度,且該整體激勵指數代表該些新聞之整體期望程度;其中當該處理器根據該關鍵字於該資料庫中搜尋該預設時間區段內與該關鍵字相關之該些新聞後,該處理器執行該分析程式以進一步執行以下操作:根據該預設時間區段內一指定時間區段,透過該伺服器擷取於該指定時間區段內與該關鍵字相關之該些新聞;以及根據該些新聞,計算並產生一文字雲以作為該分析結果;其中當一使用者點選該分析結果中的多個k線時,該處理器會針對該些k線顯示多個文字雲,該些文字雲反映與該些k線對應的多個指定時間區段的時事訊息。
  2. 如請求項1所述之金融非結構化文本分析系統,其中該整體樂觀指數為介於1至9的一實數值,該整體樂觀指數越高,表示該些新聞之整體情緒越樂觀,而該整體樂觀指數越低,表示該些新聞之整體情緒越悲觀,且該整體激勵指數亦為介於1至9的一實數值,該整體激勵指數越高,表示該些新聞之整體期望越迫切,而該整體激勵指數越低,表示該些新聞之整體期望越平淡。
  3. 如請求項2所述之金融非結構化文本分析系統,其中當該處理器針對該些新聞進行該詞性分析運算,以計算出該整體樂觀指數與該整體激勵指數時,該處理器執行該分析程式以進一步執行以下操作:針對每篇新聞,計算出一樂觀指數與一激勵指數;以及將該些新聞之該些樂觀指數與該些激勵指數分別平均,以計算出該整體樂觀指數與該整體激勵指數;其中,該處理器會先根據一預設詞典找出出現於該篇新聞中的情感詞,再根據該預設詞典對應計算出每個出現的情感詞所對應之情緒分數與期望分數,接著該處理器將該篇新聞中所有情感詞的情緒分數與期望分數分別進行平均,以計算出該篇新聞的該樂觀指數與該激勵指數。
  4. 如請求項3所述之金融非結構化文本分析系統,其中該處理器以執行該分析程式以進一步執行以下操作:判斷該新聞之該樂觀指數是否大於等於一第一預設指數或是否小於一第二預設指數,以計算出該預設時間區段內每個時間點的一正文數與一負文數以作為該分析結果;若該新聞之該樂觀指數是大於等於該第一預設指數,則將該正文數加一;以及若該新聞之該樂觀指數是小於該第二預設指數,則將該負文數加一。
  5. 如請求項1所述之金融非結構化文本分析系統,其中該關鍵字為一股票代碼,當該處理器透過該伺服器搜尋與該關鍵字相關之該些新聞時,該處理器透過該伺服器搜尋存在有對應該股票代碼之一公司名稱的該些新聞。
  6. 如請求項1所述之金融非結構化文本分析系統,其中該關鍵字為一公司名稱,當該處理器透過該伺服器搜尋與該關鍵字相關之該些新聞時,該處理器透過該伺服器搜尋存在該公司名稱的該些新聞。
  7. 如請求項5或請求項6所述之金融非結構化文本分析系統,其中該處理器執行該分析程式以進一步執行以下操作:針對該些新聞,計數該公司名稱出現之次數,並根據該公司名稱出現之次數計算出一曝光指數以作為該分析結果。
  8. 如請求項1所述之金融非結構化文本分析系統,其中該使用者介面更設置以輸入一特定時間區段,以使該處理器根據該關鍵字,透過該伺服器於該資料庫中搜尋該特定時間區段內與該關鍵字相關之該些新聞。
  9. 如請求項1所述之金融非結構化文本分析系統,其中當該處理器根據該關鍵字於該資料庫中搜尋該預設時間區段內與該關鍵字相關之該些新聞後,該處理器執行該分析程式以進一步執行以下操作:根據該些新聞,計算並產生一文字雲以作為該分析結果。
  10. 一種金融非結構化文本分析方法,適用於一金融非結構化文本分析系統,該金融非結構化文本分析系統包括一使用者介面、一伺服器、一記憶體與一處理器,該使用者介面設置以輸入一關鍵字與顯示一分析結果,該伺服器設置以運行至少一資料庫,該記憶體設置以儲存一分析程式,該處理器連接於該使用者介面、該伺服器與該記憶體,且該處理器設置以執行該分析程式以執行該金融非結構化文本分析方法,包括:根據該關鍵字,透過該伺服器於該資料庫中搜尋一預設時間區段內與該關鍵字相關之複數篇新聞;以及針對該些新聞,進行一詞性分析運算,以計算出該預設時間區段內每個時間點的一整體樂觀指數與一整體激勵指數作為該分析結果;其中,該整體樂觀指數代表該些新聞之整體情緒程度,且該整體激勵指數代表該些新聞之整體期望程度;其中於根據該關鍵字於該資料庫中搜尋該預設時間區段內與該關鍵字相關之該些新聞的步驟後,更包括:根據該預設時間區段內一指定時間區段,透過該伺服器擷取於該指定時間區段內與該關鍵字相關之該些新聞;以及根據該些新聞,計算並產生一文字雲以作為該分析結果;其中當一使用者點選該分析結果中的多個k線時,該處理器會針對該些k線顯示多個文字雲,該些文字雲反映與該些k線對應的多個指定時間區段的時事訊息。
  11. 如請求項10所述之金融非結構化文本分析方法,其中該整體樂觀指數為介於1至9的一實數值,該整體樂觀指數越高,表示該些新聞之整體情緒越樂觀,而該整體樂觀指數越低,表示該些新聞之整體情緒越悲觀,且該整體激勵指數亦為介於1至9的一實數值,該整體激勵指數越高,表示該些新聞之整體期望越迫切,而該整體激勵指數越低,表示該些新聞之整體期望越平淡。
  12. 如請求項11所述之金融非結構化文本分析方法,其中於針對該些新聞進行該詞性分析運算,以計算出該整體樂觀指數與該整體激勵指數的步驟中,更包括:針對每篇新聞,計算出一樂觀指數與一激勵指數;以及將該些新聞之該些樂觀指數與該些激勵指數分別平均,以計算出該整體樂觀指數與該整體激勵指數;其中,先根據一預設詞典找出出現於該篇新聞中的情感詞,再根據該預設詞典對應計算出每個出現的情感詞所對應之情緒分數與期望分數,接著將該篇新聞中所有情感詞的情緒分數與期望分數分別進行平均,以計算出該篇新聞的該樂觀指數與該激勵指數。
  13. 如請求項12所述之金融非結構化文本分析方法,更包括:判斷該新聞之該樂觀指數是否大於等於一第一預設指數或是否小於一第二預設指數,以計算出該預設時間區段內每個時間點的一正文數與一負文數以作為該分析結果;若該新聞之該樂觀指數是大於等於該第一預設指數,則將該正文數加一;以及若該新聞之該樂觀指數是小於該第二預設指數,則將該負文數加一。
  14. 如請求項10所述之金融非結構化文本分析方法,其中該關鍵字為一股票代碼,當該處理器透過該伺服器搜尋與該關鍵字相關之該些新聞時,該處理器透過該伺服器搜尋存在有對應該股票代碼之一公司名稱的該些新聞。
  15. 如請求項10所述之金融非結構化文本分析方法,其中該關鍵字為一公司名稱,當該處理器透過該伺服器搜尋與該關鍵字相關之該些新聞時,該處理器透過該伺服器搜尋存在該公司名稱的該些新聞。
  16. 如請求項14或請求項15所述之金融非結構化文本分析方法,更包括:針對該些新聞,計數該公司名稱出現之次數,並根據該公司名稱出現之次數計算出一曝光指數以作為該分析結果。
  17. 如請求項10所述之金融非結構化文本分析方法,其中該使用者介面更設置以輸入一特定時間區段,以使該處理器根據該關鍵字,透過該伺服器於該資料庫中搜尋該特定時間區段內與該關鍵字相關之該些新聞。
  18. 如請求項10所述之金融非結構化文本分析方法,其中於根據該關鍵字於該資料庫中搜尋該預設時間區段內與該關鍵字相關之該些新聞的步驟後,更包括:根據該些新聞,計算並產生一文字雲以作為該分析結果。
TW106135125A 2017-10-13 2017-10-13 金融非結構化文本分析系統及其方法 TWI643076B (zh)

Priority Applications (3)

Application Number Priority Date Filing Date Title
TW106135125A TWI643076B (zh) 2017-10-13 2017-10-13 金融非結構化文本分析系統及其方法
CN201710982990.7A CN110019389A (zh) 2017-10-13 2017-10-20 金融非结构化文本分析系统及其方法
US15/822,140 US20190114711A1 (en) 2017-10-13 2017-11-25 Financial analysis system and method for unstructured text data

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
TW106135125A TWI643076B (zh) 2017-10-13 2017-10-13 金融非結構化文本分析系統及其方法

Publications (2)

Publication Number Publication Date
TWI643076B true TWI643076B (zh) 2018-12-01
TW201915777A TW201915777A (zh) 2019-04-16

Family

ID=65431897

Family Applications (1)

Application Number Title Priority Date Filing Date
TW106135125A TWI643076B (zh) 2017-10-13 2017-10-13 金融非結構化文本分析系統及其方法

Country Status (3)

Country Link
US (1) US20190114711A1 (zh)
CN (1) CN110019389A (zh)
TW (1) TWI643076B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TWI765645B (zh) * 2021-04-07 2022-05-21 元智大學 財經文本的投資評分方法
TWI811580B (zh) * 2020-11-04 2023-08-11 合作金庫商業銀行股份有限公司 金融訊息提供系統及提供金融訊息的方法

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110377628A (zh) * 2019-07-23 2019-10-25 京东方科技集团股份有限公司 一种信息获取方法、装置及电子设备
KR102124978B1 (ko) * 2019-07-31 2020-06-22 (주)크래프트테크놀로지스 증권 거래를 위한 주문 집행을 수행하는 서버 및 방법
KR102124979B1 (ko) * 2019-07-31 2020-06-22 (주)크래프트테크놀로지스 증권 거래를 위한 주문 집행을 수행하는 서버 및 방법
CN111581472A (zh) * 2020-03-23 2020-08-25 北京航空航天大学 互联网金融产品宣传收益率和承诺提取方法及系统
CN111652501B (zh) * 2020-05-29 2023-05-05 泰康保险集团股份有限公司 金融产品评估装置及方法、电子设备、存储介质
CN113673224B (zh) * 2021-08-19 2022-04-05 北京三快在线科技有限公司 识别热门词汇的方法、装置、计算机设备及可读存储介质
CN114386433A (zh) * 2022-01-12 2022-04-22 中国农业银行股份有限公司 基于情感分析的数据处理方法、装置、设备及存储介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102023967A (zh) * 2010-11-11 2011-04-20 清华大学 一种面向股票领域的文本情感分类方法
CN105022725A (zh) * 2015-07-10 2015-11-04 河海大学 一种应用于金融Web领域的文本情感倾向分析方法

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20070150397A1 (en) * 2005-12-27 2007-06-28 Gridstock Inc. Search engine for stock investment strategies
US11257161B2 (en) * 2011-11-30 2022-02-22 Refinitiv Us Organization Llc Methods and systems for predicting market behavior based on news and sentiment analysis
US8937275B2 (en) * 2012-10-12 2015-01-20 Thermo Fisher Scientific Inc. Method and apparatus to monitor gain of a proportional counter including correcting the counting threshold of a pulse height spectrum
US20150206243A1 (en) * 2013-12-27 2015-07-23 Martin Camins Method and system for measuring financial asset predictions using social media
CN104951807B (zh) * 2015-07-10 2018-09-25 沃民高新科技(北京)股份有限公司 股市情绪的确定方法和装置
US20180239741A1 (en) * 2017-02-17 2018-08-23 General Electric Company Methods and systems for automatically identifying keywords of very large text datasets

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102023967A (zh) * 2010-11-11 2011-04-20 清华大学 一种面向股票领域的文本情感分类方法
CN105022725A (zh) * 2015-07-10 2015-11-04 河海大学 一种应用于金融Web领域的文本情感倾向分析方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TWI811580B (zh) * 2020-11-04 2023-08-11 合作金庫商業銀行股份有限公司 金融訊息提供系統及提供金融訊息的方法
TWI765645B (zh) * 2021-04-07 2022-05-21 元智大學 財經文本的投資評分方法

Also Published As

Publication number Publication date
TW201915777A (zh) 2019-04-16
US20190114711A1 (en) 2019-04-18
CN110019389A (zh) 2019-07-16

Similar Documents

Publication Publication Date Title
TWI643076B (zh) 金融非結構化文本分析系統及其方法
Arias et al. Forecasting with twitter data
US9268766B2 (en) Phrase-based data classification system
Huang et al. Feature screening for ultrahigh dimensional categorical data with applications
CN110692050A (zh) 语义图中元关系的自适应评估
US11698918B2 (en) System and method for content-based data visualization using a universal knowledge graph
US20190303395A1 (en) Techniques to determine portfolio relevant articles
US10002187B2 (en) Method and system for performing topic creation for social data
US20210224481A1 (en) Method and apparatus for topic early warning, computer equipment and storage medium
CN114116997A (zh) 知识问答方法、装置、电子设备及存储介质
Chou et al. Integrating XBRL data with textual information in Chinese: A semantic web approach
US12020271B2 (en) Identifying competitors of companies
AU2018101524A4 (en) Stock prediction research based on finiancial news by svm
Dąbrowski et al. Mining and searching app reviews for requirements engineering: Evaluation and replication studies
US20150149448A1 (en) Method and system for generating dynamic themes for social data
WO2024040817A1 (zh) 基于大数据的债券风险信息处理方法及相关设备
CN113987086A (zh) 数据处理方法、数据处理装置、电子设备以及存储介质
Wei et al. Online education recommendation model based on user behavior data analysis
CN111126073B (zh) 语义检索方法和装置
CN116955856A (zh) 信息展示方法、装置、电子设备以及存储介质
JP2018198044A (ja) 複数イベント・パターン・クエリーを生成するための装置および方法
Zhang et al. Labelling issue reports in mobile apps
Zhu Financial data analysis application via multi-strategy text processing
CN111222918B (zh) 关键词挖掘方法、装置、电子设备及存储介质
Al-Fraihat et al. Detecting refactoring type of software commit messages based on ensemble machine learning algorithms

Legal Events

Date Code Title Description
MM4A Annulment or lapse of patent due to non-payment of fees